O Screen Study Translator é um aplicativo desktop open source para Windows e Linux que captura uma região da tela, executa OCR no texto exibido e usa IA para traduzir, organizar e apoiar estudos em tempo real.

Ele funciona como uma janela flutuante sobre outros aplicativos, permitindo acompanhar conteúdos em inglês, questões, simulados, aulas, documentações e materiais técnicos sem precisar copiar manualmente o texto.

Principais Funcionalidades

Captura de Tela com Viewport Ajustável

O aplicativo cria uma área de captura independente para o OCR.

Funcionalidades do viewport:

Redimensionamento pelas bordas e cantos.
Movimento por drag and drop.
Persistência automática da posição e tamanho.
Leitura pausada durante o redimensionamento.
Borda visual indicando onde o OCR está monitorando.
Fundo quase transparente para facilitar o posicionamento.

Overlay Flutuante

A interface principal é uma janela HTML/CSS/JS renderizada via PyQt WebEngine.

Recursos da janela:

Sempre no topo.
Cantos arredondados.
Redimensionamento em tempo real.
Movimento pela barra superior.
Botão de minimizar.
Botão de fechar.
Botão para pausar ou retomar leituras.
Botão para limpar o conteúdo exibido.
Botão para voltar à tela inicial.

Sessões de Estudo em Formato de Chat

Antes de iniciar as leituras, o usuário pode criar uma sessão com:

Título.
Contexto de estudo.
Histórico reutilizável.

O título e o contexto ajudam a orientar a IA, mas não são duplicados no campo de contexto da resposta. O contexto exibido na tela vem apenas do texto detectado pelo OCR antes da pergunta.

OCR com Cache

O sistema captura a tela em intervalos configuráveis e aplica OCR no conteúdo.

Recursos:

OCR com Tesseract.
Configuração manual do caminho do Tesseract.
Suporte a Windows e Linux.
Cache por fingerprint da imagem capturada.
Evita releituras desnecessárias quando a tela não muda.
Delay configurável entre capturas.
Opção de ativar uso de GPU quando aplicável.

Tradução e Apoio com IA

O aplicativo pode operar em dois modos.

Modo Assistente IA

Quando ativado, a IA analisa o conteúdo OCR e retorna:

Contexto traduzido.
Pergunta traduzida.
Alternativas traduzidas.
Dica curta de raciocínio.
Explicação orientada ao estudo.

O sistema preserva textos anteriores à pergunta, como:

Situation:
Scenario:
Context:
Given:
Cabeçalhos como Question 4 (Scenario: ...)

Esses trechos são tratados como contexto da pergunta e traduzidos para português.

Modo Somente Tradução

Quando o assistente IA é desativado, o app funciona apenas como tradutor.

Nesse modo:

O texto OCR é traduzido diretamente.
Alternativas e dica são ocultadas.
A IA não tenta responder a pergunta.
O resultado é mais simples e focado apenas na tradução.

Configurações pela Interface

O app possui uma tela de configurações com abas.

Geral

Ajuste do tamanho da fonte.
Persistência do tamanho escolhido.

OpenAI

Configuração da API key.
Escolha do modelo.
Ativação ou desativação do Assistente IA.

OCR

Ativar/desativar GPU.
Configurar tempo entre capturas.
Configurar caminho do executável do Tesseract.

As configurações são salvas no arquivo .env.

Se o .env não existir, o aplicativo cria um automaticamente com valores padrão.

Histórico e Cache Local

O aplicativo mantém um banco local em JSON para:

Histórico de chats.
Leituras OCR.
Respostas da IA.
Fingerprints.
Geometria da janela principal.
Geometria do viewport OCR.
Preferências de interface.

Também há opções para:

Limpar cache OCR/IA.
Limpar histórico de chats.

Suporte a Windows e Linux

O projeto inclui scripts para instalação, execução e build nas duas plataformas.

Windows:

Setup automatizado.
Instalação/configuração do Tesseract.
Execução local.
Build com PyInstaller.

Linux:

Setup via gerenciadores de pacote compatíveis.
Instalação do Tesseract.
Execução local.
Build com PyInstaller.

Build do Executável

O projeto possui scripts para gerar o executável localmente.

Windows:

.\scripts\build-windows.ps1

Linux:

./scripts/build-linux.sh

O executável é gerado em:

dist/screen-study-translator/

Casos de Uso

O Screen Study Translator pode ser usado para:

Estudar questões em inglês.
Acompanhar simulados técnicos.
Traduzir documentação.
Ler conteúdos exibidos em vídeos, slides ou páginas.
Apoiar revisão de conceitos.
Praticar interpretação de texto técnico.
Acessibilidade em conteúdos não copiáveis.

Dados Locais

Os dados são armazenados localmente no computador do usuário.

Exemplos de dados salvos:

Configurações.
Histórico de sessões.
OCRs capturados.
Respostas da IA.
Cache.
Posição das janelas.

Nenhum dado local deve ser compartilhado publicamente caso contenha informações privadas, chaves de API ou capturas sensíveis.

Filosofia do Projeto

O Screen Study Translator foi criado para fins de estudo, prática, acessibilidade e revisão de conteúdo. Ele não deve ser usado para burlar regras de provas, entrevistas, certificações ou avaliações em que assistência externa não seja permitida.

Tecnologias

Python
PyQt6
PyQt6 WebEngine
HTML
CSS
JavaScript
Tesseract OCR
OpenAI API
PyInstaller
JSON local para cache e histórico

Licença

O projeto é distribuído sob licença MIT.

Screenshots

Colaboradores

Marcelo Brasil

Ver perfil →

Screen Study Translator