Screen Study Translator
DesktopO Screen Study Translator é um aplicativo desktop Open Source que captura uma região da tela, executa OCR no texto exibido, traduz, e usa IA para organizar e apoiar estudos em tempo real.
O Screen Study Translator é um aplicativo desktop open source para Windows e Linux que captura uma região da tela, executa OCR no texto exibido e usa IA para traduzir, organizar e apoiar estudos em tempo real.
Ele funciona como uma janela flutuante sobre outros aplicativos, permitindo acompanhar conteúdos em inglês, questões, simulados, aulas, documentações e materiais técnicos sem precisar copiar manualmente o texto.
Principais Funcionalidades
Captura de Tela com Viewport Ajustável
O aplicativo cria uma área de captura independente para o OCR.
Funcionalidades do viewport:
- Redimensionamento pelas bordas e cantos.
- Movimento por drag and drop.
- Persistência automática da posição e tamanho.
- Leitura pausada durante o redimensionamento.
- Borda visual indicando onde o OCR está monitorando.
- Fundo quase transparente para facilitar o posicionamento.
Overlay Flutuante
A interface principal é uma janela HTML/CSS/JS renderizada via PyQt WebEngine.
Recursos da janela:
- Sempre no topo.
- Cantos arredondados.
- Redimensionamento em tempo real.
- Movimento pela barra superior.
- Botão de minimizar.
- Botão de fechar.
- Botão para pausar ou retomar leituras.
- Botão para limpar o conteúdo exibido.
- Botão para voltar à tela inicial.
Sessões de Estudo em Formato de Chat
Antes de iniciar as leituras, o usuário pode criar uma sessão com:
- Título.
- Contexto de estudo.
- Histórico reutilizável.
O título e o contexto ajudam a orientar a IA, mas não são duplicados no campo de contexto da resposta. O contexto exibido na tela vem apenas do texto detectado pelo OCR antes da pergunta.
OCR com Cache
O sistema captura a tela em intervalos configuráveis e aplica OCR no conteúdo.
Recursos:
- OCR com Tesseract.
- Configuração manual do caminho do Tesseract.
- Suporte a Windows e Linux.
- Cache por fingerprint da imagem capturada.
- Evita releituras desnecessárias quando a tela não muda.
- Delay configurável entre capturas.
- Opção de ativar uso de GPU quando aplicável.
Tradução e Apoio com IA
O aplicativo pode operar em dois modos.
Modo Assistente IA
Quando ativado, a IA analisa o conteúdo OCR e retorna:
- Contexto traduzido.
- Pergunta traduzida.
- Alternativas traduzidas.
- Dica curta de raciocínio.
- Explicação orientada ao estudo.
O sistema preserva textos anteriores à pergunta, como:
-
Situation: -
Scenario: -
Context: -
Given: -
Cabeçalhos como
Question 4 (Scenario: ...)
Esses trechos são tratados como contexto da pergunta e traduzidos para português.
Modo Somente Tradução
Quando o assistente IA é desativado, o app funciona apenas como tradutor.
Nesse modo:
- O texto OCR é traduzido diretamente.
- Alternativas e dica são ocultadas.
- A IA não tenta responder a pergunta.
- O resultado é mais simples e focado apenas na tradução.
Configurações pela Interface
O app possui uma tela de configurações com abas.
Geral
- Ajuste do tamanho da fonte.
- Persistência do tamanho escolhido.
OpenAI
- Configuração da API key.
- Escolha do modelo.
- Ativação ou desativação do Assistente IA.
OCR
- Ativar/desativar GPU.
- Configurar tempo entre capturas.
- Configurar caminho do executável do Tesseract.
As configurações são salvas no arquivo .env.
Se o .env não existir, o aplicativo cria um automaticamente com valores padrão.
Histórico e Cache Local
O aplicativo mantém um banco local em JSON para:
- Histórico de chats.
- Leituras OCR.
- Respostas da IA.
- Fingerprints.
- Geometria da janela principal.
- Geometria do viewport OCR.
- Preferências de interface.
Também há opções para:
- Limpar cache OCR/IA.
- Limpar histórico de chats.
Suporte a Windows e Linux
O projeto inclui scripts para instalação, execução e build nas duas plataformas.
Windows:
- Setup automatizado.
- Instalação/configuração do Tesseract.
- Execução local.
- Build com PyInstaller.
Linux:
- Setup via gerenciadores de pacote compatíveis.
- Instalação do Tesseract.
- Execução local.
- Build com PyInstaller.
Build do Executável
O projeto possui scripts para gerar o executável localmente.
Windows:
.\scripts\build-windows.ps1
Linux:
./scripts/build-linux.sh
O executável é gerado em:
dist/screen-study-translator/
Casos de Uso
O Screen Study Translator pode ser usado para:
- Estudar questões em inglês.
- Acompanhar simulados técnicos.
- Traduzir documentação.
- Ler conteúdos exibidos em vídeos, slides ou páginas.
- Apoiar revisão de conceitos.
- Praticar interpretação de texto técnico.
- Acessibilidade em conteúdos não copiáveis.
Dados Locais
Os dados são armazenados localmente no computador do usuário.
Exemplos de dados salvos:
- Configurações.
- Histórico de sessões.
- OCRs capturados.
- Respostas da IA.
- Cache.
- Posição das janelas.
Nenhum dado local deve ser compartilhado publicamente caso contenha informações privadas, chaves de API ou capturas sensíveis.
Filosofia do Projeto
O Screen Study Translator foi criado para fins de estudo, prática, acessibilidade e revisão de conteúdo. Ele não deve ser usado para burlar regras de provas, entrevistas, certificações ou avaliações em que assistência externa não seja permitida.
Tecnologias
- Python
- PyQt6
- PyQt6 WebEngine
- HTML
- CSS
- JavaScript
- Tesseract OCR
- OpenAI API
- PyInstaller
- JSON local para cache e histórico
Licença
O projeto é distribuído sob licença MIT.
Screenshots