DeepSeek OCR: Guia
DeepSeek-OCR oferece uma nova abordagem para o processamento de textos longos. Em vez de uma deteção direta de texto, o sistema comprime as informações visuais de documentos para as tornar mais eficientemente utilizáveis em Large Language Models (LLMs) downstream. Este artigo examina o funcionamento, a instalação e as implicações práticas deste modelo.
Introdução DeepSeek-OCR
DeepSeek-OCR comprime o contexto do texto visualmente. As páginas de documentos são entendidas como imagens, condensadas em poucos tokens de visão e, em seguida, reconstruídas em texto ou Markdown. A equipa relata uma redução de sete a vinte vezes nos tokens e até cerca de 97% de precisão com compressão moderada, dependendo do grau de compressão. Código oficial, scripts e uma Conexão vLLM estão disponíveis.
DeepSeek-OCR não é um substituto clássico do Tesseract. É um sistema de Visão-Linguagem, composto por duas partes: Um Codificador (DeepEncoder) gera tokens de visão compactos; um Descodificador MoE com cerca de 3 mil milhões de parâmetros reconstrói texto ou Markdown a partir destes. O objetivo não é tanto o puro reconhecimento de caracteres, mas sim a compressão de contexto para fluxos de trabalho LLM downstream. O
Cartão do Modelo
descreve ambientes testados (Python 3.12.9, CUDA 11.8, Torch 2.6.0, Flash-Attention 2.7.3) e mostra prompts como "
Instalação e Uso
A utilização do DeepSeek-OCR requer pré-requisitos específicos e uma instalação precisa.
Esclarecer Pré-requisitos
É necessária uma GPU NVIDIA com o driver mais recente, CUDA 11.8 e Python 3.12.9. Os estados de pacotes testados incluem, entre outros, torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3 . O README do GitHub nota a mesma pilha; o suporte vLLM é oficial.
Carregar Código Fonte
O código fonte é carregado através de git clone https://github.com/deepseek-ai/DeepSeek-OCR.git . Em seguida, muda-se para a pasta criada.
Criar Ambiente
Um ambiente Conda é criado e ativado com conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr .
Instalar Pacotes (Caminho Transformers)
A instalação dos pacotes necessários é feita através dos seguintes comandos:
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation
Detalhes e combinações testadas podem ser encontradas no Cartão do Modelo .
Inferir a Primeira Imagem (Transformers)
Para a inferência de uma imagem através da biblioteca Transformers, o procedimento em Python é o seguinte:
from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)
Um exemplo de prompt é "<image>\n<|grounding|>Convert the document to markdown.". Após definir model.infer(...) é chamado. O snippet completo está disponível no
Cartão do Modelo .
Serviço vLLM para Desempenho (opcional, suportado oficialmente)
Para maior desempenho, pode ser usado o vLLM:
uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
Em seguida, em Python com vLLM, um LLM(model="deepseek-ai/DeepSeek-OCR") é criado, imagens como PIL-Images são passadas e geradas com SamplingParams . Exemplos de código podem ser encontrados no
README
e no
Cartão do Modelo.
. O repositório contém scripts como
README como referência "~2500 Tokens/s" numa A100-40G.
Selecionar Prompts e Modos
Para documentos, o prompt "<image>\n<|grounding|>Convert the document to markdown." é usado. Para OCR puro sem layout, serve "<image>\nFree OCR.".
São suportados, entre outros, tamanhos de imagem "Tiny/Small/Base/Large" e um modo dinâmico "Gundam". As informações sobre isso podem ser encontradas no
README
e no
Cartão do Modelo.
Processar PDFs
PDFs podem ser processados com Repo mostram caminhos de entrada e saída.
Verificar Resultado
A saída é em Markdown ou texto. Tabelas e figuras podem ser reproduzidas como texto estruturado. A qualidade e velocidade dependem do grau de compressão, da resolução e da GPU.
Resolução de Problemas
Ao construir flash-attn, a opção Discussões.
Cronologia e Estado
A primeira publicação ocorreu em 20.10.2025 no Repo; ; o suporte vLLM está integrado no vLLM desde 23.10.2025. O Artigo foi submetido ao arXiv em 21.10.2025. Os meios de comunicação classificam isto como "Compressão Visão-Texto".
Quelle: YouTube
Análise e Avaliação
DeepSeek-OCR visa reduzir os custos e a latência em fluxos de trabalho LLM, comprimindo visualmente contextos longos.
Motivos, Contexto, Interesses
A abordagem é motivada pelos altos custos de contextos longos. A compressão de páginas como imagem em poucos tokens de visão reduz significativamente o orçamento de tokens para modelos downstream. A integração oficial do vLLM visa alto desempenho em pipelines de produção. Os meios técnicos enfatizam os potenciais ganhos de custo e latência, mas alertam contra a variação dependente do hardware e dos dados.

Quelle: pxz.ai
DeepSeek OCR utiliza compressão de contexto para aumentar significativamente a eficiência em comparação com os LLMs de visão convencionais e reduzir os custos de tokens.
Verificação de Fatos: Provas vs. Alegações
Comprovado
A arquitetura (DeepEncoder + 3B-MoE-Decoder), os valores de precisão relatados com <10x ou 20x compressão e o objetivo de "Compressão de Contexto" estão comprovados no Artigo . Os passos de instalação, scripts e exemplos de prompts podem ser encontrados no README e no Cartão do Modelo; ; o suporte vLLM está documentado lá.
Não Claro
Declarações genéricas de "X vezes mais rápido" sem hardware ou contexto de dados idênticos não são transferíveis. Os débitos reais dependem muito da GPU, resolução, prompt e tamanho do lote.
Falso/Enganador
DeepSeek-OCR não é "apenas um OCR mais rápido". O objetivo principal é a compressão visual para fluxos de trabalho LLM. Para reconhecimento de texto puro e simples, o OCR clássico (por exemplo, Tesseract) ) ainda pode ser útil.

Quelle: freedeepseekocr.com
A interface de demonstração DeepSeek-OCR permite o fácil upload de documentos e a seleção de diferentes tamanhos de modelo para processamento.
Reações e Contrapontos
Relatórios técnicos destacam a poupança de tokens de 7 a 20x. Vozes céticas questionam a robustez em layouts e idiomas, bem como a perda de qualidade com forte compressão. Os desenvolvedores documentam configurações e obstáculos em hardware específico. Posts da comunidade relatam um processamento muito rápido de PDF para Markdown sob vLLM, mas estes são anedóticos. Benefício Prático: Quem coloca PDFs longos, tabelas, formulários ou relatórios em pipelines LLM pode reduzir custos e latência com DeepSeek-OCR, desde que a reconstrução permaneça suficientemente precisa. Para um serviço rápido, vale a pena o caminho vLLM; para configurações mínimas, a inferência Transformers é suficiente. Para digitalizações simples, "limpas", sem exigências de layout, o Tesseract pode ser mais eficiente.
Impacto e o que significa para si
Dicas para a classificação: Fontes primárias primeiro (Artigo, README, Cartão do Modelo), depois medições próprias no hardware; compare variantes de Prompt, Resolução e Grau de Compressão.
Quão estáveis são os trade-offs em idiomas, caligrafia, digitalizações e estruturas finas de tabelas? Benchmarks independentes e estudos de replicação ainda estão pendentes. Como se desenvolve o suporte oficial a CPU/MPS além dos workarounds da comunidade? Existem discussões, mas sem garantias rigorosas. Quão robusto é o desempenho de PDF sob cargas de produção reais e fora do hardware A100? O
Quelle: YouTube
Questões em Aberto
README README menciona exemplos, mas não valores de SLA universalmente válidos.

Quelle: chattools.cn
Diagramas detalhados ilustram as impressionantes métricas de compressão e desempenho do DeepSeek OCR, sublinhando a sua eficiência.
Conclusão e Recomendações
Para usar o DeepSeek-OCR de forma sensata, o ambiente deve ser configurado exatamente como descrito no Cartão do Modelo ou no README . Comece com o exemplo Transformers e mude para vLLM para maior desempenho. Adapte Prompts e Modos aos respetivos documentos e pondere a qualidade em relação ao grau de compressão. Para casos de OCR puro e simples, o OCR clássico continua a ser uma opção leve; para documentos longos e complexos, a compressão visual de contexto demonstra a sua força.