DeepSeek OCR: Guida
DeepSeek-OCR offre un approccio nuovo all'elaborazione di testi lunghi. Invece di un riconoscimento diretto del testo, il sistema comprime le informazioni visive dei documenti per renderle più efficienti per i Large Language Models (LLM) a valle. Questo articolo illustra il funzionamento, l'installazione e le implicazioni pratiche di questo modello.
Introduzione a DeepSeek-OCR
DeepSeek-OCR comprime visivamente il contesto del testo. Le pagine dei documenti sono interpretate come immagini, condensate in pochi token visivi e poi ricostruite in testo o Markdown. Il team riporta una riduzione dei token da sette a venti volte e una precisione fino a circa il 97% con una compressione moderata, a seconda del grado di compressione. Il codice ufficiale, gli script e una connessione vLLM sono disponibili.
DeepSeek-OCR non è un classico sostituto di Tesseract. Si tratta di un sistema Vision-Language, composto da due parti: un codificatore (DeepEncoder) genera token visivi compatti; un decodificatore MoE con circa 3 miliardi di parametri ricostruisce testo o Markdown da essi. L'obiettivo non è tanto il puro riconoscimento dei caratteri, quanto la compressione del contesto per i flussi di lavoro LLM a valle. La
Model Card
descrive gli ambienti testati (Python 3.12.9, CUDA 11.8, Torch 2.6.0, Flash-Attention 2.7.3) e mostra prompt come "
Installazione e utilizzo
L'utilizzo di DeepSeek-OCR richiede prerequisiti specifici e un'installazione precisa.
Chiarire i prerequisiti
Sono richieste una GPU NVIDIA con driver aggiornato, CUDA 11.8 e Python 3.12.9. Le versioni dei pacchetti testate includono, tra gli altri, torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3 . Il README di GitHub indica lo stesso stack; il supporto vLLM è ufficiale.
Caricare il codice sorgente
Il codice sorgente viene caricato tramite git clone https://github.com/deepseek-ai/DeepSeek-OCR.git . Successivamente, si passa alla cartella creata.
Creare l'ambiente
Un ambiente Conda viene creato e attivato con conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr .
Installare i pacchetti (percorso Transformers)
L'installazione dei pacchetti necessari avviene tramite i seguenti comandi:
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation
Dettagli e combinazioni testate si trovano nella Model Card .
Inferire la prima immagine (Transformers)
Per l'inferenza di un'immagine tramite la libreria Transformers, si procede come segue in Python:
from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)
Un esempio di prompt è "<image>\n<|grounding|>Convert the document to markdown.". Dopo aver impostato model.infer(...) , viene chiamata. Lo snippet completo è disponibile nella
Model Card .
vLLM-Serving per throughput (opzionale, supportato ufficialmente)
Per un throughput maggiore, è possibile utilizzare vLLM:
uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
Successivamente, in Python con vLLM, viene creato un LLM(model="deepseek-ai/DeepSeek-OCR") , le immagini vengono passate come PIL-Images e generate con SamplingParams . Esempi di codice si trovano nel
README
e nella
Model Card.
. Il repository contiene script come
README come valore di riferimento "~2500 Tokens/s" su una A100-40G.
Scegliere prompt e modalità
Per i documenti, viene utilizzato il prompt "<image>\n<|grounding|>Convert the document to markdown." . Per la pura OCR senza layout, serve "<image>\nFree OCR.".
Supporta, tra le altre cose, dimensioni di immagine "Tiny/Small/Base/Large" e una modalità dinamica "Gundam". Le informazioni a riguardo si trovano nel
README
e nella
Model Card.
Elaborare i PDF
I PDF possono essere elaborati con Repo mostrano i percorsi di input e output.
Controllare il risultato
L'output è in Markdown o testo. Tabelle e figure possono essere riprodotte come testo strutturato. Qualità e velocità dipendono dal grado di compressione, dalla risoluzione e dalla GPU.
Risoluzione dei problemi
Durante la costruzione di flash-attn, l'opzione Discussioni.
Cronologia e stato
La prima pubblicazione è avvenuta il 20.10.2025 nel Repo; ; il supporto vLLM è integrato anche "upstream" in vLLM dal 23.10.2025. Il Paper è stato presentato su arXiv il 21.10.2025. I media lo classificano come "Compressione Vision-Text".
Quelle: YouTube
Analisi e valutazione
DeepSeek-OCR mira a ridurre i costi e la latenza nei flussi di lavoro LLM comprimendo visivamente contesti lunghi.
Motivi, contesto, interessi
L'approccio è motivato dai costi elevati dei contesti lunghi. La compressione delle pagine come immagine in pochi token visivi riduce significativamente il budget di token per i modelli a valle. L'integrazione ufficiale di vLLM mira a un throughput elevato nelle pipeline di produzione. I media tecnologici sottolineano i potenziali risparmi in termini di costi e latenza, ma avvertono sulla varianza dipendente dall'hardware e dai dati.

Quelle: pxz.ai
DeepSeek OCR utilizza la compressione del contesto per aumentare significativamente l'efficienza rispetto ai tradizionali Vision-LLM e ridurre i costi dei token.
Fact-checking: Prove vs. Affermazioni
Provato
L'architettura (DeepEncoder + 3B-MoE-Decoder), i valori di precisione riportati a <10x o 20x di compressione e l'obiettivo di "Compressione del Contesto" sono provati nel Paper . I passaggi di installazione, gli script e i prompt d'esempio si trovano nel README e nella Model Card; ; il supporto vLLM è documentato lì.
Non chiaro
Affermazioni generiche "X volte più veloce" senza un contesto hardware o dati identico non sono trasferibili. Il throughput reale dipende fortemente dalla GPU, dalla risoluzione, dal prompt e dalla dimensione del batch.
Falso/Fuorviante
DeepSeek-OCR non è "solo un OCR più veloce". Lo scopo principale è la compressione visiva per i flussi di lavoro LLM. Per il riconoscimento del testo puro e semplice, l'OCR classico (ad esempio, Tesseract) ) può essere ancora efficace.

Quelle: freedeepseekocr.com
L'interfaccia demo di DeepSeek-OCR consente di caricare facilmente documenti e selezionare diverse dimensioni di modello per l'elaborazione.
Reazioni e controposizioni
I rapporti tecnologici evidenziano il risparmio di token da 7-20x. Le voci scettiche si interrogano sulla robustezza su layout e lingue e sulla perdita di qualità con una forte compressione. Gli sviluppatori documentano setup e ostacoli su hardware specifico. I post della community riportano un'elaborazione PDF-to-Markdown molto veloce con vLLM, ma sono aneddotici. Beneficio pratico: Chi introduce PDF lunghi, tabelle, moduli o report nelle pipeline LLM può ridurre i costi e la latenza con DeepSeek-OCR, a condizione che la ricostruzione rimanga sufficientemente precisa. Per un serving veloce vale la pena seguire la via vLLM; per i setup minimalisti è sufficiente l'inferenza Transformers. Per scansioni semplici e "pulite" senza pretese di layout, Tesseract può essere più efficiente.
Impatto e cosa significa per te/voi
Suggerimenti per la classificazione: Prima le fonti primarie (Paper, README, Model Card), poi le misurazioni proprie sull'hardware; confrontare le varianti di prompt, risoluzione e grado di compressione.
Quanto sono stabili i compromessi (trade-off) su lingue, scrittura a mano, scansioni e strutture di tabelle fini? I benchmark indipendenti e gli studi di replicazione sono ancora in sospeso. Come si sviluppa il supporto ufficiale CPU/MPS al di là delle soluzioni alternative della community? Esistono discussioni, ma senza garanzie concrete. Quanto è robusto il throughput PDF sotto carichi di produzione reali e al di fuori dell'hardware A100? Il
Quelle: YouTube
Domande aperte
README README cita esempi, ma non valori SLA universalmente validi.

Quelle: chattools.cn
Diagrammi dettagliati illustrano le impressionanti metriche di compressione e performance di DeepSeek OCR, sottolineandone l'efficienza.
Conclusione e raccomandazioni
Per utilizzare DeepSeek-OCR in modo sensato, l'ambiente dovrebbe essere configurato esattamente come descritto nella Model Card o nel README . Iniziate con l'esempio Transformers e passate a vLLM per un throughput maggiore. Adattate i prompt e le modalità ai rispettivi documenti e valutate la qualità rispetto al grado di compressione. Per casi OCR puri e semplici, l'OCR classico rimane un'opzione snella; per documenti lunghi e complessi, la compressione visiva del contesto mostra la sua forza.