DeepSeek OCR: Guida

Avatar
Lisa Ernst · 23.10.2025 · Tecnologia · 6 min

DeepSeek-OCR offre un approccio nuovo all'elaborazione di testi lunghi. Invece di un riconoscimento diretto del testo, il sistema comprime le informazioni visive dei documenti per renderle più efficienti per i Large Language Models (LLM) a valle. Questo articolo illustra il funzionamento, l'installazione e le implicazioni pratiche di questo modello.

Introduzione a DeepSeek-OCR

DeepSeek-OCR comprime visivamente il contesto del testo. Le pagine dei documenti sono interpretate come immagini, condensate in pochi token visivi e poi ricostruite in testo o Markdown. Il team riporta una riduzione dei token da sette a venti volte e una precisione fino a circa il 97% con una compressione moderata, a seconda del grado di compressione. Il codice ufficiale, gli script e una connessione vLLM sono disponibili.

DeepSeek-OCR non è un classico sostituto di Tesseract. Si tratta di un sistema Vision-Language, composto da due parti: un codificatore (DeepEncoder) genera token visivi compatti; un decodificatore MoE con circa 3 miliardi di parametri ricostruisce testo o Markdown da essi. L'obiettivo non è tanto il puro riconoscimento dei caratteri, quanto la compressione del contesto per i flussi di lavoro LLM a valle. La Model Card descrive gli ambienti testati (Python 3.12.9, CUDA 11.8, Torch 2.6.0, Flash-Attention 2.7.3) e mostra prompt come "\n<|grounding|>Convert the document to markdown.". Il codice sorgente contiene script pronti all'uso per immagini, PDF e benchmark.

Installazione e utilizzo

L'utilizzo di DeepSeek-OCR richiede prerequisiti specifici e un'installazione precisa.

Chiarire i prerequisiti

Sono richieste una GPU NVIDIA con driver aggiornato, CUDA 11.8 e Python 3.12.9. Le versioni dei pacchetti testate includono, tra gli altri, torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3 . Il README di GitHub indica lo stesso stack; il supporto vLLM è ufficiale.

Caricare il codice sorgente

Il codice sorgente viene caricato tramite git clone https://github.com/deepseek-ai/DeepSeek-OCR.git . Successivamente, si passa alla cartella creata.

Creare l'ambiente

Un ambiente Conda viene creato e attivato con conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr .

Installare i pacchetti (percorso Transformers)

L'installazione dei pacchetti necessari avviene tramite i seguenti comandi:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation

Dettagli e combinazioni testate si trovano nella Model Card .

Inferire la prima immagine (Transformers)

Per l'inferenza di un'immagine tramite la libreria Transformers, si procede come segue in Python:

from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)

Un esempio di prompt è "<image>\n<|grounding|>Convert the document to markdown.". Dopo aver impostato model.infer(...) , viene chiamata. Lo snippet completo è disponibile nella Model Card .

vLLM-Serving per throughput (opzionale, supportato ufficialmente)

Per un throughput maggiore, è possibile utilizzare vLLM:

uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

Successivamente, in Python con vLLM, viene creato un LLM(model="deepseek-ai/DeepSeek-OCR") , le immagini vengono passate come PIL-Images e generate con SamplingParams . Esempi di codice si trovano nel README e nella Model Card. . Il repository contiene script come README come valore di riferimento "~2500 Tokens/s" su una A100-40G.

Scegliere prompt e modalità

Per i documenti, viene utilizzato il prompt "<image>\n<|grounding|>Convert the document to markdown." . Per la pura OCR senza layout, serve "<image>\nFree OCR.". Supporta, tra le altre cose, dimensioni di immagine "Tiny/Small/Base/Large" e una modalità dinamica "Gundam". Le informazioni a riguardo si trovano nel README e nella Model Card.

Elaborare i PDF

I PDF possono essere elaborati con Repo mostrano i percorsi di input e output.

Controllare il risultato

L'output è in Markdown o testo. Tabelle e figure possono essere riprodotte come testo strutturato. Qualità e velocità dipendono dal grado di compressione, dalla risoluzione e dalla GPU.

Risoluzione dei problemi

Durante la costruzione di flash-attn, l'opzione Discussioni.

Cronologia e stato

La prima pubblicazione è avvenuta il 20.10.2025 nel Repo; ; il supporto vLLM è integrato anche "upstream" in vLLM dal 23.10.2025. Il Paper è stato presentato su arXiv il 21.10.2025. I media lo classificano come "Compressione Vision-Text".

Quelle: YouTube

Analisi e valutazione

DeepSeek-OCR mira a ridurre i costi e la latenza nei flussi di lavoro LLM comprimendo visivamente contesti lunghi.

Motivi, contesto, interessi

L'approccio è motivato dai costi elevati dei contesti lunghi. La compressione delle pagine come immagine in pochi token visivi riduce significativamente il budget di token per i modelli a valle. L'integrazione ufficiale di vLLM mira a un throughput elevato nelle pipeline di produzione. I media tecnologici sottolineano i potenziali risparmi in termini di costi e latenza, ma avvertono sulla varianza dipendente dall'hardware e dai dati.

DeepSeek OCR utilizza la compressione del contesto per aumentare significativamente l'efficienza rispetto ai tradizionali Vision-LLM e ridurre i costi dei token.

Quelle: pxz.ai

DeepSeek OCR utilizza la compressione del contesto per aumentare significativamente l'efficienza rispetto ai tradizionali Vision-LLM e ridurre i costi dei token.

Fact-checking: Prove vs. Affermazioni

Provato

L'architettura (DeepEncoder + 3B-MoE-Decoder), i valori di precisione riportati a <10x o 20x di compressione e l'obiettivo di "Compressione del Contesto" sono provati nel Paper . I passaggi di installazione, gli script e i prompt d'esempio si trovano nel README e nella Model Card; ; il supporto vLLM è documentato lì.

Non chiaro

Affermazioni generiche "X volte più veloce" senza un contesto hardware o dati identico non sono trasferibili. Il throughput reale dipende fortemente dalla GPU, dalla risoluzione, dal prompt e dalla dimensione del batch.

Falso/Fuorviante

DeepSeek-OCR non è "solo un OCR più veloce". Lo scopo principale è la compressione visiva per i flussi di lavoro LLM. Per il riconoscimento del testo puro e semplice, l'OCR classico (ad esempio, Tesseract) ) può essere ancora efficace.

L'interfaccia demo di DeepSeek-OCR consente di caricare facilmente documenti e selezionare diverse dimensioni di modello per l'elaborazione.

Quelle: freedeepseekocr.com

L'interfaccia demo di DeepSeek-OCR consente di caricare facilmente documenti e selezionare diverse dimensioni di modello per l'elaborazione.

Reazioni e controposizioni

I rapporti tecnologici evidenziano il risparmio di token da 7-20x. Le voci scettiche si interrogano sulla robustezza su layout e lingue e sulla perdita di qualità con una forte compressione. Gli sviluppatori documentano setup e ostacoli su hardware specifico. I post della community riportano un'elaborazione PDF-to-Markdown molto veloce con vLLM, ma sono aneddotici. Beneficio pratico: Chi introduce PDF lunghi, tabelle, moduli o report nelle pipeline LLM può ridurre i costi e la latenza con DeepSeek-OCR, a condizione che la ricostruzione rimanga sufficientemente precisa. Per un serving veloce vale la pena seguire la via vLLM; per i setup minimalisti è sufficiente l'inferenza Transformers. Per scansioni semplici e "pulite" senza pretese di layout, Tesseract può essere più efficiente.

Impatto e cosa significa per te/voi

Suggerimenti per la classificazione: Prima le fonti primarie (Paper, README, Model Card), poi le misurazioni proprie sull'hardware; confrontare le varianti di prompt, risoluzione e grado di compressione.

Quanto sono stabili i compromessi (trade-off) su lingue, scrittura a mano, scansioni e strutture di tabelle fini? I benchmark indipendenti e gli studi di replicazione sono ancora in sospeso. Come si sviluppa il supporto ufficiale CPU/MPS al di là delle soluzioni alternative della community? Esistono discussioni, ma senza garanzie concrete. Quanto è robusto il throughput PDF sotto carichi di produzione reali e al di fuori dell'hardware A100? Il

Quelle: YouTube

Domande aperte

README README cita esempi, ma non valori SLA universalmente validi.

Diagrammi dettagliati illustrano le impressionanti metriche di compressione e performance di DeepSeek OCR, sottolineandone l'efficienza.

Quelle: chattools.cn

Diagrammi dettagliati illustrano le impressionanti metriche di compressione e performance di DeepSeek OCR, sottolineandone l'efficienza.

Conclusione e raccomandazioni

Per utilizzare DeepSeek-OCR in modo sensato, l'ambiente dovrebbe essere configurato esattamente come descritto nella Model Card o nel README . Iniziate con l'esempio Transformers e passate a vLLM per un throughput maggiore. Adattate i prompt e le modalità ai rispettivi documenti e valutate la qualità rispetto al grado di compressione. Per casi OCR puri e semplici, l'OCR classico rimane un'opzione snella; per documenti lunghi e complessi, la compressione visiva del contesto mostra la sua forza.

Teilen Sie doch unseren Beitrag!