DeepSeek OCR: Anleitung
DeepSeek-OCR bietet einen neuartigen Ansatz zur Verarbeitung langer Texte. Statt einer direkten Texterkennung komprimiert das System visuelle Informationen von Dokumenten, um sie effizienter für nachgelagerte Large Language Models (LLMs) nutzbar zu machen. Dieser Artikel beleuchtet die Funktionsweise, Installation und die praktischen Implikationen dieses Modells.
Einführung DeepSeek-OCR
DeepSeek-OCR komprimiert Textkontext optisch. Dokumentseiten werden als Bilder verstanden, in wenige Vision-Tokens verdichtet und anschließend zu Text oder Markdown rekonstruiert. Das Team berichtet von einer sieben- bis zwanzigfachen Reduzierung der Tokens und bis zu rund 97 Prozent Präzision bei moderater Kompression, abhängig vom Kompressionsgrad. Offizieller Code, Skripte und eine vLLM-Anbindung sind verfügbar.
DeepSeek-OCR ist kein klassischer Tesseract-Ersatz. Es handelt sich um ein Vision-Language-System, bestehend aus zwei Teilen: Ein Encoder (DeepEncoder) erzeugt kompakte Vision-Tokens; ein rund 3-Milliarden-Parameter-MoE-Decoder rekonstruiert daraus Text oder Markdown. Ziel ist weniger die reine Zeichenerkennung, sondern die Kontext-Kompression für nachgelagerte LLM-Workflows. Die Modellkarte beschreibt geprüfte Umgebungen (Python 3.12.9, CUDA 11.8, Torch 2.6.0, Flash-Attention 2.7.3) und zeigt Prompts wie „
Installation und Nutzung
Die Nutzung von DeepSeek-OCR erfordert spezifische Voraussetzungen und eine präzise Installation.
Voraussetzungen klären
Eine NVIDIA-GPU mit aktuellem Treiber, CUDA 11.8 und Python 3.12.9 sind erforderlich. Die getesteten Paketstände umfassen unter anderem torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3. Das GitHub-README notiert denselben Stack; vLLM-Support ist offiziell.
Quellcode laden
Der Quellcode wird mittels git clone https://github.com/deepseek-ai/DeepSeek-OCR.git geladen. Anschließend wechselt man in den erstellten Ordner.
Umgebung anlegen
Eine Conda-Umgebung wird mit conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr erstellt und aktiviert.
Pakete installieren (Transformers-Pfad)
Die Installation der benötigten Pakete erfolgt über folgende Befehle:
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation
Details und getestete Kombinationen sind in der Modellkarte zu finden.
Erstes Bild inferieren (Transformers)
Für die Inferenz eines Bildes mittels Transformers-Bibliothek wird in Python folgendermaßen vorgegangen:
from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)
Ein Beispiel-Prompt ist "<image>\n<|grounding|>Convert the document to markdown.". Nach dem Setzen von image_file und output_path wird model.infer(...) aufgerufen. Das vollständige Snippet ist in der Modellkarte verfügbar.
vLLM-Serving für Durchsatz (optional, offiziell unterstützt)
Für höheren Durchsatz kann vLLM genutzt werden:
uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
Anschließend wird in Python mit vLLM ein LLM(model="deepseek-ai/DeepSeek-OCR") erzeugt, Bilder als PIL-Images übergeben und mit SamplingParams generiert. Codebeispiele finden sich im README und der Modellkarte. Das Repository enthält Skripte wie run_dpsk_ocr_image.py und run_dpsk_ocr_pdf.py. Für PDFs nennt das README als Richtwert „~2500 Tokens/s“ auf einer A100-40G.
Prompts und Modi wählen
Für Dokumente wird der Prompt "<image>\n<|grounding|>Convert the document to markdown." verwendet. Für reines OCR ohne Layout dient "<image>\nFree OCR.". Unterstützt werden unter anderem Bildgrößen „Tiny/Small/Base/Large“ sowie ein dynamischer „Gundam“-Modus. Angaben dazu finden sich im README und der Modellkarte.
PDFs verarbeiten
PDFs können mit run_dpsk_ocr_pdf.py (im vLLM-Ordner) oder über eine eigene Vorverarbeitung (Seiten in Bilder umwandeln) und anschließende Inferenz verarbeitet werden. Die Beispielskripte im Repo zeigen Eingabe- und Ausgabepfade.
Ergebnis prüfen
Die Ausgabe erfolgt in Markdown oder Text. Tabellen und Abbildungen können als strukturierter Text wiedergegeben werden. Qualität und Geschwindigkeit hängen vom Kompressionsgrad, der Auflösung und der GPU ab.
Troubleshooting
Beim Bauen von flash-attn sollte die Option --no-build-isolation verwendet und CUDA 11.8/torch 2.6.0 überprüft werden. Ein CPU-Lauf ist in Community-Diskussionen möglich, aber deutlich langsamer und nicht offiziell priorisiert. Siehe Diskussionen.
Chronologie und Stand
Die Erstveröffentlichung erfolgte am 20.10.2025 im Repo; vLLM-Support ist seit dem 23.10.2025 auch „upstream“ in vLLM integriert. Das Paper wurde am 21.10.2025 bei arXiv eingereicht. Medien ordnen dies als „Vision-Text-Kompression“ ein.
Quelle: YouTube
Analyse und Bewertung
DeepSeek-OCR zielt darauf ab, die Kosten und Latenz in LLM-Workflows zu reduzieren, indem es lange Kontexte visuell komprimiert.
Motive, Kontext, Interessen
Der Ansatz ist motiviert durch die hohen Kosten langer Kontexte. Die Kompression von Seiten als Bild in wenige Vision-Tokens senkt das Token-Budget für nachgelagerte Modelle erheblich. Die offizielle Integration von vLLM zielt auf hohen Durchsatz in Produktionspipelines ab. Tech-Medien betonen die potenziellen Kosten- und Latenzgewinne, warnen jedoch vor hardware- und datenabhängiger Varianz.

Quelle: pxz.ai
DeepSeek OCR nutzt Kontextkomprimierung, um die Effizienz im Vergleich zu herkömmlichen Vision-LLMs deutlich zu steigern und Token-Kosten zu senken.
Faktencheck: Belege vs. Behauptungen
Belegt
Die Architektur (DeepEncoder + 3B-MoE-Decoder), die berichteten Präzisionswerte bei <10x bzw. 20x Kompression und die Zielsetzung „Kontext-Kompression“ sind im Paper belegt. Installationsschritte, Skripte und Beispiel-Prompts finden sich im README und in der Modellkarte; vLLM-Support ist dort dokumentiert.
Unklar
Generische „X-mal schneller“-Aussagen ohne identischen Hardware- oder Daten-Kontext sind nicht übertragbar. Reale Durchsätze hängen stark von GPU, Auflösung, Prompt und Batch-Größe ab.
Falsch/Irreführend
DeepSeek-OCR ist nicht „nur ein schnelleres OCR“. Der Kernzweck ist die visuelle Kompression für LLM-Workflows. Für reine, einfache Texterkennung kann klassisches OCR (z. B. Tesseract) weiterhin sinnvoll sein.

Quelle: freedeepseekocr.com
Die DeepSeek-OCR-Demo-Oberfläche ermöglicht das einfache Hochladen von Dokumenten und die Auswahl verschiedener Modellgrößen für die Verarbeitung.
Reaktionen & Gegenpositionen
Tech-Berichte heben die 7–20x Token-Ersparnis hervor. Skeptische Stimmen fragen nach der Robustheit über Layouts und Sprachen sowie nach Qualitätsverlust bei starker Kompression. Entwickler dokumentieren Setups und Hürden auf spezifischer Hardware. Community-Posts berichten von sehr schneller PDF-zu-Markdown-Verarbeitung unter vLLM, diese sind jedoch anekdotisch.
Auswirkungen & Was es für Dich/Euch heißt
Praktischer Nutzen: Wer lange PDFs, Tabellen, Formulare oder Reports in LLM-Pipelines bringt, kann mit DeepSeek-OCR Kosten und Latenz senken, sofern die Rekonstruktion präzise genug bleibt. Für schnelles Serving lohnt der vLLM-Pfad; für Minimal-Setups reicht Transformers-Inference. Für einfache, „saubere“ Scans ohne Layout-Ansprüche kann Tesseract effizienter sein.
Tipps zur Einordnung: Primärquellen zuerst (Paper, README, Modellkarte), dann eigene Messungen auf der Hardware; vergleicht Varianten von Prompt, Auflösung und Kompressionsgrad.
Quelle: YouTube
Offene Fragen
Wie stabil sind die Trade-offs über Sprachen, Handschrift, Scans und feine Tabellenstrukturen? Unabhängige Benchmarks und Replikationsstudien stehen noch aus. Wie entwickelt sich offizieller CPU-/MPS-Support jenseits der Community-Workarounds? Diskussionen existieren, aber ohne harte Garantien. Wie robust ist der PDF-Durchsatz unter realen Produktionslasten und abseits von A100-Hardware? Das README nennt Beispiele, jedoch keine allgemeingültigen SLA-Werte.

Quelle: chattools.cn
Detaillierte Diagramme veranschaulichen die beeindruckenden Kompressions- und Leistungsmetriken von DeepSeek OCR, die seine Effizienz unterstreichen.
Fazit und Empfehlungen
Um DeepSeek-OCR sinnvoll zu nutzen, sollte die Umgebung exakt wie in der Modellkarte oder im README beschrieben eingerichtet werden. Beginnen Sie mit dem Transformers-Beispiel und wechseln Sie für höheren Durchsatz zu vLLM. Passen Sie Prompts und Modi an die jeweiligen Dokumente an und wägen Sie die Qualität gegen den Kompressionsgrad ab. Für reine, einfache OCR-Fälle bleibt klassisches OCR eine schlanke Option; für lange, komplexe Dokumente spielt die visuelle Kontextkompression ihre Stärke aus.