DeepSeek OCR : Guide

Avatar
Lisa Ernst · 23.10.2025 · Technologie · 6 min

DeepSeek-OCR propose une nouvelle approche pour le traitement des textes longs. Au lieu d'une reconnaissance de texte directe, le système compresse l'information visuelle des documents pour la rendre plus efficace pour les grands modèles de langage (LLMs) en aval. Cet article éclaire le fonctionnement, l'installation et les implications pratiques de ce modèle.

Introduction DeepSeek-OCR

DeepSeek-OCR compresse le contexte textuel optiquement. Les pages de document sont comprises comme des images, condensées en quelques jetons de vision (Vision Tokens), puis reconstruites en texte ou Markdown. L'équipe rapporte une réduction des jetons de sept à vingt fois et jusqu'à environ 97 % de précision avec une compression modérée, en fonction du degré de compression. Le code officiel, les scripts et une connexion vLLM sont disponibles.

DeepSeek-OCR n'est pas un remplaçant classique de Tesseract. C'est un système Vision-Langage, composé de deux parties : un Encodeur (DeepEncoder) génère des jetons de vision compacts ; un Décodeur MoE d'environ 3 milliards de paramètres reconstruit à partir de ceux-ci du texte ou Markdown. L'objectif est moins la reconnaissance de caractères pure que la compression de contexte pour les workflows LLM en aval. La carte du modèle décrit les environnements testés (Python 3.12.9, CUDA 11.8, Torch 2.6.0, Flash-Attention 2.7.3) et montre des Prompts tels que « \n<|grounding|>Convert the document to markdown. ». Le code source contient des scripts prêts à l'emploi pour les images, les PDF et les exécutions de benchmark.

Installation et utilisation

L'utilisation de DeepSeek-OCR nécessite des prérequis spécifiques et une installation précise.

Clarifier les prérequis

Un GPU NVIDIA avec un pilote actuel, CUDA 11.8 et Python 3.12.9 sont nécessaires. Les versions de paquets testées comprennent entre autres torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3 . Le README GitHub note la même pile; le support vLLM est officiel.

Charger le code source

Le code source est chargé via git clone https://github.com/deepseek-ai/DeepSeek-OCR.git . Ensuite, on bascule dans le dossier créé.

Créer l'environnement

Un environnement Conda est créé et activé avec conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr .

Installer les paquets (Chemin Transformers)

L'installation des paquets nécessaires se fait par les commandes suivantes :

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation

Les détails et les combinaisons testées se trouvent dans la carte du modèle .

Inférencer une première image (Transformers)

Pour l'inférence d'une image à l'aide de la bibliothèque Transformers, on procède de la manière suivante en Python :

from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)

Un exemple de Prompt est "<image>\n<|grounding|>Convert the document to markdown.". Après avoir défini model.infer(...) , appelé. Le snippet complet est disponible dans la carte du modèle .

Serveur vLLM pour le débit (optionnel, supporté officiellement)

Pour un débit plus élevé, vLLM peut être utilisé :

uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

Ensuite, on crée un LLM(model="deepseek-ai/DeepSeek-OCR") en Python avec vLLM, on passe les images comme images PIL et on génère avec SamplingParams . Des exemples de code se trouvent dans le README et la carte du modèle. . Le dépôt contient des scripts tels que README comme référence, « ~2500 Tokens/s » sur un A100-40G.

Choisir les Prompts et les Modes

Pour les documents, le Prompt "<image>\n<|grounding|>Convert the document to markdown." est utilisé. Pour l'OCR pure sans mise en page, sert "<image>\nFree OCR.". Les tailles d'image prises en charge comprennent entre autres « Tiny/Small/Base/Large » ainsi qu'un mode dynamique « Gundam ». Des informations à ce sujet se trouvent dans le README et la carte du modèle.

Traiter les PDF

Les PDF peuvent être traités avec Repo montre les chemins d'entrée et de sortie.

Vérifier le résultat

La sortie est en Markdown ou en texte. Les tableaux et les figures peuvent être restitués sous forme de texte structuré. La qualité et la vitesse dépendent du degré de compression, de la résolution et du GPU.

Dépannage

Lors de la construction de flash-attn, l'option Discussions.

Chronologie et Statut

La première publication a eu lieu le 20.10.2025 dans le Repo; ; le support vLLM est intégré « en amont » dans vLLM depuis le 23.10.2025. Le Article a été soumis à arXiv le 21.10.2025. Les médias classent cela comme « Compression Vision-Texte ».

Quelle: YouTube

Analyse et Évaluation

DeepSeek-OCR vise à réduire les coûts et la latence dans les workflows LLM en compressant visuellement les contextes longs.

Motivations, Contexte, Intérêts

L'approche est motivée par les coûts élevés des contextes longs. La compression des pages en images en quelques jetons de vision réduit considérablement le budget de jetons pour les modèles LLM en aval. L'intégration officielle de vLLM vise un débit élevé dans les pipelines de production. Les médias Tech soulignent les gains potentiels en coûts et en latence, mais mettent en garde contre la variance dépendante du matériel et des données.

DeepSeek OCR utilise la compression de contexte pour augmenter significativement l'efficacité par rapport aux Vision-LLMs conventionnels et réduire les coûts des jetons.

Quelle: pxz.ai

DeepSeek OCR utilise la compression de contexte pour augmenter significativement l'efficacité par rapport aux Vision-LLMs conventionnels et réduire les coûts des jetons.

Vérification des faits : Preuves vs. Allégations

Prouvé

L'architecture (DeepEncoder + Décodeur 3B-MoE), les valeurs de précision rapportées à <10x ou 20x de compression et l'objectif de « Compression de Contexte » sont étayés dans l' Article . Les étapes d'installation, les scripts et les exemples de Prompts se trouvent dans le README et dans la carte du modèle; ; le support vLLM y est documenté.

Peu clair

Les déclarations génériques « X fois plus rapide » sans contexte matériel ou de données identique ne sont pas transférables. Les débits réels dépendent fortement du GPU, de la résolution, du Prompt et de la taille du lot.

Faux/Trompeur

DeepSeek-OCR n'est pas « juste un OCR plus rapide ». L'objectif principal est la compression visuelle pour les workflows LLM. Pour la reconnaissance de texte pure et simple, l'OCR classique (par exemple, Tesseract) ) peut toujours être pertinent.

L'interface de démonstration DeepSeek-OCR permet de télécharger facilement des documents et de sélectionner différentes tailles de modèle pour le traitement.

Quelle: freedeepseekocr.com

L'interface de démonstration DeepSeek-OCR permet de télécharger facilement des documents et de sélectionner différentes tailles de modèle pour le traitement.

Réactions & Contrepoints

Les rapports Tech mettent en évidence l'économie de jetons de 7 à 20 fois. Les voix sceptiques s'interrogent sur la robustesse sur les mises en page et les langues ainsi que sur la perte de qualité en cas de forte compression. Les développeurs documentent les configurations et les obstacles sur du matériel spécifique. Les publications de la communauté rapportent un traitement très rapide de PDF à Markdown sous vLLM, mais celles-ci sont anecdotiques. Utilité pratique : Quiconque introduit des PDF longs, des tableaux, des formulaires ou des rapports dans des pipelines LLM peut réduire les coûts et la latence avec DeepSeek-OCR, si la reconstruction reste suffisamment précise. Pour un service rapide, le chemin vLLM est utile ; pour les configurations minimales, l'inférence Transformers suffit. Pour des scans simples, « propres » sans exigences de mise en page, Tesseract peut être plus efficace.

Impact et ce que cela signifie pour toi/vous

Conseils pour l'évaluation : Sources primaires d'abord (Article, README, carte du modèle), puis vos propres mesures sur le matériel; comparez les variantes de Prompt, de résolution et de degré de compression.

Quelle est la stabilité des compromis sur les langues, l'écriture manuscrite, les scans et les structures fines de tableaux ? Des benchmarks indépendants et des études de réplication sont encore en attente. Comment évolue le support CPU/MPS officiel au-delà des solutions de contournement de la communauté ? Des discussions existent, mais sans garanties fermes. Quelle est la robustesse du débit PDF sous des charges de production réelles et en dehors du matériel A100 ? La

Quelle: YouTube

Questions ouvertes

README README mentionne des exemples, mais pas de valeurs de SLA universelles.

Des diagrammes détaillés illustrent les impressionnantes métriques de compression et de performance de DeepSeek OCR, soulignant son efficacité.

Quelle: chattools.cn

Des diagrammes détaillés illustrent les impressionnantes métriques de compression et de performance de DeepSeek OCR, soulignant son efficacité.

Conclusion et Recommandations

Pour utiliser DeepSeek-OCR de manière significative, l'environnement doit être configuré exactement comme décrit dans la carte du modèle ou dans le README . Commencez par l'exemple Transformers et passez à vLLM pour un débit plus élevé. Adaptez les Prompts et les modes aux documents respectifs et évaluez la qualité par rapport au degré de compression. Pour les cas d'OCR purs et simples, l'OCR classique reste une option légère ; pour les documents longs et complexes, la compression de contexte visuelle démontre sa force.

Teilen Sie doch unseren Beitrag!