DeepSeek OCR : Guide
DeepSeek-OCR propose une nouvelle approche pour le traitement des textes longs. Au lieu d'une reconnaissance de texte directe, le système compresse l'information visuelle des documents pour la rendre plus efficace pour les grands modèles de langage (LLMs) en aval. Cet article éclaire le fonctionnement, l'installation et les implications pratiques de ce modèle.
Introduction DeepSeek-OCR
DeepSeek-OCR compresse le contexte textuel optiquement. Les pages de document sont comprises comme des images, condensées en quelques jetons de vision (Vision Tokens), puis reconstruites en texte ou Markdown. L'équipe rapporte une réduction des jetons de sept à vingt fois et jusqu'à environ 97 % de précision avec une compression modérée, en fonction du degré de compression. Le code officiel, les scripts et une connexion vLLM sont disponibles.
DeepSeek-OCR n'est pas un remplaçant classique de Tesseract. C'est un système Vision-Langage, composé de deux parties : un Encodeur (DeepEncoder) génère des jetons de vision compacts ; un Décodeur MoE d'environ 3 milliards de paramètres reconstruit à partir de ceux-ci du texte ou Markdown. L'objectif est moins la reconnaissance de caractères pure que la compression de contexte pour les workflows LLM en aval. La
carte du modèle
décrit les environnements testés (Python 3.12.9, CUDA 11.8, Torch 2.6.0, Flash-Attention 2.7.3) et montre des Prompts tels que «
Installation et utilisation
L'utilisation de DeepSeek-OCR nécessite des prérequis spécifiques et une installation précise.
Clarifier les prérequis
Un GPU NVIDIA avec un pilote actuel, CUDA 11.8 et Python 3.12.9 sont nécessaires. Les versions de paquets testées comprennent entre autres torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3 . Le README GitHub note la même pile; le support vLLM est officiel.
Charger le code source
Le code source est chargé via git clone https://github.com/deepseek-ai/DeepSeek-OCR.git . Ensuite, on bascule dans le dossier créé.
Créer l'environnement
Un environnement Conda est créé et activé avec conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr .
Installer les paquets (Chemin Transformers)
L'installation des paquets nécessaires se fait par les commandes suivantes :
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation
Les détails et les combinaisons testées se trouvent dans la carte du modèle .
Inférencer une première image (Transformers)
Pour l'inférence d'une image à l'aide de la bibliothèque Transformers, on procède de la manière suivante en Python :
from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)
Un exemple de Prompt est "<image>\n<|grounding|>Convert the document to markdown.". Après avoir défini model.infer(...) , appelé. Le snippet complet est disponible dans la
carte du modèle .
Serveur vLLM pour le débit (optionnel, supporté officiellement)
Pour un débit plus élevé, vLLM peut être utilisé :
uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
Ensuite, on crée un LLM(model="deepseek-ai/DeepSeek-OCR") en Python avec vLLM, on passe les images comme images PIL et on génère avec SamplingParams . Des exemples de code se trouvent dans le
README
et la
carte du modèle.
. Le dépôt contient des scripts tels que
README comme référence, « ~2500 Tokens/s » sur un A100-40G.
Choisir les Prompts et les Modes
Pour les documents, le Prompt "<image>\n<|grounding|>Convert the document to markdown." est utilisé. Pour l'OCR pure sans mise en page, sert "<image>\nFree OCR.".
Les tailles d'image prises en charge comprennent entre autres « Tiny/Small/Base/Large » ainsi qu'un mode dynamique « Gundam ». Des informations à ce sujet se trouvent dans le
README
et la
carte du modèle.
Traiter les PDF
Les PDF peuvent être traités avec Repo montre les chemins d'entrée et de sortie.
Vérifier le résultat
La sortie est en Markdown ou en texte. Les tableaux et les figures peuvent être restitués sous forme de texte structuré. La qualité et la vitesse dépendent du degré de compression, de la résolution et du GPU.
Dépannage
Lors de la construction de flash-attn, l'option Discussions.
Chronologie et Statut
La première publication a eu lieu le 20.10.2025 dans le Repo; ; le support vLLM est intégré « en amont » dans vLLM depuis le 23.10.2025. Le Article a été soumis à arXiv le 21.10.2025. Les médias classent cela comme « Compression Vision-Texte ».
Quelle: YouTube
Analyse et Évaluation
DeepSeek-OCR vise à réduire les coûts et la latence dans les workflows LLM en compressant visuellement les contextes longs.
Motivations, Contexte, Intérêts
L'approche est motivée par les coûts élevés des contextes longs. La compression des pages en images en quelques jetons de vision réduit considérablement le budget de jetons pour les modèles LLM en aval. L'intégration officielle de vLLM vise un débit élevé dans les pipelines de production. Les médias Tech soulignent les gains potentiels en coûts et en latence, mais mettent en garde contre la variance dépendante du matériel et des données.

Quelle: pxz.ai
DeepSeek OCR utilise la compression de contexte pour augmenter significativement l'efficacité par rapport aux Vision-LLMs conventionnels et réduire les coûts des jetons.
Vérification des faits : Preuves vs. Allégations
Prouvé
L'architecture (DeepEncoder + Décodeur 3B-MoE), les valeurs de précision rapportées à <10x ou 20x de compression et l'objectif de « Compression de Contexte » sont étayés dans l' Article . Les étapes d'installation, les scripts et les exemples de Prompts se trouvent dans le README et dans la carte du modèle; ; le support vLLM y est documenté.
Peu clair
Les déclarations génériques « X fois plus rapide » sans contexte matériel ou de données identique ne sont pas transférables. Les débits réels dépendent fortement du GPU, de la résolution, du Prompt et de la taille du lot.
Faux/Trompeur
DeepSeek-OCR n'est pas « juste un OCR plus rapide ». L'objectif principal est la compression visuelle pour les workflows LLM. Pour la reconnaissance de texte pure et simple, l'OCR classique (par exemple, Tesseract) ) peut toujours être pertinent.

Quelle: freedeepseekocr.com
L'interface de démonstration DeepSeek-OCR permet de télécharger facilement des documents et de sélectionner différentes tailles de modèle pour le traitement.
Réactions & Contrepoints
Les rapports Tech mettent en évidence l'économie de jetons de 7 à 20 fois. Les voix sceptiques s'interrogent sur la robustesse sur les mises en page et les langues ainsi que sur la perte de qualité en cas de forte compression. Les développeurs documentent les configurations et les obstacles sur du matériel spécifique. Les publications de la communauté rapportent un traitement très rapide de PDF à Markdown sous vLLM, mais celles-ci sont anecdotiques. Utilité pratique : Quiconque introduit des PDF longs, des tableaux, des formulaires ou des rapports dans des pipelines LLM peut réduire les coûts et la latence avec DeepSeek-OCR, si la reconstruction reste suffisamment précise. Pour un service rapide, le chemin vLLM est utile ; pour les configurations minimales, l'inférence Transformers suffit. Pour des scans simples, « propres » sans exigences de mise en page, Tesseract peut être plus efficace.
Impact et ce que cela signifie pour toi/vous
Conseils pour l'évaluation : Sources primaires d'abord (Article, README, carte du modèle), puis vos propres mesures sur le matériel; comparez les variantes de Prompt, de résolution et de degré de compression.
Quelle est la stabilité des compromis sur les langues, l'écriture manuscrite, les scans et les structures fines de tableaux ? Des benchmarks indépendants et des études de réplication sont encore en attente. Comment évolue le support CPU/MPS officiel au-delà des solutions de contournement de la communauté ? Des discussions existent, mais sans garanties fermes. Quelle est la robustesse du débit PDF sous des charges de production réelles et en dehors du matériel A100 ? La
Quelle: YouTube
Questions ouvertes
README README mentionne des exemples, mais pas de valeurs de SLA universelles.

Quelle: chattools.cn
Des diagrammes détaillés illustrent les impressionnantes métriques de compression et de performance de DeepSeek OCR, soulignant son efficacité.
Conclusion et Recommandations
Pour utiliser DeepSeek-OCR de manière significative, l'environnement doit être configuré exactement comme décrit dans la carte du modèle ou dans le README . Commencez par l'exemple Transformers et passez à vLLM pour un débit plus élevé. Adaptez les Prompts et les modes aux documents respectifs et évaluez la qualité par rapport au degré de compression. Pour les cas d'OCR purs et simples, l'OCR classique reste une option légère ; pour les documents longs et complexes, la compression de contexte visuelle démontre sa force.