DeepSeek OCR: دليل

Avatar
ليزا إرنست · 23.10.2025 · تقنية · 6 دقيقة

DeepSeek-OCR يقدم مقاربة جديدة لمعالجة النصوص الطويلة. بدلاً من التعرف المباشر على النصوص، يضغط النظام المعلومات البصرية للوثائق لتمكين استخدامها بكفاءة أكبر لنماذج اللغات الكبيرة (LLMs) اللاحقة. يستعرض هذا المقال طريقة عمل هذا النموذج وتثبيته وتطبيقاته العملية.

مقدمة DeepSeek-OCR

يقوم DeepSeek-OCR بضغط سياق النص بصريًا. تُفهم صفحات المستندات كصور، وتُكثَّف في عدد قليل من رموز الرؤية (Vision-Tokens)، ثم تُعاد صياغتها إلى نصوص أو Markdown. يشير الفريق إلى تقليل عدد الرموز بمقدار يتراوح بين سبعة وعشرين مرة، ودقة تصل إلى حوالي 97 في المائة مع ضغط معتدل، اعتمادًا على درجة الضغط. الكود الرسمي، السكريبتات، و ربط vLLM متاحة.

DeepSeek-OCR ليس بديلاً كلاسيكيًا لـ Tesseract. إنه نظام لغة ورؤية، يتكون من جزأين: مُشفِّر (DeepEncoder) يولد رموز رؤية مدمجة؛ ومُفكِّك (MoE-Decoder) بحوالي 3 مليارات معلمة يعيد بناء النص أو Markdown منها. الهدف ليس التعرف الخالص على الحروف، بل ضغط السياق لسير عمل LLM اللاحق. يصف بطاقة النموذج (Model Card) البيئات المختبرة (Python 3.12.9، CUDA 11.8، Torch 2.6.0، Flash-Attention 2.7.3) ويعرض محفزات مثل „\n<|grounding|>Convert the document to markdown.“ وتتضمن شفرة المصدر سكريبتات جاهزة للصور، ملفات PDF، وتشغيل المقارنات المعيارية.

التثبيت والاستخدام

يتطلب استخدام DeepSeek-OCR متطلبات محددة وتثبيتًا دقيقًا.

توضيح المتطلبات المسبقة

مطلوب وحدة معالجة رسوميات NVIDIA ببرنامج تشغيل حديث، CUDA 11.8، و Python 3.12.9. تشمل حالات الحزمة المختبرة، من بين أمور أخرى، torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3 . وتشير ملف README على GitHub إلى نفس المكدس؛ دعم vLLM رسمي.

تحميل شفرة المصدر

يتم تحميل شفرة المصدر بواسطة git clone https://github.com/deepseek-ai/DeepSeek-OCR.git يتم تحميل شفرة المصدر عبر . بعد ذلك، يتم التبديل إلى المجلد المنشأ.

إنشاء البيئة

يتم إنشاء بيئة Conda باستخدام conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr وتفعيلها.

تثبيت الحزم (مسار المحولات Transformers)

يتم تثبيت الحزم المطلوبة عبر الأوامر التالية:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation

يمكن العثور على التفاصيل و التوليفات المختبرة في بطاقة النموذج (Model Card) .

استدلال الصورة الأولى (Transformers)

للاستدلال على صورة باستخدام مكتبة Transformers، يتم اتباع الإجراء التالي في Python:

from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)

مثال على المحفز هو "<image>\n<|grounding|>Convert the document to markdown.". بعد تعيين model.infer(...) يُستدعى. المقتطف الكامل متاح في بطاقة النموذج (Model Card) .

خدمة vLLM للإنتاجية (اختياري، مدعوم رسميًا)

لإنتاجية أعلى، يمكن استخدام vLLM:

uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

بعد ذلك، يتم إنشاء LLM(model="deepseek-ai/DeepSeek-OCR") في Python باستخدام vLLM، وتمرير الصور كصور PIL، و SamplingParams يتم التوليد. يمكن العثور على أمثلة للكود في README و بطاقة النموذج (Model Card). . يحتوي المستودع على سكريبتات مثل README كمعيار "~2500 رمز/ثانية" على A100-40G.

اختيار المحفزات والأوضاع

يتم استخدام المحفز "<image>\n<|grounding|>Convert the document to markdown." للمستندات. لـ OCR الخالص بدون تخطيط، يُستخدم "<image>\nFree OCR.". يتم دعم، من بين أمور أخرى، أحجام الصور "Tiny/Small/Base/Large" ووضع "Gundam" ديناميكي. تتوفر تفاصيل حول ذلك في README و بطاقة النموذج (Model Card).

معالجة ملفات PDF

يمكن معالجة ملفات PDF باستخدام المستودع يُظهر مسارات الإدخال والإخراج.

فحص النتيجة

يتم الإخراج بتنسيق Markdown أو نص. يمكن إعادة إنتاج الجداول والرسوم البيانية كنص منظم. تعتمد الجودة والسرعة على درجة الضغط، الدقة، ووحدة معالجة الرسوميات.

استكشاف الأخطاء وإصلاحها

عند بناء flash-attn، يجب استخدام الخيار مناقشات.

التسلسل الزمني والحالة

تم النشر الأول في 20.10.2025 في المستودع; ؛ تم دمج دعم vLLM في vLLM "upstream" منذ 23.10.2025. تم تقديم الورقة البحثية إلى arXiv في 21.10.2025. وتصنفها وسائل الإعلام على أنها "ضغط رؤية-نص".

Quelle: يوتيوب

التحليل والتقييم

يهدف DeepSeek-OCR إلى تقليل التكاليف والكمون في سير عمل LLM عن طريق ضغط السياقات الطويلة بصريًا.

الدوافع، السياق، الاهتمامات

هذه المقاربة مدفوعة بالتكاليف العالية للسياقات الطويلة. ضغط الصفحات كصورة في عدد قليل من رموز الرؤية يقلل بشكل كبير من ميزانية الرموز للنماذج اللاحقة. يهدف الدمج الرسمي لـ vLLM إلى تحقيق إنتاجية عالية في خطوط الإنتاج. تؤكد وسائل الإعلام التقنية على المكاسب المحتملة في التكلفة والكمون، ولكنها تحذر من التباين الذي يعتمد على الأجهزة والبيانات.

يستخدم DeepSeek OCR ضغط السياق لزيادة الكفاءة بشكل ملحوظ مقارنة بنماذج Vision-LLM التقليدية وتقليل تكاليف الرموز.

Quelle: pxz.ai

يستخدم DeepSeek OCR ضغط السياق لزيادة الكفاءة بشكل ملحوظ مقارنة بنماذج Vision-LLM التقليدية وتقليل تكاليف الرموز.

فحص الحقائق: الأدلة مقابل الادعاءات

الأدلة المؤكدة

تم توثيق البنية (DeepEncoder + 3B-MoE-Decoder)، وقيم الدقة المبلغ عنها عند ضغط <10x و 20x، والهدف المتمثل في "ضغط السياق" في الورقة البحثية . يمكن العثور على خطوات التثبيت، السكريبتات، وأمثلة المحفزات في README و بطاقة النموذج (Model Card); ؛ دعم vLLM موثق هناك.

غير واضح

البيانات العامة مثل "أسرع X مرة" بدون سياق متطابق للأجهزة أو البيانات ليست قابلة للنقل. تعتمد الإنتاجية الفعلية بشكل كبير على وحدة معالجة الرسوميات، الدقة، المحفز، وحجم الدفعة.

خاطئ/مضلل

DeepSeek-OCR ليس "مجرد OCR أسرع". الغرض الأساسي هو الضغط البصري لسير عمل LLM. للتعرف على النصوص البسيط والخالص، قد يكون OCR الكلاسيكي (مثل Tesseract) ) لا يزال مجديًا.

تتيح واجهة DeepSeek-OCR التجريبية تحميل المستندات واختيار أحجام نماذج مختلفة للمعالجة بسهولة.

Quelle: freedeepseekocr.com

تتيح واجهة DeepSeek-OCR التجريبية تحميل المستندات واختيار أحجام نماذج مختلفة للمعالجة بسهولة.

ردود الفعل والمواقف المعارضة

تُسلط التقارير التقنية الضوء على توفير الرموز بمقدار 7-20 مرة. تتساءل الأصوات المتشككة حول المتانة عبر التخطيطات واللغات وفقدان الجودة عند الضغط القوي. يوثق المطورون الإعدادات والعقبات على أجهزة محددة. تُبلغ منشورات المجتمع عن معالجة سريعة جدًا لـ PDF إلى Markdown تحت vLLM، ولكنها قصصية. الفائدة العملية: أي شخص يدخل ملفات PDF طويلة أو جداول أو نماذج أو تقارير في خطوط أنابيب LLM يمكنه خفض التكاليف والكمون باستخدام DeepSeek-OCR شريطة أن تظل إعادة البناء دقيقة بما فيه الكفاية. بالنسبة للخدمة السريعة، يستحق مسار vLLM العناء؛ بالنسبة للإعدادات الدنيا، يكفي استدلال Transformers. بالنسبة للمسح الضوئي البسيط و"النظيف" بدون متطلبات تخطيط، يمكن أن يكون Tesseract أكثر كفاءة.

التأثيرات وما يعنيه لك/لكم

نصائح للتقييم: المصادر الأولية أولاً (الورقة البحثية، README، بطاقة النموذج)، ثم القياسات الذاتية على الأجهزة؛ قارن بين متغيرات المحفز، الدقة، ودرجة الضغط.

ما مدى استقرار المقايضات عبر اللغات، الكتابة اليدوية، المسح الضوئي، وهياكل الجداول الدقيقة؟ لا تزال المقارنات المعيارية المستقلة ودراسات التكرار معلقة. كيف يتطور الدعم الرسمي لوحدة المعالجة المركزية (CPU)/MPS خارج الحلول المجتمعية؟ المناقشات موجودة، ولكن بدون ضمانات صارمة. ما مدى متانة إنتاجية PDF تحت أعباء الإنتاج الفعلية وبعيدًا عن أجهزة A100؟

Quelle: يوتيوب

أسئلة مفتوحة

README README يذكر الأمثلة، ولكنه لا يقدم قيم SLA عامة.

توضح المخططات التفصيلية مقاييس الضغط والأداء الرائعة لـ DeepSeek OCR، مما يؤكد كفاءته.

Quelle: chattools.cn

توضح المخططات التفصيلية مقاييس الضغط والأداء الرائعة لـ DeepSeek OCR، مما يؤكد كفاءته.

الخلاصة والتوصيات

للاستفادة بشكل فعال من DeepSeek-OCR، يجب إعداد البيئة بدقة كما هو موضح في بطاقة النموذج (Model Card) أو في README . ابدأ بمثال Transformers وتحول إلى vLLM لزيادة الإنتاجية. قم بتكييف المحفزات والأوضاع مع المستندات المعنية ووازن بين الجودة ودرجة الضغط. في حالات OCR البسيطة والخالصة، يظل OCR الكلاسيكي خيارًا خفيفًا؛ بالنسبة للمستندات الطويلة والمعقدة، تظهر قوة الضغط البصري للسياق.

Teilen Sie doch unseren Beitrag!