DeepSeek OCR: руководство
DeepSeek-OCR предлагает инновационный подход к обработке длинных текстов. Вместо прямого распознавания текста система сжимает визуальную информацию документов, чтобы сделать их удобнее для последующих Large Language Models (LLMs). Эта статья освещает принцип работы, установку и практические последствия этой модели.
Введение в DeepSeek-OCR
DeepSeek-OCR визуально сжимает контекст текста. Страницы документов рассматриваются как изображения, сводятся в несколько vision-токенов и затем восстанавливаются в текст или Markdown. Команда сообщает о снижении количества токенов в диапазоне от семи до двадцати раз и примерно до 97 процентов точности при умеренной компрессии, в зависимости от степени сжатия. Официальный код, скрипты и ещё одна Подключение к vLLM доступно.
DeepSeek-OCR не является классической заменой Tesseract. Это система Vision-Language, состоящая из двух частей: кодировщик (DeepEncoder) генерирует компактные vision-токены; декодер MoE примерно на 3 миллиарда параметров реконструирует из них текст или Markdown. Цель — не просто распознавание символов, а контекст-компрессия для последующих LLM-воркфлоу. Данная
карта модели
описывает проверенные окружения (Python 3.12.9, CUDA 11.8, Torch 2.6.0, Flash-Attention 2.7.3) и показывает подсказки вроде «
Установка и использование
Использование DeepSeek-OCR требует специфических предусловий и точной установки.
Уточнение требований
Требуется графическая карта NVIDIA с актуальным драйвером, CUDA 11.8 и Python 3.12.9. Приведённые версии пакетов включают, среди прочего torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3 . Это GitHub-README указан тот же стек; поддержка vLLM официально.
Загрузка исходного кода
Исходный код загружается с помощью git clone https://github.com/deepseek-ai/DeepSeek-OCR.git загружается. Затем переходят в созданную папку.
Создание окружения
Среда Conda создаётся с помощью conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr и активируется.
Установка пакетов (путь Transformers)
Установка необходимых пакетов выполняется с помощью следующих команд:
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation
Подробности и протестированные сочетания находятся в модельной карте которые можно найти.
Инференс первого изображения
Для инференса изображения с использованием библиотеки Transformers в Python выполняются следующие шаги:
from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)
Пример подсказки: "<image>\n<|grounding|>Convert the document to markdown.". После установки model.infer(...) запускается. Полный сниппет находится в
карта модели доступна.
vLLM-обслуживание для пропускной способности (опционально, официально поддерживается).
Для более высокой пропускной способности можно использовать vLLM:
uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
Затем в Python с помощью vLLM создаётся LLM(model="deepseek-ai/DeepSeek-OCR") генерируются, изображения передаются в виде PIL-Images и с помощью SamplingParams генерируется. Примеры кода можно найти в
README
и в
карта модели.
. Репозиторий содержит скрипты типа
README как ориентир «~2500 токенов/с» на A100-40G.
Выбор подсказок и режимов
Для документов применяем подсказку "<image>\n<|grounding|>Convert the document to markdown." используется. Для чистого OCR без разметки служит "<image>\nFree OCR.".
Среди поддерживаемых — размеры изображений «Tiny/Small/Base/Large», а также динамический режим «Gundam». Подробности об этом смотрите в
README
и в
карта модели.
Обработка PDF-файлов
PDF можно обрабатывать с помощью Repo показывает входные и выходные пути.
Проверка результатов
Вывод оформляется в Markdown или тексте. Таблицы и изображения можно представить в виде структурированного текста. Качество и скорость зависят от степени сжатия, разрешения и GPU.
Устранение неполадок
При сборке flash-attn следует установить опцию Обсуждения.
Хронология и статус
Первое опубликование состоялось 20.10.2025 в Репо; ; поддержка vLLM с 23.10.2025 также интегрирована в upstream в vLLM. Это Статья была подана 21.10.2025 на arXiv. СМИ классифицируют это как «визуальная текстовая компрессия».
Quelle: YouTube
Анализ и оценка
DeepSeek-OCR направлен на снижение затрат и задержек в рабочих процессах LLM путём визуального сжатия длинных контекстов.
Мотивы, контекст, интересы
Подход обусловлен высокими затратами на длинные контексты. Сжатие страниц как изображений в несколько vision-токенов существенно снижает бюджет токенов для последующих моделей. Официальная интеграция vLLM нацелена на высокий пропуск в производственных конвейерах. Технические СМИ подчёркивают потенциальные экономические и задержки преимущества, но предупреждают о вариативности, зависящей от аппаратного обеспечения и данных.

Quelle: pxz.ai
DeepSeek OCR использует контекстную компрессию, чтобы значительно повысить эффективность по сравнению с обычными Vision-LLMs и снизить затраты на токены.
Фактическая проверка: доказательства против утверждений
Подтверждено
Архитектура (DeepEncoder + 3B-MoE-декодер), заявленные значения точности при <10x и 20x сжатии, и цель «контекстная компрессия» зафиксированы в Статья Шаги установки, скрипты и примеры подсказок можно найти в README и в карта модели; ; Поддержка vLLM там документирована.
Неясно
Обобщенные заявления «в X раз быстрее» без идентичного контекста аппаратного обеспечения или данных не переносимы. Реальная пропускная способность сильно зависит от GPU, разрешения, подсказок и размера пакета.
Ложно/вводит в заблуждение
DeepSeek-OCR — не «только более быстрый OCR». Основная цель — визуальная компрессия для рабочих процессов LLM. Для чистого, простого распознавания текста может быть полезным классическое OCR (например, Tesseract) ) по-прежнему имеет смысл.

Quelle: freedeepseekocr.com
Интерфейс демонстратора DeepSeek-OCR позволяет просто загружать документы и выбирать разные размеры моделей для обработки.
Реакции и встречные позиции
Технические отчеты подчеркивают экономию токенов от 7 до 20 раз. Скептики спрашивают об устойчивости к различным макетам и языкам, а также о потере качества при сильной компрессии. Разработчики документируют настройки и препятствия на конкретном оборудовании. Сообщения сообщества сообщают о очень быстрой конвертации PDF в Markdown в рамках vLLM, но это анекдоты. Практическая польза: тот, кто включает длинные PDF, таблицы, формы или отчеты в конвейеры LLM, может снизить затраты и задержки с помощью DeepSeek-OCR, если реконструкция достаточно точна. Для быстрого обслуживания выгоден путь через vLLM; для минимальных конфигураций достаточно Inference Transformers. Для простых, «чистых» сканов без требований к макету может быть эффективнее Tesseract.
Влияние и что это значит для тебя/вас
Подсказки по интерпретации: сначала первоисточники (Paper, README, карта модели), затем собственные замеры на оборудовании; сравнивайте варианты prompt, разрешения и степени сжатия.
Насколько устойчивы компромиссы по языкам, почерку, сканам и мелким таблицам? Независимые бенчмарки и репликационные исследования ещё не завершены. Как будет развиваться официальный CPU-/MPS-поддержка за пределами обходных путей сообщества? Обсуждения существуют, но без твердых гарантий. Насколько устойчиво PDF-пропускная способность под реальной производственной нагрузкой и вне оборудования A100? Это
Quelle: YouTube
Открытые вопросы
README README приводит примеры, но не общие SLA-значения.

Quelle: chattools.cn
Подробные диаграммы иллюстрируют впечатляющие показатели сжатия и производительности DeepSeek OCR, подчеркивая его эффективность.
Заключение и рекомендации
Чтобы разумно использовать DeepSeek-OCR, окружение должно быть точно таким же, как в карта модели или в README Настройте его согласно описанию. Начните с примера по Transformer и переключитесь на vLLM, чтобы получить более высокую пропускную способность. Подгоняйте prompts и режимы под соответствующие документы и оценивайте качество относительно степени сжатия. Для чистых, простых случаев OCR классический OCR остаётся компактным вариантом; для длинных, сложных документов визуальная контекстная компрессия раскрывает свою сильную сторону.