DeepSeek OCR: руководство

Avatar
Лиза Эрнст · 23.10.2025 · Техника · 6 мин

DeepSeek-OCR предлагает инновационный подход к обработке длинных текстов. Вместо прямого распознавания текста система сжимает визуальную информацию документов, чтобы сделать их удобнее для последующих Large Language Models (LLMs). Эта статья освещает принцип работы, установку и практические последствия этой модели.

Введение в DeepSeek-OCR

DeepSeek-OCR визуально сжимает контекст текста. Страницы документов рассматриваются как изображения, сводятся в несколько vision-токенов и затем восстанавливаются в текст или Markdown. Команда сообщает о снижении количества токенов в диапазоне от семи до двадцати раз и примерно до 97 процентов точности при умеренной компрессии, в зависимости от степени сжатия. Официальный код, скрипты и ещё одна Подключение к vLLM доступно.

DeepSeek-OCR не является классической заменой Tesseract. Это система Vision-Language, состоящая из двух частей: кодировщик (DeepEncoder) генерирует компактные vision-токены; декодер MoE примерно на 3 миллиарда параметров реконструирует из них текст или Markdown. Цель — не просто распознавание символов, а контекст-компрессия для последующих LLM-воркфлоу. Данная карта модели описывает проверенные окружения (Python 3.12.9, CUDA 11.8, Torch 2.6.0, Flash-Attention 2.7.3) и показывает подсказки вроде «\n<|grounding|>Convert the document to markdown.». Данная Исходный код содержит готовые скрипты для изображений, PDF-файлов и запусков бенчмарков.

Установка и использование

Использование DeepSeek-OCR требует специфических предусловий и точной установки.

Уточнение требований

Требуется графическая карта NVIDIA с актуальным драйвером, CUDA 11.8 и Python 3.12.9. Приведённые версии пакетов включают, среди прочего torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3 . Это GitHub-README указан тот же стек; поддержка vLLM официально.

Загрузка исходного кода

Исходный код загружается с помощью git clone https://github.com/deepseek-ai/DeepSeek-OCR.git загружается. Затем переходят в созданную папку.

Создание окружения

Среда Conda создаётся с помощью conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr и активируется.

Установка пакетов (путь Transformers)

Установка необходимых пакетов выполняется с помощью следующих команд:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation

Подробности и протестированные сочетания находятся в модельной карте которые можно найти.

Инференс первого изображения

Для инференса изображения с использованием библиотеки Transformers в Python выполняются следующие шаги:

from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)

Пример подсказки: "<image>\n<|grounding|>Convert the document to markdown.". После установки model.infer(...) запускается. Полный сниппет находится в карта модели доступна.

vLLM-обслуживание для пропускной способности (опционально, официально поддерживается).

Для более высокой пропускной способности можно использовать vLLM:

uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

Затем в Python с помощью vLLM создаётся LLM(model="deepseek-ai/DeepSeek-OCR") генерируются, изображения передаются в виде PIL-Images и с помощью SamplingParams генерируется. Примеры кода можно найти в README и в карта модели. . Репозиторий содержит скрипты типа README как ориентир «~2500 токенов/с» на A100-40G.

Выбор подсказок и режимов

Для документов применяем подсказку "<image>\n<|grounding|>Convert the document to markdown." используется. Для чистого OCR без разметки служит "<image>\nFree OCR.". Среди поддерживаемых — размеры изображений «Tiny/Small/Base/Large», а также динамический режим «Gundam». Подробности об этом смотрите в README и в карта модели.

Обработка PDF-файлов

PDF можно обрабатывать с помощью Repo показывает входные и выходные пути.

Проверка результатов

Вывод оформляется в Markdown или тексте. Таблицы и изображения можно представить в виде структурированного текста. Качество и скорость зависят от степени сжатия, разрешения и GPU.

Устранение неполадок

При сборке flash-attn следует установить опцию Обсуждения.

Хронология и статус

Первое опубликование состоялось 20.10.2025 в Репо; ; поддержка vLLM с 23.10.2025 также интегрирована в upstream в vLLM. Это Статья была подана 21.10.2025 на arXiv. СМИ классифицируют это как «визуальная текстовая компрессия».

Quelle: YouTube

Анализ и оценка

DeepSeek-OCR направлен на снижение затрат и задержек в рабочих процессах LLM путём визуального сжатия длинных контекстов.

Мотивы, контекст, интересы

Подход обусловлен высокими затратами на длинные контексты. Сжатие страниц как изображений в несколько vision-токенов существенно снижает бюджет токенов для последующих моделей. Официальная интеграция vLLM нацелена на высокий пропуск в производственных конвейерах. Технические СМИ подчёркивают потенциальные экономические и задержки преимущества, но предупреждают о вариативности, зависящей от аппаратного обеспечения и данных.

DeepSeek OCR использует контекстную компрессию, чтобы значительно повысить эффективность по сравнению с обычными Vision-LLMs и снизить затраты на токены.

Quelle: pxz.ai

DeepSeek OCR использует контекстную компрессию, чтобы значительно повысить эффективность по сравнению с обычными Vision-LLMs и снизить затраты на токены.

Фактическая проверка: доказательства против утверждений

Подтверждено

Архитектура (DeepEncoder + 3B-MoE-декодер), заявленные значения точности при <10x и 20x сжатии, и цель «контекстная компрессия» зафиксированы в Статья Шаги установки, скрипты и примеры подсказок можно найти в README и в карта модели; ; Поддержка vLLM там документирована.

Неясно

Обобщенные заявления «в X раз быстрее» без идентичного контекста аппаратного обеспечения или данных не переносимы. Реальная пропускная способность сильно зависит от GPU, разрешения, подсказок и размера пакета.

Ложно/вводит в заблуждение

DeepSeek-OCR — не «только более быстрый OCR». Основная цель — визуальная компрессия для рабочих процессов LLM. Для чистого, простого распознавания текста может быть полезным классическое OCR (например, Tesseract) ) по-прежнему имеет смысл.

Демонстрационный интерфейс DeepSeek-OCR обеспечивает простую загрузку документов и выбор различных размеров моделей для обработки.

Quelle: freedeepseekocr.com

Интерфейс демонстратора DeepSeek-OCR позволяет просто загружать документы и выбирать разные размеры моделей для обработки.

Реакции и встречные позиции

Технические отчеты подчеркивают экономию токенов от 7 до 20 раз. Скептики спрашивают об устойчивости к различным макетам и языкам, а также о потере качества при сильной компрессии. Разработчики документируют настройки и препятствия на конкретном оборудовании. Сообщения сообщества сообщают о очень быстрой конвертации PDF в Markdown в рамках vLLM, но это анекдоты. Практическая польза: тот, кто включает длинные PDF, таблицы, формы или отчеты в конвейеры LLM, может снизить затраты и задержки с помощью DeepSeek-OCR, если реконструкция достаточно точна. Для быстрого обслуживания выгоден путь через vLLM; для минимальных конфигураций достаточно Inference Transformers. Для простых, «чистых» сканов без требований к макету может быть эффективнее Tesseract.

Влияние и что это значит для тебя/вас

Подсказки по интерпретации: сначала первоисточники (Paper, README, карта модели), затем собственные замеры на оборудовании; сравнивайте варианты prompt, разрешения и степени сжатия.

Насколько устойчивы компромиссы по языкам, почерку, сканам и мелким таблицам? Независимые бенчмарки и репликационные исследования ещё не завершены. Как будет развиваться официальный CPU-/MPS-поддержка за пределами обходных путей сообщества? Обсуждения существуют, но без твердых гарантий. Насколько устойчиво PDF-пропускная способность под реальной производственной нагрузкой и вне оборудования A100? Это

Quelle: YouTube

Открытые вопросы

README README приводит примеры, но не общие SLA-значения.

Подробные диаграммы иллюстрируют впечатляющие показатели сжатия и производительности DeepSeek OCR, подчеркивая его эффективность.

Quelle: chattools.cn

Подробные диаграммы иллюстрируют впечатляющие показатели сжатия и производительности DeepSeek OCR, подчеркивая его эффективность.

Заключение и рекомендации

Чтобы разумно использовать DeepSeek-OCR, окружение должно быть точно таким же, как в карта модели или в README Настройте его согласно описанию. Начните с примера по Transformer и переключитесь на vLLM, чтобы получить более высокую пропускную способность. Подгоняйте prompts и режимы под соответствующие документы и оценивайте качество относительно степени сжатия. Для чистых, простых случаев OCR классический OCR остаётся компактным вариантом; для длинных, сложных документов визуальная контекстная компрессия раскрывает свою сильную сторону.

Teilen Sie doch unseren Beitrag!