DeepSeek OCR: Guía

Avatar
Lisa Ernst · 23.10.2025 · Tecnología · 6 min

DeepSeek-OCR ofrece un enfoque novedoso para procesar textos largos. En lugar de un reconocimiento de texto directo, el sistema comprime la información visual de los documentos para hacerla más eficiente para los modelos de lenguaje grandes (LLMs) posteriores. Este artículo explora el funcionamiento, la instalación y las implicaciones prácticas de este modelo.

Introducción a DeepSeek-OCR

DeepSeek-OCR comprime el contexto de texto ópticamente. Las páginas de documentos se entienden como imágenes, se condensan en unos pocos Vision-Tokens y luego se reconstruyen a texto o Markdown. El equipo informa de una reducción de tokens de siete a veinte veces y hasta un 97 por ciento de precisión con compresión moderada, dependiendo del grado de compresión. El código oficial, los scripts y una integración vLLM están disponibles.

DeepSeek-OCR no es un reemplazo clásico de Tesseract. Es un sistema de Visión-Lenguaje que consta de dos partes: Un codificador (DeepEncoder) genera tokens de visión compactos; un decodificador MoE de aproximadamente 3 mil millones de parámetros reconstruye texto o Markdown a partir de ellos. El objetivo es menos el reconocimiento puro de caracteres, sino la compresión de contexto para flujos de trabajo LLM posteriores. La tarjeta del modelo describe entornos probados (Python 3.12.9, CUDA 11.8, Torch 2.6.0, Flash-Attention 2.7.3) y muestra Prompts como "\n<|grounding|>Convert the document to markdown.". El código fuente contiene scripts listos para usar para imágenes, PDFs y ejecuciones de benchmark.

Instalación y uso

El uso de DeepSeek-OCR requiere requisitos específicos y una instalación precisa.

Aclarar requisitos previos

Se requiere una GPU NVIDIA con controlador actualizado, CUDA 11.8 y Python 3.12.9. Los estados de paquete probados incluyen, entre otros, torch==2.6.0, transformers==4.46.3, tokenizers==0.20.3, flash-attn==2.7.3 . El README de GitHub establece la misma pila; el soporte vLLM es oficial.

Cargar código fuente

El código fuente se carga mediante git clone https://github.com/deepseek-ai/DeepSeek-OCR.git . Luego, se cambia a la carpeta creada.

Crear entorno

Se crea y activa un entorno Conda con conda create -n deepseek-ocr python=3.12.9 -y; conda activate deepseek-ocr .

Instalar paquetes (Ruta de Transformers)

La instalación de los paquetes necesarios se realiza mediante los siguientes comandos:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.46.3 tokenizers==0.20.3 einops addict easydict
pip install flash-attn==2.7.3 --no-build-isolation

Detalles y combinaciones probadas se pueden encontrar en la tarjeta del modelo .

Inferir la primera imagen (Transformers)

Para la inferencia de una imagen mediante la biblioteca Transformers, se procede de la siguiente manera en Python:

from transformers import AutoModel, AutoTokenizer
# ...
model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', _attn_implementation='flash_attention_2', trust_remote_code=True).eval().cuda().to(torch.bfloat16)

Un ejemplo de Prompt es "<image>\n<|grounding|>Convert the document to markdown.". Después de configurar model.infer(...) es invocado. El fragmento completo está disponible en la tarjeta del modelo .

Servicio vLLM para rendimiento (opcional, con soporte oficial)

Para un mayor rendimiento, se puede usar vLLM:

uv venv; source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

Luego, en Python con vLLM, se crea un LLM(model="deepseek-ai/DeepSeek-OCR") , se pasan imágenes como imágenes PIL y se genera con SamplingParams . Ejemplos de código se encuentran en el README y la tarjeta del modelo. . El repositorio contiene scripts como README como una referencia "~2500 Tokens/s" en una A100-40G.

Elegir Prompts y modos

Para documentos, se utiliza el Prompt "<image>\n<|grounding|>Convert the document to markdown." . Para OCR puro sin diseño, se usa "<image>\nFree OCR.". Se admiten, entre otros, tamaños de imagen "Tiny/Small/Base/Large", así como un modo dinámico "Gundam". La información al respecto se puede encontrar en el README y la tarjeta del modelo.

Procesar PDF

Los PDF se pueden procesar con Repo muestran rutas de entrada y salida.

Verificar resultado

La salida se presenta en Markdown o texto. Las tablas e ilustraciones pueden reproducirse como texto estructurado. La calidad y la velocidad dependen del grado de compresión, la resolución y la GPU.

Solución de problemas

Al construir flash-attn, la opción Discusiones.

Cronología y estado

La publicación inicial se realizó el 20.10.2025 en el Repo; ; el soporte vLLM está integrado también "upstream" en vLLM desde el 23.10.2025. El Paper fue enviado a arXiv el 21.10.2025. Los medios lo clasifican como "Compresión de Visión-Texto".

Quelle: YouTube

Análisis y evaluación

DeepSeek-OCR tiene como objetivo reducir los costos y la latencia en los flujos de trabajo LLM mediante la compresión visual de contextos largos.

Motivos, contexto, intereses

El enfoque está motivado por los altos costos de los contextos largos. La compresión de páginas como imagen en pocos Vision-Tokens reduce significativamente el presupuesto de tokens para modelos posteriores. La integración oficial de vLLM apunta a un alto rendimiento en pipelines de producción. Los medios tecnológicos enfatizan las posibles ganancias en costos y latencia, pero advierten sobre la varianza dependiente del hardware y los datos.

DeepSeek OCR utiliza la compresi&#243;n de contexto para aumentar significativamente la eficiencia en comparaci&#243;n con los Vision-LLMs convencionales y reducir los costos de tokens.

Quelle: pxz.ai

DeepSeek OCR utiliza la compresión de contexto para aumentar significativamente la eficiencia en comparación con los Vision-LLMs convencionales y reducir los costos de tokens.

Verificación de hechos: Evidencia vs. Afirmaciones

Documentado

La arquitectura (DeepEncoder + 3B-MoE-Decoder), los valores de precisión informados con compresión <10x o 20x y el objetivo "Compresión de contexto" están documentados en el Paper . Los pasos de instalación, los scripts y los Prompts de ejemplo se encuentran en el README y en la tarjeta del modelo; ; el soporte vLLM está documentado allí.

No claro

Las declaraciones genéricas de "X veces más rápido" sin un contexto de hardware o datos idéntico no son transferibles. Los rendimientos reales dependen en gran medida de la GPU, la resolución, el Prompt y el tamaño del lote.

Falso/Engañoso

DeepSeek-OCR no es "solo un OCR más rápido". El propósito principal es la compresión visual para flujos de trabajo LLM. Para un reconocimiento de texto puro y simple, el OCR clásico (p. ej., Tesseract) ) puede seguir siendo útil.

La interfaz de demostraci&#243;n de DeepSeek-OCR permite la carga sencilla de documentos y la selecci&#243;n de diferentes tama&#241;os de modelo para el procesamiento.

Quelle: freedeepseekocr.com

La interfaz de demostración de DeepSeek-OCR permite la carga sencilla de documentos y la selección de diferentes tamaños de modelo para el procesamiento.

Reacciones y Contraposiciones

Los informes tecnológicos destacan el ahorro de tokens de 7 a 20 veces. Las voces escépticas preguntan sobre la robustez en diferentes diseños y lenguajes, así como la pérdida de calidad con una compresión fuerte. Los desarrolladores documentan configuraciones y obstáculos en hardware específico. Las publicaciones de la comunidad informan de un procesamiento PDF a Markdown muy rápido bajo vLLM, aunque son anecdóticas. Utilidad práctica: Quienes incorporan PDFs, tablas, formularios o informes largos en pipelines de LLM pueden reducir costos y latencia con DeepSeek-OCR, siempre que la reconstrucción se mantenga lo suficientemente precisa. Para un servicio rápido, vale la pena la ruta vLLM; para configuraciones mínimas, basta con la inferencia de Transformers. Para escaneos simples y "limpios" sin requisitos de diseño, Tesseract puede ser más eficiente.

Impacto y lo que significa para ti/vosotros

Consejos para la clasificación: Fuentes primarias primero (Paper, README, tarjeta del modelo), luego mediciones propias en el hardware; compara variantes de Prompt, resolución y grado de compresión.

¿Qué tan estables son las compensaciones en diferentes idiomas, escritura a mano, escaneos y estructuras de tabla finas? Aún faltan benchmarks independientes y estudios de replicación. ¿Cómo se desarrolla el soporte oficial de CPU/MPS más allá de las soluciones alternativas de la comunidad? Existen discusiones, pero sin garantías firmes. ¿Qué tan robusto es el rendimiento de PDF bajo cargas de producción reales y fuera del hardware A100? El

Quelle: YouTube

Preguntas abiertas

README README menciona ejemplos, pero no valores SLA universalmente válidos.

Diagramas detallados ilustran las impresionantes m&#233;tricas de compresi&#243;n y rendimiento de DeepSeek OCR, que subrayan su eficiencia.

Quelle: chattools.cn

Diagramas detallados ilustran las impresionantes métricas de compresión y rendimiento de DeepSeek OCR, que subrayan su eficiencia.

Conclusión y recomendaciones

Para utilizar DeepSeek-OCR de manera efectiva, el entorno debe configurarse exactamente como se describe en la tarjeta del modelo o en el README . Comience con el ejemplo de Transformers y cambie a vLLM para un mayor rendimiento. Adapte los Prompts y modos a los documentos respectivos y evalúe la calidad frente al grado de compresión. Para casos de OCR puro y simple, el OCR clásico sigue siendo una opción ligera; para documentos largos y complejos, la compresión visual de contexto muestra su fuerza.

Teilen Sie doch unseren Beitrag!