Analizar documentos antiguos, mediante fotografías o archivos digitalizados, son un reto pero una necesidad para preservar la historia. La compañía china DeepSeek, popular por su motor de IA que hace competencia a ChatGPT, lanzó DeepSeek-OCR, un sistema basado en inteligencia artificial que promete la compresión de contextos históricos largos, permitiendo la digitalización y el procesamiento eficientes de materiales de archivo sin requerir almacenamiento masivo o recursos computacionales.
El
OCR o
Reconocimiento Óptico de Caracteres (por sus siglas en inglés) es una tecnología que convierte imágenes de texto (como documentos escaneados o fotos) en texto digital editable y con el que se puede buscar y copiar. Hacer esto, pero con miles o millones de datos, es posible gracias a la
inteligencia artificial. DeepSeek buscó desarrollar un sistema más eficiente, en relación al uso de la modalidad de visión como medio de compresión y, al mismo tiempo, manteniendo una reducción de tokens entre 7 y 20 veces.
El sistema
DeepSeek-OCR consta de dos componentes principales:
DeepEncoder y DeepSeek3B-MoE-A570M como decodificador. Los modelos de lenguaje de visión (VLM) de código abierto actuales emplean tres tipos principales de codificadores de visión, mientras que este nuevo
modelo de IA de DeepSeek apunta, según la compañía, a
reducir la cantidad de tokens consumidas, lo que disminuye la inversión para el procesamiento de documentos a gran escala.
De acuerdo con
datos oficiales, el modelo
DeepSeek-OCR tiene la capacidad de procesar más de 200,000 páginas diariamente en una sola GPU, lo que le da potencial para generar datos de entrenamiento de alta calidad para otros modelos de IA.
¿Para qué sirve el modelo de IA DeepSeek-OCR?
El DeepSeek-OCR incluye capacidades para analizar gráficos y tablas con alta precisión, fórmulas químicas y notación científica, figuras geométricas simples y diagramas, además de imágenes naturales con texto incrustado, y documentos multilingües en varios idiomas.
"DeepSeek-OCR demuestra que una sola imagen con el texto de un documento puede representar información valiosa utilizando sustancialmente menos tokens que el texto digital equivalente, lo que sugiere que la compresión óptica mediante tokens de visión puede lograr índices de compresión mucho más altos que la codificación de texto tradicional", aseguró la compañía china.
También hay una versión de código abierto, que permite a los investigadores y desarrolladores reproducir y validar los resultados de sus investigaciones, así como desarrollar la arquitectura DeepSeek-OCR para aplicaciones personalizadas o para casos de uso de producción.
Más en Andina: (FIN) SPV
Publicado: 21/10/2025