Technology Radar
Docling is an open-source Python and TypeScript library for converting unstructured documents into clean, machine-readable outputs. Using a computer vision–based approach to layout and semantic understanding, it processes complex inputs — including PDFs and scanned documents — into structured formats such as JSON and Markdown. That makes it a strong fit for retrieval-augmented generation (RAG) pipelines and for producing structured outputs from LLMs, in contrast to vision-first retrieval approaches such as ColPali.
Docling provides an open-source, self-hostable alternative to proprietary cloud-managed services such as Azure Document Intelligence, Amazon Textract and Google Document AI, while integrating well with frameworks such as LangGraph. In our experience, it performs well in production-scale extraction workloads across digital and scanned PDFs, including very large files containing text, tables and images. It delivers a strong quality-to-cost balance for downstream agentic RAG workflows. Based on these results, we’re moving Docling to Trial.
Docling es una biblioteca de código abierto de Python y TypeScript para el procesamiento avanzado de documentos con datos no estructurados. Aborda el problema, a menudo pasado por alto, del “último tramo” al convertir documentos del mundo real, como archivos PDF y presentaciones en PowerPoint, en formatos limpios y legibles por máquina. A diferencia de los extractores tradicionales, Docling utiliza un enfoque basado en visión por computadora para interpretar la estructura semántica y el diseño del documento, lo que hace que sus resultados sean especialmente valiosos para los pipelines de generación aumentada por recuperación (RAG). Convierte documentos complejos en formatos estructurados como JSON o Markdown, lo que permite aplicar técnicas como salida estructurada de LLMs. Esto contrasta con ColPali, que envía imágenes de páginas directamente a un modelo visión-lenguaje para su recuperación. La naturaleza open source de Docling y su núcleo en Python, construido sobre un modelo de datos basado en Pydantic, ofrecen una alternativa flexible y autogestionada frente a herramientas propietarias en la nube como Azure Document Intelligence, Amazon Textract y Google Document AI. Respaldado por IBM Research, el rápido desarrollo del proyecto y su arquitectura lista para integrarse con otros frameworks como LangGraph lo convierten en una opción muy recomendable para los equipos que construyen pipelines de datos listos para IA de nivel productivo.