Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Last updated : Apr 15, 2026
Apr 2026
Trial ?

Docling is an open-source Python and TypeScript library for converting unstructured documents into clean, machine-readable outputs. Using a computer vision–based approach to layout and semantic understanding, it processes complex inputs — including PDFs and scanned documents — into structured formats such as JSON and Markdown. That makes it a strong fit for retrieval-augmented generation (RAG) pipelines and for producing structured outputs from LLMs, in contrast to vision-first retrieval approaches such as ColPali.

Docling provides an open-source, self-hostable alternative to proprietary cloud-managed services such as Azure Document Intelligence, Amazon Textract and Google Document AI, while integrating well with frameworks such as LangGraph. In our experience, it performs well in production-scale extraction workloads across digital and scanned PDFs, including very large files containing text, tables and images. It delivers a strong quality-to-cost balance for downstream agentic RAG workflows. Based on these results, we’re moving Docling to Trial.

Nov 2025
Assess ?

Docling es una biblioteca de código abierto de Python y TypeScript para el procesamiento avanzado de documentos con datos no estructurados. Aborda el problema, a menudo pasado por alto, del “último tramo” al convertir documentos del mundo real, como archivos PDF y presentaciones en PowerPoint, en formatos limpios y legibles por máquina. A diferencia de los extractores tradicionales, Docling utiliza un enfoque basado en visión por computadora para interpretar la estructura semántica y el diseño del documento, lo que hace que sus resultados sean especialmente valiosos para los pipelines de generación aumentada por recuperación (RAG). Convierte documentos complejos en formatos estructurados como JSON o Markdown, lo que permite aplicar técnicas como salida estructurada de LLMs. Esto contrasta con ColPali, que envía imágenes de páginas directamente a un modelo visión-lenguaje para su recuperación. La naturaleza open source de Docling y su núcleo en Python, construido sobre un modelo de datos basado en Pydantic, ofrecen una alternativa flexible y autogestionada frente a herramientas propietarias en la nube como Azure Document Intelligence, Amazon Textract y Google Document AI. Respaldado por IBM Research, el rápido desarrollo del proyecto y su arquitectura lista para integrarse con otros frameworks como LangGraph lo convierten en una opción muy recomendable para los equipos que construyen pipelines de datos listos para IA de nivel productivo.

Published : Nov 05, 2025

Download the PDF

 

 

 

English | Português

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Visit our archive to read the previous volumes