Docling es una biblioteca de código abierto de Python y TypeScript para el procesamiento avanzado de documentos con datos no estructurados. Aborda el problema, a menudo pasado por alto, del “último tramo” al convertir documentos del mundo real, como archivos PDF y presentaciones en PowerPoint, en formatos limpios y legibles por máquina. A diferencia de los extractores tradicionales, Docling utiliza un enfoque basado en visión por computadora para interpretar la estructura semántica y el diseño del documento, lo que hace que sus resultados sean especialmente valiosos para los pipelines de generación aumentada por recuperación (RAG). Convierte documentos complejos en formatos estructurados como JSON o Markdown, lo que permite aplicar técnicas como salida estructurada de LLMs. Esto contrasta con ColPali, que envía imágenes de páginas directamente a un modelo visión-lenguaje para su recuperación. La naturaleza open source de Docling y su núcleo en Python, construido sobre un modelo de datos basado en Pydantic, ofrecen una alternativa flexible y autogestionada frente a herramientas propietarias en la nube como Azure Document Intelligence, Amazon Textract y Google Document AI. Respaldado por IBM Research, el rápido desarrollo del proyecto y su arquitectura lista para integrarse con otros frameworks como LangGraph lo convierten en una opción muy recomendable para los equipos que construyen pipelines de datos listos para IA de nivel productivo.