O Docling é uma biblioteca de código aberto em Python e TypeScript para converter documentos não estruturados em saídas limpas e legíveis por máquina. Usando uma abordagem baseada em visão computacional para a compreensão semântica e de layout, ele processa entradas complexas — incluindo PDFs e documentos digitalizados — em formatos estruturados como JSON e Markdown. Isso o torna uma ótima opção para pipelines de geração aumentada por recuperação (RAG) e para produzir saídas estruturadas de LLMs, em contraste com abordagens de busca visual, como o ColPali. O Docling fornece uma alternativa de código aberto e auto-hospedável a serviços proprietários gerenciados em nuvem, como Azure Document Intelligence, Amazon Textract e Google Document AI, ao mesmo tempo que se integra bem a frameworks como o LangGraph. Em nossa experiência, ele tem um bom desempenho em cargas de trabalho de extração em escala de produção tanto em PDFs digitais quanto escaneados, incluindo arquivos muito grandes contendo texto, tabelas e imagens. Ele entrega um ótimo equilíbrio entre qualidade e custo para workflows downstream de RAG com agentes. Com base nesses resultados, estamos movendo o Docling para a seção Experimente.
Docling é uma biblioteca de código aberto em Python e TypeScript para o processamento avançado de documentos com dados não estruturados. Ele aborda o problema frequentemente negligenciado da "última milha" de converter documentos do mundo real — como PDFs e PowerPoints — em formatos limpos e legíveis por máquina. Diferente dos extratores tradicionais, o Docling usa uma abordagem baseada em visão computacional para interpretar o layout do documento e a estrutura semântica, o que torna sua saída particularmente valiosa para pipelines de geração aumentada por recuperação (RAG). Ele converte documentos complexos em formatos estruturados como JSON ou Markdown, suportando técnicas como a saída estruturada de LLMs. Isso contrasta com o ColPali, que alimenta imagens de página diretamente a um modelo de linguagem e visão para recuperação. A natureza de código aberto do Docling e seu núcleo em Python, construído sobre um modelo de dados customizado baseado em Pydantic, fornecem uma alternativa flexível e auto-hospedada a ferramentas de nuvem proprietárias como o Azure Document Intelligence, o Amazon Textract e o Google Document AI. Apoiado pela IBM Research, o rápido desenvolvimento do projeto e a arquitetura plug-and-play para integração com outros frameworks como o LangGraph fazem com que valha a pena avaliá-lo para times que constroem pipelines de dados prontos para IA em nível de produção.