Enable javascript in your browser for better experience. Need to know to enable it? Go here.
发布于 : Nov 05, 2025
Nov 2025
评估 ?

Docling 是一个开源的 Python 和 TypeScript 库,用于对非结构化数据进行高级文档处理。它解决了常被忽视的“最后一公里”问题,即将真实世界的文档——如 PDF 和 PowerPoint——转换为干净、可机器读取的格式。与传统提取器不同,Docling 使用基于计算机视觉的方法来解析文档的布局和语义结构,使其输出对于 增强检索生成(RAG) 流水线特别有价值。它可将复杂文档转换为结构化格式,如 JSON 或 Markdown,并支持 LLM 的结构化输出 等技术。这与 ColPali 不同,后者直接将页面图像输入视觉-语言模型以进行检索。 Docling 的开源特性和基于 Python 的核心(建立在自定义的 Pydantic 数据模型上)为团队提供了灵活的自托管替代方案,相比于 Azure 文档智能Amazon TextractGoogle Document AI 等专有云工具更具自主性。该项目由 IBM Research 支持,开发快速,并提供可即插即用的架构,可与 LangGraph 等其他框架集成,非常值得构建生产级 AI 数据管道的团队进行评估。

Download the PDF

 

 

 

English | Español | Português | 中文

Sign up for the Technology Radar newsletter

 

 

Subscribe now

查看存档并阅读往期内容