Docling
Docling 可解析 PDF、DOCX、PPTX、HTML 等格式,将其转换为丰富的统一表示,包括文档布局、表格等,为 RAG 等生成式 AI 工作流做好准备。
此集成通过
DoclingLoader文档加载程序提供了 Docling 的能力。
安装和设置
只需从您的包管理器中安装 langchain-docling,例如 pip:
pip install langchain-docling
文档加载程序
langchain-docling 中的 DoclingLoader 类将 Docling 无缝集成到
LangChain 中,使您能够:
- 轻松快速地在 LLM 应用中使用各种文档类型,并且
- 利用 Docling 的丰富表示进行高级的、原生于文档的 grounding。
基本用法如下所示:
from langchain_docling import DoclingLoader
FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling 技术报告
loader = DoclingLoader(file_path=FILE_PATH)
docs = loader.load()
有关端到端用法,请查看 此示例。