Dedoc
Dedoc 支持 DOCX、XLSX、PPTX、EML、HTML、PDF、图片等。
支持的格式的完整列表可以在 此处 找到。
安装和设置
Dedoc 库
您可以使用 pip 安装 Dedoc。
在这种情况下,您需要安装依赖项,
请前往 此处
了解更多信息。
pip install dedoc
Dedoc API
如果您打算使用 Dedoc API,则无需安装 dedoc 库。
在这种情况下,您应该运行 Dedoc 服务,例如 Docker 容器(请参阅
文档
了解更多详情):
docker pull dedocproject/dedoc
docker run -p 1231:1231
文档加载器
-
要处理任何格式的文件(
Dedoc支持),您可以使用DedocFileLoader:from langchain_community.document_loaders import DedocFileLoader -
要处理 PDF 文件(带或不带文本层),您可以使用
DedocPDFLoader:from langchain_community.document_loaders import DedocPDFLoader -
要在不安装库的情况下处理任何格式的文件, 您可以使用
Dedoc API和DedocAPIFileLoader:from langchain_community.document_loaders import DedocAPIFileLoader
请参阅 使用示例 了解更多详情。