Unstructured
本 Notebook 将介绍如何使用 Unstructured 文档加载器 来加载多种类型的文件。Unstructured 目前支持文本文件、PowerPoint、HTML、PDF、图像等文件的加载。
请参阅此指南以获取有关在本地设置 Unstructured 的更多说明,包括设置所需的 系统依赖项。
概览
集成详情
| 类 | 包 | 本地 | 可序列化 | JS 支持 |
|---|---|---|---|---|
| UnstructuredLoader | langchain_unstructured | ✅ | ❌ | ✅ |
加载器功能
| 来源 | 文档延迟加载 | 原生异步支持 |
|---|---|---|
| UnstructuredLoader | ✅ | ❌ |
设置
凭证
默认情况下,langchain-unstructured 会安装一个占用空间较小的版本,该版本需要将分区逻辑卸载到 Unstructured API,这需要一个 API 密钥。如果您使用本地安装,则不需要 API 密钥。要获取您的 API 密钥,请访问此网站并获取 API 密钥,然后在下面的单元格中设置它:
import getpass
import os
if "UNSTRUCTURED_API_KEY" not in os.environ:
os.environ["UNSTRUCTURED_API_KEY"] = getpass.getpass(
"Enter your Unstructured API key: "
)