Azure Blob Storage 容器
Azure Blob Storage 是微软面向云的对象存储解决方案。Blob Storage 针对存储海量非结构化数据进行了优化。非结构化数据是指不遵循特定数据模型或定义的数据,例如文本或二进制数据。
Azure Blob Storage 的设计用于:
- 直接向浏览器提供图像或文档。
- 存储用于分布式访问的文件。
- 流式传输视频和音频。
- 写入日志文件。
- 存储用于备份和还原、灾难恢复以及归档的数据。
- 存储供本地或 Azure 托管服务分析的数据。
本 Notebook 涵盖了如何从 Azure Blob Storage 的容器加载文档对象。
%pip install --upgrade --quiet azure-storage-blob
from langchain_community.document_loaders import AzureBlobStorageContainerLoader
API Reference:AzureBlobStorageContainerLoader
loader = AzureBlobStorageContainerLoader(conn_str="<conn_str>", container="<container>")
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpaa9xl6ch/fake.docx'}, lookup_index=0)]
指定前缀
您还可以指定一个前缀,以更精细地控制要加载哪些文件。
loader = AzureBlobStorageContainerLoader(
conn_str="<conn_str>", container="<container>", prefix="<prefix>"
)
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpujbkzf_l/fake.docx'}, lookup_index=0)]
Related
- Document loader conceptual guide
- Document loader how-to guides