Skip to main content
Open on GitHub

文档加载器

DocumentLoaders 将数据加载为标准的 LangChain Document 格式。

每个 DocumentLoader 都有其特定的参数,但都可以通过 .load 方法以相同的方式调用。 以下是一个示例用例:

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
... # <-- 集成特定的参数在此处
)
data = loader.load()
API Reference:CSVLoader

网页

以下文档加载器允许您加载网页。

请参阅此指南作为起点:如何:加载网页

Document LoaderDescriptionPackage/API
WebUses urllib and BeautifulSoup to load and parse HTML web pagesPackage
UnstructuredUses Unstructured to load and parse web pagesPackage
RecursiveURLRecursively scrapes all child links from a root URLPackage
SitemapScrapes all pages on a given sitemapPackage
FirecrawlAPI service that can be deployed locally, hosted version has free credits.API
DoclingUses Docling to load and parse web pagesPackage
HyperbrowserPlatform for running and scaling headless browsers, can be used to scrape/crawl any siteAPI
AgentQLWeb interaction and structured data extraction from any web page using an AgentQL query or a Natural Language promptAPI

PDF

以下文档加载器允许您加载 PDF 文档。

请参阅此指南作为起点:如何:加载 PDF 文件

Document LoaderDescriptionPackage/API
PyPDFUses `pypdf` to load and parse PDFsPackage
UnstructuredUses Unstructured's open source library to load PDFsPackage
Amazon TextractUses AWS API to load PDFsAPI
MathPixUses MathPix to load PDFsPackage
PDFPlumberLoad PDF files using PDFPlumberPackage
PyPDFDirectryLoad a directory with PDF filesPackage
PyPDFium2Load PDF files using PyPDFium2Package
PyMuPDFLoad PDF files using PyMuPDFPackage
PyMuPDF4LLMLoad PDF content to Markdown using PyMuPDF4LLMPackage
PDFMinerLoad PDF files using PDFMinerPackage
Upstage Document Parse LoaderLoad PDF files using UpstageDocumentParseLoaderPackage
DoclingLoad PDF files using DoclingPackage

云服务提供商

以下文档加载器允许您从您喜欢的云服务提供商处加载文档。

Document LoaderDescriptionPartner PackageAPI reference
AWS S3 DirectoryLoad documents from an AWS S3 directoryS3DirectoryLoader
AWS S3 FileLoad documents from an AWS S3 fileS3FileLoader
Azure AI DataLoad documents from Azure AI servicesAzureAIDataLoader
Azure Blob Storage ContainerLoad documents from an Azure Blob Storage containerAzureBlobStorageContainerLoader
Azure Blob Storage FileLoad documents from an Azure Blob Storage fileAzureBlobStorageFileLoader
DropboxLoad documents from DropboxDropboxLoader
Google Cloud Storage DirectoryLoad documents from GCS bucketGCSDirectoryLoader
Google Cloud Storage FileLoad documents from GCS file objectGCSFileLoader
Google DriveLoad documents from Google Drive (Google Docs only)GoogleDriveLoader
Huawei OBS DirectoryLoad documents from Huawei Object Storage Service DirectoryOBSDirectoryLoader
Huawei OBS FileLoad documents from Huawei Object Storage Service FileOBSFileLoader
Microsoft OneDriveLoad documents from Microsoft OneDriveOneDriveLoader
Microsoft SharePointLoad documents from Microsoft SharePointSharePointLoader
Tencent COS DirectoryLoad documents from Tencent Cloud Object Storage DirectoryTencentCOSDirectoryLoader
Tencent COS FileLoad documents from Tencent Cloud Object Storage FileTencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

Document LoaderAPI reference
TwitterTwitterTweetLoader
RedditRedditPostsLoader

即时消息服务

以下文档加载器允许您从不同的即时消息平台加载数据。

Document LoaderAPI reference
TelegramTelegramChatFileLoader
WhatsAppWhatsAppChatLoader
DiscordDiscordChatLoader
Facebook ChatFacebookChatLoader
MastodonMastodonTootsLoader

常用生产力工具

以下文档加载器允许您从常用的生产力工具加载数据。

Document LoaderAPI reference
FigmaFigmaFileLoader
NotionNotionDirectoryLoader
SlackSlackDirectoryLoader
QuipQuipLoader
TrelloTrelloLoader
RoamRoamLoader
GitHubGithubFileLoader

常见文件类型

以下文档加载器允许您从常见的数据格式加载数据。

Document LoaderData Type
CSVLoaderCSV files
DirectoryLoaderAll files in a given directory
UnstructuredMany file types (see https://docs.unstructured.io/platform/supported-file-types)
JSONLoaderJSON files
BSHTMLLoaderHTML files
DoclingLoaderVarious file types (see https://ds4sd.github.io/docling/)

所有文档加载器

NameDescription
acreomacreom 是一个以开发者为中心的知识库,它运行在本地 markdown 文件上的任务。
AgentQLLoaderAgentQL 的文档加载器使用 AgentQL 查询从任何网页提取结构化数据。AgentQL 可跨多个语言和网页使用,且不易随时间和更改...
AirbyteLoaderAirbyte 是一个数据集成平台,用于 ELT 管道,将数据从 API、数据库和文件集成到数据仓库和数据湖。它拥有最广泛的 ELT 连接...
Airtable* 在此处获取您的 API 密钥。
阿里云 MaxCompute阿里云 MaxCompute (前身为 ODPS) 是一个通用的、完全托管的、多租户的大规模数据仓库数据处理平台。MaxCompute 支...
Amazon TextractAmazon Textract 是一项机器学习 (ML) 服务,可自动从扫描文档中提取文本、手写内容和数据。
Apify 数据集Apify Dataset 是一种可扩展的、仅追加的存储,具有顺序访问功能,专为存储结构化的网页抓取结果而设计,例如产品列表或 Googl...
ArcGIS本笔记演示了 langchaincommunity.documentloaders.ArcGISLoader 类的使用。
ArxivLoaderarXiv 是一个开放获取的档案库,收录了 200 万篇学术文章,涵盖物理学、数学、计算机科学、定量生物学、定量金融学、统计学、电子工程与...
AssemblyAI 音频转录AssemblyAIAudioTranscriptLoader 允许使用 AssemblyAI API 转录音频文件,并将转录文本加载到文...
AstraDBDataStax Astra DB 是一个无服务器、已为AI准备好的数据库,它构建在 Apache Cassandra® 之上,并通过易于...
异步 ChromiumChromium 是 Playwright 支持的浏览器之一,Playwright 是一个用于控制浏览器自动化的库。
AsyncHtmlAsyncHtmlLoader 以并发方式从 URL 列表中加载原始 HTML。
AthenaAmazon Athena 是一项基于开源框架构建的无服务器交互式分析服务,支持开放表和文件格式。Athena 提供了一种简化的、灵活的方...
AWS S3 目录Amazon Simple Storage Service (Amazon S3) 是一项对象存储服务
AWS S3 文件Amazon Simple Storage Service (Amazon S3) 是一项对象存储服务。
AZLyricsAZLyrics 是一个大型、合法且每天都在增长的歌词库。
Azure AI 数据Azure AI Studio 提供了将数据上传到云存储以及从以下来源注册现有数据资产的功能:
Azure Blob Storage 容器Azure Blob Storage 是微软面向云的对象存储解决方案。Blob Storage 针对存储海量非结构化数据进行了优化。非结构...
Azure Blob Storage 文件Azure Files 提供完全托管的云文件共享,可通过行业标准的服务消息块(SMB)协议、网络文件系统(NFS)协议和 Azure Fi...
Azure AI Document IntelligenceAzure AI Document Intelligence(前身为 Azure Form Recognizer)是一种基于机器学习的服务...
BibTeXBibTeX 是一种文件格式和文献管理系统,通常与 LaTeX 排版系统配合使用。它是一种用于组织和存储学术及研究文档参考文献的方式。
BiliBiliBilibili是中国最受欢迎的长视频网站之一。
BlackboardBlackboard Learn (以前称为 Blackboard 学习管理系统) 是由 Blackboard Inc. 开发的基于 We...
区块链本 Notebook 的目的是提供一种测试 Langchain Document Loader for Blockchain 功能的方法。
Box"Box" 是 MUI 中
Brave SearchBrave Search 是由 Brave Software 开发的一款搜索引擎。
BrowserbaseBrowserbase 是一个开发者平台,用于可靠地运行、管理和监控无头浏览器。
BrowserlessBrowserless 是一项服务,允许您在云端运行无头 Chrome 实例。它是大规模运行基于浏览器的自动化的绝佳方式,无需担心管理自己...
BSHTMLLoader本 Notebook 提供了 BeautifulSoup4 文档加载器 的快速入门概述。如需了解 ModuleNameLoader 所有功...
CassandraCassandra 是一种 NoSQL、面向行的、高度可扩展且可用性极高的数据库。从 5.0 版本开始,该数据库便内置了向量搜索功能。
ChatGPT 数据ChatGPT 是由 OpenAI 开发的人工智能 (AI) 聊天机器人。
College ConfidentialCollege Confidential 提供了 3,800 多所学院和大学的信息。
并发加载器如同通用加载器一样工作,但为了优化工作流程可以选择并发处理。
ConfluenceConfluence 是一个维基协作平台,旨在保存和组织所有项目相关的材料。作为知识库,Confluence 主要服务于内容管理活动。
CoNLL-UCoNLL-U 是 CoNLL-X 格式的修订版本。注释被编码在纯文本文件中(UTF-8,UTF-8 编码,NFC 规范化,仅使用 LF ...
复制粘贴本 Notebook 将介绍如何从您想要复制和粘贴的内容中加载一个文档对象。在这种情况下,您甚至不需要使用 DocumentLoader,...
CouchbaseCouchbase 是一款屡获殊荣的分布式 NoSQL 云数据库,为您的所有云、移动、AI 和边缘计算应用程序提供无与伦比的多功能性、性能...
CSVCSV 文件(逗号分隔值文件)是一种分隔文本文件,它使用逗号分隔值。文件中的每一行都是一个数据记录。每一条记录由一个或多个字段组成,字段之...
Cube 语义层本笔记本演示了如何以适合传递给 LLM 作为嵌入(embeddings)的格式检索 Cube 的数据模型元数据,从而增强上下文信息。
Datadog 日志Datadog 是一个用于云规模应用程序的监控和分析平台。
Dedoc本示例演示了如何将 Dedoc 与 LangChain 结合作为 DocumentLoader 使用。
DiffbotDiffbot 是一套基于机器学习的产品,可以轻松地组织网页数据。
DiscordDiscord 是一个语音通话(VoIP)和即时消息社交平台。用户可以通过私聊或称为“服务器”的社区进行语音通话、视频通话、文本消息、媒体...
DoclingDocling 能将 PDF、DOCX、PPTX、HTML 等格式解析为丰富的统一表示,包括文档布局、表格等,使其能够用于 RAG 等生成...
Docugami本笔记本介绍了如何从 Docugami 加载文档。它阐述了与替代数据加载器相比,使用该系统的优点。
DocusaurusDocusaurus 是一个静态站点生成器,可提供开箱即用的文档功能。
DropboxDropbox 是一项文件托管服务,可将传统文件、云内容和网络快捷方式整合到同一个地方。
DuckDBDuckDB 是一个进程内 SQL OLAP 数据库管理系统。
邮件本笔记本展示了如何加载电子邮件(.eml)或 Microsoft Outlook(.msg)文件。
EPubEPUB 是一种电子书文件格式,使用“.epub”文件扩展名。该术语是 electronic publication 的缩写,有时也写作 ...
EtherscanEtherscan 是以太坊(一个去中心化的智能合约平台)的领先的区块链浏览器、搜索、API 和分析平台。
EverNoteEverNote 旨在用于归档和创建笔记,其中可以嵌入照片、音频和保存的网络内容。笔记存储在虚拟的“笔记本”中,可以进行标记、注释、编辑、...
example_data
Facebook 聊天Messenger) 是一个由 Meta Platforms 开发的美国专有即时通讯应用程序和平台。最初于 2008 年作为 Facebo...
FaunaFauna 是一个文档数据库。
FigmaFigma 是一款用于界面设计的协作式 Web 应用程序。
FireCrawlFireCrawl 可以抓取任何网站并将其转换为 LLM 就绪的数据。它会抓取所有可访问的子页面,并为每个页面提供干净的 markdown...
GeopandasGeopandas 是一个开源项目,旨在简化在 Python 中处理地理空间数据的操作。
GitGit 是一个分布式版本控制系统,可以跟踪任何一组计算机文件的更改,通常用于在软件开发期间协调多个程序员协同开发源代码的工作。
GitBookGitBook 是一个现代化的文档平台,团队可以在其中记录从产品到知识库和 API 的所有内容。
GitHub此笔记本展示了如何加载指定仓库的 issue 和 pull requests (PR),以及如何加载指定仓库的文件。我们将以 LangCh...
Glue CatalogAWS Glue Data Catalog 是一个集中的元数据存储库,允许您管理、访问和共享有关存储在 AWS 中的数据的元数据。它充当数...
Google AlloyDB for PostgreSQLAlloyDB 是一项全托管的关系型数据库服务,提供高性能、无缝集成和出色的可扩展性。AlloyDB 与 PostgreSQL 完全兼容。...
Google BigQueryGoogle BigQuery 是一个无服务器、经济高效的企业数据仓库,支持跨云运行,并可随您的数据一同扩展。
Google BigtableBigtable 是一个键值存储和宽列存储,非常适合快速访问结构化、半结构化或非结构化数据。通过 Langchain 的集成,扩展您的数据...
Google Cloud SQL for SQL serverCloud SQL 是一项全托管式关系数据库服务,提供高性能、无缝集成和出色的可扩展性。它提供 MySQL、PostgreSQL 和 SQ...
Google Cloud SQL for MySQLCloud SQL 是一项完全托管的关系数据库服务,具有高性能、无缝集成和出色的可扩展性。它提供 MySQL、PostgreSQL 和 S...
Google Cloud SQL for PostgreSQLCloud SQL for PostgreSQL 是一个完全托管的数据库服务,可帮助您在 Google Cloud Platform 上设...
Google Cloud Storage 目录Google Cloud Storage 是一项用于存储非结构化数据的托管服务。
Google Cloud Storage 文件Google Cloud Storage 是一项托管服务,用于存储非结构化数据。
Google Firestore(Datastore 模式)Firestore(Datastore 模式) 是一款为自动扩展、高性能和简易应用开发而构建的 NoSQL 文档数据库。利用 Datast...
Google DriveGoogle Drive 是由 Google 开发的文件存储和同步服务。
Google El Carro for Oracle WorkloadsGoogle El Carro Oracle Operator
Google Firestore (Native 模式)Firestore 是一款无服务器文档导向数据库,可以根据任何需求进行扩展。利用 Firestore 的 Langchain 集成,扩展您...
Google Memorystore for RedisGoogle Memorystore for Redis 是一个完全托管的服务,由 Redis 内存数据存储提供支持,可用于构建提供亚毫秒...
Google SpannerSpanner 是一个高可扩展性数据库,它以一种简单的解决方案,将无限的可扩展性与二级索引、强一致性、模式和 SQL 等关系语义相结合,并...
Google 语音转文本音频记录SpeechToTextLoader 允许使用 Google Cloud 语音转文本 API 转录音频文件,并将转录的文本加载到文档中。
GrobidGROBID 是一个机器学习库,用于提取、解析和重构原始文档。
GutenbergProject Gutenberg 是一个免费电子书在线图书馆。
Hacker NewsHacker News(有时缩写为 HN)是一个专注于计算机科学和创业的社交新闻网站。它由投资基金和初创公司孵化器 Y Combinato...
Huawei OBS 目录以下代码展示了如何将华为 OBS(对象存储服务)中的对象作为文档进行加载。
华为 OBS 文件以下代码演示了如何将华为 OBS(对象存储服务)中的对象加载为文档。
HuggingFace 数据集Hugging Face Hub 拥有超过 5000 个数据集,支持 100 多种语言,可用于 NLP、计算机视觉和音频领域的广泛任务。它...
HyperbrowserLoaderHyperbrowser 是一个用于运行和扩展无头浏览器的平台。它允许您大规模启动和管理浏览器会话,并为任何网页抓取需求提供易于使用的解决...
iFixitiFixit 是全球最大的开放维修社区。该网站拥有近 10 万份维修手册,4.2 万款设备的 20 万个问答,所有数据均根据 CC-BY-...
图片本节内容介绍如何将图片加载到文档格式中,以便下游 LangChain 模块使用。
图片字幕默认情况下,加载器使用预训练的 Salesforce BLIP 图片字幕模型。
IMSDbIMSDb 是“互联网电影剧本数据库”。
IuguIugu 是一家巴西的服务和软件即服务(SaaS)公司。它为电子商务网站和移动应用程序提供支付处理软件和应用程序编程接口。
JoplinJoplin 是一款开源笔记应用。捕捉你的想法,并从任何设备安全地访问它们。
JSONLoader本 Notebook 提供了使用 JSON 文档加载器 的快速入门指南。有关 JSONLoader 所有功能和配置的详细文档,请参阅API...
Jupyter NotebookJupyter Notebook (前身为 IPython Notebook)是一个基于 Web 的交互式计算环境,用于创建笔记本文件。
Kinetica本笔记本介绍如何从 Kinetica 加载文档
lakeFSlakeFS 为数据湖提供了可扩展的版本控制,并使用类似 Git 的语义来创建和访问这些版本。
LangSmith本笔记本提供了 LangSmith 文档加载器 入门快速概述。有关 LangSmithLoader 所有功能和配置的详细文档,请参阅 AP...
LarkSuite (飞书)LarkSuite 是由字节跳动开发的企业协作平台。
LLM Sherpa本 Notebook 介绍了如何使用 LLM Sherpa 加载多种类型的文件。LLM Sherpa 支持不同的文件格式,包括 DOCX、...
MastodonMastodon 是一个联合的社交媒体和社交网络服务。
MathPixPDFLoader受 Daniel Gross 在此处的代码片段启发:https://gist.github.com/danielgross/3ab4104...
MediaWiki 数据库转储MediaWiki XML Dumps 包含维基的内容(包含所有修订版本的维基页面),但不包含网站相关数据。XML 转储文件不能完全备份维...
合并文档加载器合并来自一组指定数据加载器的文档。
mhtmlMHTML 用于电子邮件和存档网页。MHTML,有时也称为 MHT,代表 MIME HTML,是一种用于存档整个网页的单一文件。当用户将网...
Microsoft ExcelUnstructuredExcelLoader 用于加载 Microsoft Excel 文件。该加载器支持 .xlsx 和 .xls 文...
Microsoft OneDriveMicrosoft OneDrive(前身为 SkyDrive)是微软公司运营的一项文件托管服务。
Microsoft OneNote本笔记本介绍如何从 OneNote 加载文档。
Microsoft PowerPointMicrosoft PowerPoint 是微软推出的演示文稿程序。
Microsoft SharePointMicrosoft SharePoint是由微软开发的一个基于网站的协作系统,它使用工作流应用程序、“列表”数据库以及其他 Web 部件和...
Microsoft WordMicrosoft Word 是一款由 Microsoft 开发的文字处理器。
Near 区块链本 Notebook 的目的是提供一种测试 Langchain Near 区块链Document Loader 功能的方法。
Modern TreasuryModern Treasury 简化了复杂的支付操作。它是一个统一的平台,用于为资金流动的产品和流程提供支持。
MongoDBMongoDB 是一个 NoSQL 的、面向文档的数据库,它支持具有动态模式的类似 JSON 的文档。
Needle Document LoaderNeedle 可以轻松地以最小的精力创建您的 RAG 管道。
新闻 URL这部分内容涵盖了如何从 URL 列表中加载 HTML 新闻文章,并将它们转换为我们下游可以使用的文档格式。
Notion DB 2/2Notion 是一个协作平台,支持修改后的 Markdown,并集成了看板、任务、维基和数据库。它是用于笔记、知识和数据管理以及项目和任务...
NucliaNuclia 可自动索引来自任何内部和外部来源的非结构化数据,提供优化的搜索结果和生成式答案。它可以处理视频和音频转录、图像内容提取以及文...
ObsidianObsidian 是一个强大且可扩展的知识库,它可以在本地纯文本文件文件夹之上运行。
Open Document Format (ODT)开放文档格式 (ODF)(也称为 OpenDocument)是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,使用 ZIP ...
开放城市数据Socrata 提供了一个城市开放数据的 API。
Oracle Autonomous DatabaseOracle autonomous database 是一个云数据库,它利用机器学习来自动执行数据库调优、安全、备份、更新以及传统上由 D...
Oracle AI Vector Search:文档处理Oracle AI Vector Search 专为人工智能 (AI) 工作负载而设计,它允许您根据语义而非关键字来查询数据。
Org-mode一个 Org Mode 文档 是一个文档编辑、格式化和组织模式,专为自由软件文本编辑器 Emacs 中的笔记、规划和创作而设计。
Outline 文档加载器Outline 是一个开源协作知识库平台,专为团队信息共享而设计。
Pandas DataFrame本 Notebook 将介绍如何从 pandas DataFrame 加载数据。
parsers
PDFMinerLoader本 Notebook 提供了使用 PDFMiner 文档加载器的快速入门概述。如需了解 ModuleNameLoader 所有功能的详细文...
PDFPlumber与 PyMuPDF 类似,输出的 Documents 包含关于 PDF 及其页面的详细元数据,并为每个页面返回一个文档。
Pebblo 安全文档加载器Pebblo 使开发人员能够安全地加载数据,并将他们的 Gen AI 应用推广到生产环境,而无需担心组织的合规性和安全要求。该项目识别加载...
Polars DataFrame本笔记本介绍如何从 polars DataFrame 加载数据。
Dell PowerScale 文档加载器Dell PowerScale 是一个企业级横向扩展存储系统,它托管行业领先的 OneFS 文件系统,可以部署在本地或云端。
Psychic本 Notebook 涵盖了如何从 Psychic 加载文档。更多详情请参阅 此处。
PubMedPubMed® 由 The National Center for Biotechnology Information, National...
PullMdLoader使用 pull.md 服务将 URL 转换为 Markdown 的加载器。
PyMuPDFLoader本 Notebook 提供 PyMuPDF 文档加载器 的快速入门概览。有关 ModuleNameLoader 所有功能和配置的详细文档,...
PyMuPDF4LLM本 Notebook 提供了 PyMuPDF4LLM 文档加载器 的快速入门概述。要获取 PyMuPDF4LLMLoader 所有功能和配...
PyPDFDirectoryLoader此加载器加载特定目录中的所有 PDF 文件。
PyPDFium2Loader本笔记本提供了 PyPDF 文档加载器 的快速入门指南。有关所有 DocumentLoader 功能和配置的详细文档,请参阅 API 参考。
PyPDFLoader本笔记提供了使用 PyPDF 文档加载器 的快速入门指南。如需了解所有 DocumentLoader 功能和配置的详细文档,请访问 API...
PySpark本笔记本介绍如何从 PySpark DataFrame 加载数据。
QuipQuip 是一款适用于移动和 Web 的协作生产力软件套件。它允许人们作为一个小组共同创建和编辑文档和电子表格,通常用于商业目的。
ReadTheDocs 文档Read the Docs 是一个开源免费软件文档托管平台。它由 Sphinx 文档生成器生成文档。
递归 URLRecursiveUrlLoader 允许你从根 URL 递归地抓取所有子链接,并将它们解析成 Documents。
RedditReddit 是一个美国的社交新闻聚合、内容评级和讨论网站。
RoamROAM 是一款用于网络化思考的笔记工具,旨在创建个人知识库。
Rockset⚠️ 弃用通知:Rockset 集成已禁用
rspace本笔记本展示了如何使用 RSpace 文档加载器将 RSpace Electronic Lab Notebook 中的研究笔记和文档導入 ...
RSS Feeds这部分内容将介绍如何将一系列 RSS Feed URL 中的 HTML 新闻文章加载到文档格式中,以便后续使用。
RSTA reStructured Text (RST) 文件是纯文本数据的文件格式,主要在 Python 编程语言社区中用于技术文档。
scrapflyScrapFly 是一个网络爬虫 API,具有无头浏览器功能、代理和反机器人绕过能力。它允许将网页数据提取为易于访问的 LLM markd...
ScrapingAntScrapingAnt 是一个网页抓取 API,具备无头浏览器功能、代理和反机器人绕过能力。它允许将网页数据提取为易于访问的 LLM ma...
SingleStoreSingleStoreLoader 允许您直接从 SingleStore 数据库表中加载文档。它是 langchain-singlesto...
SitemapSitemapLoader 扩展自 WebBaseLoader,它从给定的 URL 加载站点地图,然后抓取并加载站点地图中的所有页面,将每...
SlackSlack 是一款即时通讯程序。
Snowflake本笔记本将介绍如何从 Snowflake 加载文档。
源代码本笔记本介绍如何使用一种特殊的语言解析方法加载源代码文件:代码中的每个顶级函数和类都将被加载到单独的文档中。任何已加载函数和类之外的剩余顶...
SpiderSpider 是最快且最具性价比的爬虫和抓取器,可返回 LLM 就绪的数据。
SpreedlySpreedly 是一项服务,可让您安全地存储信用卡,并使用它们针对任意数量的支付网关和第三方 API 进行交易。它通过同时提供卡令牌化/...
StripeStripe 是一家爱尔兰裔美国金融服务与软件即服务 (SaaS) 公司。它为电子商务网站和移动应用程序提供支付处理软件和应用程序编程接口。
副标题The SubRip file format 在 Matroska 多媒体容器格式网站上被描述为“或许是最基本的所有字幕格式”。 SubR...
SurrealDBSurrealDB 是一款面向现代应用程序(包括 Web、移动、无服务器、Jamstack、后端和传统应用程序)的端到端云原生数据库。借助...
TelegramTelegram Messenger 是一款全球可访问的免费增值、跨平台、加密、云存储和集中式即时通讯服务。该应用程序还提供可选的端到端加...
腾讯云对象存储 (COS) 目录腾讯云对象存储 (COS) 是一项分布式存储服务,
腾讯 COS 文件腾讯云对象存储 (COS) 是一种分布式存储服务,让您可以通过 HTTP/HTTPS 协议随时随地存储任意量的数据。
TensorFlow DatasetsTensorFlow Datasets 是一个数据集集合,可与 TensorFlow 或其他 Python ML 框架(如 Jax)直接使...
TiDBTiDB Cloud 是一个全面的数据库即服务 (DBaaS) 解决方案,提供专用和无服务器选项。TiDB Serverless 现已将内...
2Markdown2markdown 服务将网站内容转换为结构化的 markdown 文件。
TOMLTOML 是一种用于配置文件(configuration files)的文件格式。它旨在易于阅读和编写,并被设计成能够无歧义地映射到字典中...
TrelloTrello 是一款基于网络的项目管理和协作工具,允许个人和团队组织和跟踪他们的任务和项目。它提供了一个称为“看板”(board)的视觉界...
TSV一个制表符分隔值(TSV)文件是一种简单的、基于文本的文件格式,用于存储表格数据。[3]记录由换行符分隔,记录中的值由制表符分隔。
TwitterTwitter 是一个在线社交媒体和社交网络服务。
Unstructured本 Notebook 将介绍如何使用 Unstructured 文档加载器 来加载多种类型的文件。Unstructured 目前支持文本文...
UnstructuredMarkdownLoader本 Notebook 提供了 UnstructuredMarkdown 文档加载器 的快速入门指南。如需了解 ModuleNameLoad...
UnstructuredPDFLoaderUnstructured 支持一个通用接口,可用于处理非结构化或半结构化文件格式,例如 Markdown 或 PDF。LangChain ...
Upstage本指南将介绍如何开始使用 UpstageDocumentParseLoader。
URL本示例介绍如何将 URLs 列表中的 HTML 文档加载到我们下游使用的 Document 格式中。
VSDXVisio 文件(扩展名为 .vsdx)与用于创建图表的软件 Microsoft Visio 相关联。它存储了图表的结构、布局和图形元素的...
天气OpenWeatherMap 是一个开源天气服务提供商
WebBaseLoader此内容涵盖了如何使用 WebBaseLoader 将 HTML 网页的全部文本加载到可供下游使用的文档格式中。有关加载网页的更多自定义逻辑...
WhatsApp 聊天记录WhatsApp(也称为 WhatsApp Messenger)是一款免费、跨平台、中心化的即时通讯 (IM) 和网络语音通话 (VoIP...
WikipediaWikipedia 是一个多语言的免费在线百科全书,由称为维基百科人的志愿者社区通过开放协作编写和维护,并使用名为 MediaWiki 的...
UnstructuredXMLLoader本指南将快速介绍如何开始使用 UnstructuredXMLLoader 文档加载器。UnstructuredXMLLoader 用于加载...
Xorbits Pandas DataFrame本笔记本将介绍如何从 xorbits.pandas DataFrame 加载数据。
YouTube 音频在 YouTube 视频上构建聊天或问答应用程序是一个备受关注的主题。
YouTube 转录YouTube 是由 Google 创建的在线视频分享和社交媒体平台。
YoutubeLoaderDL利用 yt-dlp 库加载 Youtube 内容的 Loader。
YuqueYuque 是一个面向团队协作的专业云端知识库,用于文档管理。
ZeroxPDFLoaderZeroxPDFLoader 是一个利用 Zerox 库的文档加载器。Zerox 将 PDF 文档转换为图像,使用支持视觉功能的语言模型进...