文档加载器
DocumentLoaders 将数据加载为标准的 LangChain Document 格式。
每个 DocumentLoader 都有其特定的参数,但都可以通过 .load 方法以相同的方式调用。
以下是一个示例用例:
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- 集成特定的参数在此处
)
data = loader.load()
API Reference:CSVLoader
网页
以下文档加载器允许您加载网页。
请参阅此指南作为起点:如何:加载网页。
| Document Loader | Description | Package/API |
|---|---|---|
| Web | Uses urllib and BeautifulSoup to load and parse HTML web pages | Package |
| Unstructured | Uses Unstructured to load and parse web pages | Package |
| RecursiveURL | Recursively scrapes all child links from a root URL | Package |
| Sitemap | Scrapes all pages on a given sitemap | Package |
| Firecrawl | API service that can be deployed locally, hosted version has free credits. | API |
| Docling | Uses Docling to load and parse web pages | Package |
| Hyperbrowser | Platform for running and scaling headless browsers, can be used to scrape/crawl any site | API |
| AgentQL | Web interaction and structured data extraction from any web page using an AgentQL query or a Natural Language prompt | API |
PDF
以下文档加载器允许您加载 PDF 文档。
请参阅此指南作为起点:如何:加载 PDF 文件。
| Document Loader | Description | Package/API |
|---|---|---|
| PyPDF | Uses `pypdf` to load and parse PDFs | Package |
| Unstructured | Uses Unstructured's open source library to load PDFs | Package |
| Amazon Textract | Uses AWS API to load PDFs | API |
| MathPix | Uses MathPix to load PDFs | Package |
| PDFPlumber | Load PDF files using PDFPlumber | Package |
| PyPDFDirectry | Load a directory with PDF files | Package |
| PyPDFium2 | Load PDF files using PyPDFium2 | Package |
| PyMuPDF | Load PDF files using PyMuPDF | Package |
| PyMuPDF4LLM | Load PDF content to Markdown using PyMuPDF4LLM | Package |
| PDFMiner | Load PDF files using PDFMiner | Package |
| Upstage Document Parse Loader | Load PDF files using UpstageDocumentParseLoader | Package |
| Docling | Load PDF files using Docling | Package |
云服务提供商
以下文档加载器允许您从您喜欢的云服务提供商处加载文档。
| Document Loader | Description | Partner Package | API reference |
|---|---|---|---|
| AWS S3 Directory | Load documents from an AWS S3 directory | ❌ | S3DirectoryLoader |
| AWS S3 File | Load documents from an AWS S3 file | ❌ | S3FileLoader |
| Azure AI Data | Load documents from Azure AI services | ❌ | AzureAIDataLoader |
| Azure Blob Storage Container | Load documents from an Azure Blob Storage container | ❌ | AzureBlobStorageContainerLoader |
| Azure Blob Storage File | Load documents from an Azure Blob Storage file | ❌ | AzureBlobStorageFileLoader |
| Dropbox | Load documents from Dropbox | ❌ | DropboxLoader |
| Google Cloud Storage Directory | Load documents from GCS bucket | ✅ | GCSDirectoryLoader |
| Google Cloud Storage File | Load documents from GCS file object | ✅ | GCSFileLoader |
| Google Drive | Load documents from Google Drive (Google Docs only) | ✅ | GoogleDriveLoader |
| Huawei OBS Directory | Load documents from Huawei Object Storage Service Directory | ❌ | OBSDirectoryLoader |
| Huawei OBS File | Load documents from Huawei Object Storage Service File | ❌ | OBSFileLoader |
| Microsoft OneDrive | Load documents from Microsoft OneDrive | ❌ | OneDriveLoader |
| Microsoft SharePoint | Load documents from Microsoft SharePoint | ❌ | SharePointLoader |
| Tencent COS Directory | Load documents from Tencent Cloud Object Storage Directory | ❌ | TencentCOSDirectoryLoader |
| Tencent COS File | Load documents from Tencent Cloud Object Storage File | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。
| Document Loader | API reference |
|---|---|
| TwitterTweetLoader | |
| RedditPostsLoader |
即时消息服务
以下文档加载器允许您从不同的即时消息平台加载数据。
| Document Loader | API reference |
|---|---|
| Telegram | TelegramChatFileLoader |
| WhatsAppChatLoader | |
| Discord | DiscordChatLoader |
| Facebook Chat | FacebookChatLoader |
| Mastodon | MastodonTootsLoader |
常用生产力工具
以下文档加载器允许您从常用的生产力工具加载数据。
| Document Loader | API reference |
|---|---|
| Figma | FigmaFileLoader |
| Notion | NotionDirectoryLoader |
| Slack | SlackDirectoryLoader |
| Quip | QuipLoader |
| Trello | TrelloLoader |
| Roam | RoamLoader |
| GitHub | GithubFileLoader |
常见文件类型
以下文档加载器允许您从常见的数据格式加载数据。
| Document Loader | Data Type |
|---|---|
| CSVLoader | CSV files |
| DirectoryLoader | All files in a given directory |
| Unstructured | Many file types (see https://docs.unstructured.io/platform/supported-file-types) |
| JSONLoader | JSON files |
| BSHTMLLoader | HTML files |
| DoclingLoader | Various file types (see https://ds4sd.github.io/docling/) |
所有文档加载器
| Name | Description |
|---|---|
| acreom | acreom 是一个以开发者为中心的知识库,它运行在本地 markdown 文件上的任务。 |
| AgentQLLoader | AgentQL 的文档加载器使用 AgentQL 查询从任何网页提取结构化数据。AgentQL 可跨多个语言和网页使用,且不易随时间和更改... |
| AirbyteLoader | Airbyte 是一个数据集成平台,用于 ELT 管道,将数据从 API、数据库和文件集成到数据仓库和数据湖。它拥有最广泛的 ELT 连接... |
| Airtable | * 在此处获取您的 API 密钥。 |
| 阿里云 MaxCompute | 阿里云 MaxCompute (前身为 ODPS) 是一个通用的、完全托管的、多租户的大规模数据仓库数据处理平台。MaxCompute 支... |
| Amazon Textract | Amazon Textract 是一项机器学习 (ML) 服务,可自动从扫描文档中提取文本、手写内容和数据。 |
| Apify 数据集 | Apify Dataset 是一种可扩展的、仅追加的存储,具有顺序访问功能,专为存储结构化的网页抓取结果而设计,例如产品列表或 Googl... |
| ArcGIS | 本笔记演示了 langchaincommunity.documentloaders.ArcGISLoader 类的使用。 |
| ArxivLoader | arXiv 是一个开放获取的档案库,收录了 200 万篇学术文章,涵盖物理学、数学、计算机科学、定量生物学、定量金融学、统计学、电子工程与... |
| AssemblyAI 音频转录 | AssemblyAIAudioTranscriptLoader 允许使用 AssemblyAI API 转录音频文件,并将转录文本加载到文... |
| AstraDB | DataStax Astra DB 是一个无服务器、已为AI准备好的数据库,它构建在 Apache Cassandra® 之上,并通过易于... |
| 异步 Chromium | Chromium 是 Playwright 支持的浏览器之一,Playwright 是一个用于控制浏览器自动化的库。 |
| AsyncHtml | AsyncHtmlLoader 以并发方式从 URL 列表中加载原始 HTML。 |
| Athena | Amazon Athena 是一项基于开源框架构建的无服务器交互式分析服务,支持开放表和文件格式。Athena 提供了一种简化的、灵活的方... |
| AWS S3 目录 | Amazon Simple Storage Service (Amazon S3) 是一项对象存储服务 |
| AWS S3 文件 | Amazon Simple Storage Service (Amazon S3) 是一项对象存储服务。 |
| AZLyrics | AZLyrics 是一个大型、合法且每天都在增长的歌词库。 |
| Azure AI 数据 | Azure AI Studio 提供了将数据上传到云存储以及从以下来源注册现有数据资产的功能: |
| Azure Blob Storage 容器 | Azure Blob Storage 是微软面向云的对象存储解决方案。Blob Storage 针对存储海量非结构化数据进行了优化。非结构... |
| Azure Blob Storage 文件 | Azure Files 提供完全托管的云文件共享,可通过行业标准的服务消息块(SMB)协议、网络文件系统(NFS)协议和 Azure Fi... |
| Azure AI Document Intelligence | Azure AI Document Intelligence(前身为 Azure Form Recognizer)是一种基于机器学习的服务... |
| BibTeX | BibTeX 是一种文件格式和文献管理系统,通常与 LaTeX 排版系统配合使用。它是一种用于组织和存储学术及研究文档参考文献的方式。 |
| BiliBili | Bilibili是中国 最受欢迎的长视频网站之一。 |
| Blackboard | Blackboard Learn (以前称为 Blackboard 学习管理系统) 是由 Blackboard Inc. 开发的基于 We... |
| 区块链 | 本 Notebook 的目的是提供一种测试 Langchain Document Loader for Blockchain 功能的方法。 |
| Box | "Box" 是 MUI 中 |
| Brave Search | Brave Search 是由 Brave Software 开发的一款搜索引擎。 |
| Browserbase | Browserbase 是一个开发者平台,用于可靠地运行、管理和监控无头浏览器。 |
| Browserless | Browserless 是一项服务,允许您在云端运行无头 Chrome 实例。它是大规模运行基于浏览器的自动化的绝佳方式,无需担心管理自己... |
| BSHTMLLoader | 本 Notebook 提供了 BeautifulSoup4 文档加载器 的快速入门概述。如需了解 ModuleNameLoader 所有功... |
| Cassandra | Cassandra 是一种 NoSQL、面向行的、高度可扩展且可用性极高的数据库。从 5.0 版本开始,该数据库便内置了向量搜索功能。 |
| ChatGPT 数据 | ChatGPT 是由 OpenAI 开发的人工智能 (AI) 聊天机器人。 |
| College Confidential | College Confidential 提供了 3,800 多所学院和大学的信息。 |
| 并发加载器 | 如同通用加载器一样工作,但为了优化工作流程可以选择并发处理。 |
| Confluence | Confluence 是一个维基协作平台,旨在保存和组织所有项目相关的材料。作为知识库,Confluence 主要服务于内容管理活动。 |
| CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修订版本。注释被编码在纯文本文件中(UTF-8,UTF-8 编码,NFC 规范化,仅使用 LF ... |
| 复制粘贴 | 本 Notebook 将介绍如何从您想要复制和粘贴的内容中加载一个文档对象。在这种情况下,您甚至不需要使用 DocumentLoader,... |
| Couchbase | Couchbase 是一款屡获殊荣的分布式 NoSQL 云数据库,为您的所有云、移动、AI 和边缘计算应用程序提供无与伦比的多功能性、性能... |
| CSV | CSV 文件(逗号分隔值文件)是一种分隔文本文件,它使用逗号分隔值。文件中的每一行都是一个数据记录。每一条记录由一个或多个字段组成,字段之... |
| Cube 语义层 | 本笔记本演示了如何以适合传递给 LLM 作为嵌入(embeddings)的格式检索 Cube 的数据模型元数据,从而增强上下文信息。 |
| Datadog 日志 | Datadog 是一个用于云规模应用程 序的监控和分析平台。 |
| Dedoc | 本示例演示了如何将 Dedoc 与 LangChain 结合作为 DocumentLoader 使用。 |
| Diffbot | Diffbot 是一套基于机器学习的产品,可以轻松地组织网页数据。 |
| Discord | Discord 是一个语音通话(VoIP)和即时消息社交平台。用户可以通过私聊或称为“服务器”的社区进行语音通话、视频通话、文本消息、媒体... |
| Docling | Docling 能将 PDF、DOCX、PPTX、HTML 等格式解析为丰富的统一表示,包括文档布局、表格等,使其能够用于 RAG 等生成... |
| Docugami | 本笔记本介绍了如何从 Docugami 加载文档。它阐述了与替代数据加载器相比,使用该系统的优点。 |
| Docusaurus | Docusaurus 是一个静态站点生成器,可提供开箱即用的文档功能。 |
| Dropbox | Dropbox 是一项文件托管服务,可将传统文件、云内容和网络快捷方式整合到同一个地方。 |
| DuckDB | DuckDB 是一个进程内 SQL OLAP 数据库管理系统。 |
| 邮件 | 本笔记本展示了如何加载电子邮件(.eml)或 Microsoft Outlook(.msg)文件。 |
| EPub | EPUB 是一种电子 书文件格式,使用“.epub”文件扩展名。该术语是 electronic publication 的缩写,有时也写作 ... |
| Etherscan | Etherscan 是以太坊(一个去中心化的智能合约平台)的领先的区块链浏览器、搜索、API 和分析平台。 |
| EverNote | EverNote 旨在用于归档和创建笔记,其中可以嵌入照片、音频和保存的网络内容。笔记存储在虚拟的“笔记本”中,可以进行标记、注释、编辑、... |
| example_data | |
| Facebook 聊天 | Messenger) 是一个由 Meta Platforms 开发的美国专有即时通讯应用程序和平台。最初于 2008 年作为 Facebo... |
| Fauna | Fauna 是一个文档数据库。 |
| Figma | Figma 是一款用于界面设计的协作式 Web 应用程序。 |
| FireCrawl | FireCrawl 可以抓取任何网站并将其转换为 LLM 就绪的数据。它会抓取所有可访问的子页面,并为每个页面提供干净的 markdown... |
| Geopandas | Geopandas 是一个开源项目,旨在简化在 Python 中处理地理空间数据的操作。 |
| Git | Git 是一个分布式版本控制系统,可以跟踪任何一组计算机文件的更改,通常用于在软件开发期间协调多个程序员协同开发源代码的工作。 |
| GitBook | GitBook 是一个现代化的文档平台,团队可以在其中记录从产品到知识库和 API 的所有内容。 |
| GitHub | 此笔记本展示了如何加载指定仓库的 issue 和 pull requests (PR),以及如何加载指定仓库的文件。我们将以 LangCh... |
| Glue Catalog | AWS Glue Data Catalog 是一个集中的元数据存储库,允许您管理、访问和共享有关存储在 AWS 中的数据的元数据。它充当数... |
| Google AlloyDB for PostgreSQL | AlloyDB 是一项全托管的关系型数据库服务,提供高性能、无缝集成和出色的可扩展性。AlloyDB 与 PostgreSQL 完全兼容。... |
| Google BigQuery | Google BigQuery 是一个无服务器、经济高效的企业数据仓库,支持跨云运行,并可随您的数据一同扩展。 |
| Google Bigtable | Bigtable 是一个键值存储和宽列存储,非常适合快速访问结构化、半结构化或非结构化数据。通过 Langchain 的集成,扩展您的数据... |
| Google Cloud SQL for SQL server | Cloud SQL 是一项全托管式关系数据库服务,提供高性能、无缝集成和出色的可扩展性。它提供 MySQL、PostgreSQL 和 SQ... |
| Google Cloud SQL for MySQL | Cloud SQL 是一项完全托管的关系数据库服务,具有高性能、无缝集成和出色的可扩展性。它提供 MySQL、PostgreSQL 和 S... |
| Google Cloud SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一个完全托管的数据库服务,可帮助您在 Google Cloud Platform 上设... |
| Google Cloud Storage 目录 | Google Cloud Storage 是一项用于存储非结构化数据的托管服务。 |
| Google Cloud Storage 文件 | Google Cloud Storage 是一项托管服务,用于存储非结构化数据。 |
| Google Firestore(Datastore 模式) | Firestore(Datastore 模式) 是一款为自动扩展、高性能和简易应用开发而构建的 NoSQL 文档数据库。利用 Datast... |
| Google Drive | Google Drive 是由 Google 开发的文件存储和同步服务。 |
| Google El Carro for Oracle Workloads | Google El Carro Oracle Operator |
| Google Firestore (Native 模式) | Firestore 是一款无服务器文档导向数据库,可以根据任何需求进行扩展。利用 Firestore 的 Langchain 集成,扩展您... |
| Google Memorystore for Redis | Google Memorystore for Redis 是一个完全托管的服务,由 Redis 内存数据存储提供支持,可用于构建提供亚毫秒... |
| Google Spanner | Spanner 是一个高可 扩展性数据库,它以一种简单的解决方案,将无限的可扩展性与二级索引、强一致性、模式和 SQL 等关系语义相结合,并... |
| Google 语音转文本音频记录 | SpeechToTextLoader 允许使用 Google Cloud 语音转文本 API 转录音频文件,并将转录的文本加载到文档中。 |
| Grobid | GROBID 是一个机器学习库,用于提取、解析和重构原始文档。 |
| Gutenberg | Project Gutenberg 是一个免费电子书在线图书馆。 |
| Hacker News | Hacker News(有时缩写为 HN)是一个专注于计算机科学和创业的社交新闻网站。它由投资基金和初创公司孵化器 Y Combinato... |
| Huawei OBS 目录 | 以下代码展示了如何将华为 OBS(对象存储服务)中的对象作为文档进行加载。 |
| 华为 OBS 文件 | 以下代码演示了如何将华为 OBS(对象存储服务)中的对象加载为文档。 |
| HuggingFace 数据集 | Hugging Face Hub 拥有超过 5000 个数据集,支持 100 多种语言,可用于 NLP、计算机视觉和音频领域的广泛任务。它... |
| HyperbrowserLoader | Hyperbrowser 是一个用于运行和扩展无头浏览器的平台。它允许您大规模启动和管理浏览器会话,并为任何网页抓取需求提供易于 使用的解决... |
| iFixit | iFixit 是全球最大的开放维修社区。该网站拥有近 10 万份维修手册,4.2 万款设备的 20 万个问答,所有数据均根据 CC-BY-... |
| 图片 | 本节内容介绍如何将图片加载到文档格式中,以便下游 LangChain 模块使用。 |
| 图片字幕 | 默认情况下,加载器使用预训练的 Salesforce BLIP 图片字幕模型。 |
| IMSDb | IMSDb 是“互联网电影剧本数据库”。 |
| Iugu | Iugu 是一家巴西的服务和软件即服务(SaaS)公司。它为电子商务网站和移动应用程序提供支付处理软件和应用程序编程接口。 |
| Joplin | Joplin 是一款开源笔记应用。捕捉你的想法,并从任何设备安全地访问它们。 |
| JSONLoader | 本 Notebook 提供了使用 JSON 文档加载器 的快速入门指南。有关 JSONLoader 所有功能和配置的详细文档,请参阅API... |
| Jupyter Notebook | Jupyter Notebook (前身为 IPython Notebook)是一个基于 Web 的交互式计算环境,用于创建笔记本文件。 |
| Kinetica | 本笔记本介绍如何从 Kinetica 加载文档 |
| lakeFS | lakeFS 为数据湖提 供了可扩展的版本控制,并使用类似 Git 的语义来创建和访问这些版本。 |
| LangSmith | 本笔记本提供了 LangSmith 文档加载器 入门快速概述。有关 LangSmithLoader 所有功能和配置的详细文档,请参阅 AP... |
| LarkSuite (飞书) | LarkSuite 是由字节跳动开发的企业协作平台。 |
| LLM Sherpa | 本 Notebook 介绍了如何使用 LLM Sherpa 加载多种类型的文件。LLM Sherpa 支持不同的文件格式,包括 DOCX、... |
| Mastodon | Mastodon 是一个联合的社交媒体和社交网络服务。 |
| MathPixPDFLoader | 受 Daniel Gross 在此处的代码片段启发:https://gist.github.com/danielgross/3ab4104... |
| MediaWiki 数据库转储 | MediaWiki XML Dumps 包含维基的内容(包含所有修订版本的维基页面),但不包含网站相关数据。XML 转储文件不能完全备份维... |
| 合并文档加载器 | 合并来自一组指定数据加载器的文档。 |
| mhtml | MHTML 用于电子邮件和存档网页。MHTML,有时也称为 MHT,代表 MIME HTML,是一种用于存档整个网页的单一文件。当用户将网... |
| Microsoft Excel | UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。该加载器支持 .xlsx 和 .xls 文... |
| Microsoft OneDrive | Microsoft OneDrive(前身为 SkyDrive)是微软公司运营的一项文件托管服务。 |
| Microsoft OneNote | 本笔记本介绍如何从 OneNote 加载文档。 |
| Microsoft PowerPoint | Microsoft PowerPoint 是微软推出的演示文稿程序。 |
| Microsoft SharePoint | Microsoft SharePoint是由微软开发的一个基于网站的协作系统,它使用工作流应用程序、“列表”数据库以及其他 Web 部件和... |
| Microsoft Word | Microsoft Word 是一款由 Microsoft 开发的文字处理器。 |
| Near 区块链 | 本 Notebook 的目的是提供一种测试 Langchain Near 区块链Document Loader 功能的方法。 |
| Modern Treasury | Modern Treasury 简化了复杂的支付操作。它是一个统一的平台,用于为资金流动的产品和流程提供支持。 |
| MongoDB | MongoDB 是一个 NoSQL 的、面向文档的数据库,它支持具有动态模式的类似 JSON 的文档。 |
| Needle Document Loader | Needle 可以轻松地以最小的精力创建您的 RAG 管道。 |
| 新闻 URL | 这部分内容涵 盖了如何从 URL 列表中加载 HTML 新闻文章,并将它们转换为我们下游可以使用的文档格式。 |
| Notion DB 2/2 | Notion 是一个协作平台,支持修改后的 Markdown,并集成了看板、任务、维基和数据库。它是用于笔记、知识和数据管理以及项目和任务... |
| Nuclia | Nuclia 可自动索引来自任何内部和外部来源的非结构化数据,提供优化的搜索结果和生成式答案。它可以处理视频和音频转录、图像内容提取以及文... |
| Obsidian | Obsidian 是一个强大且可扩展的知识库,它可以在本地纯文本文件文件夹之上运行。 |
| Open Document Format (ODT) | 开放文档格式 (ODF)(也称为 OpenDocument)是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,使用 ZIP ... |
| 开放城市数据 | Socrata 提供了一个城市开放数据的 API。 |
| Oracle Autonomous Database | Oracle autonomous database 是一个云数据库,它利用机器学习来自动执行数据库调优、安全、备份、更新以及传统上由 D... |
| Oracle AI Vector Search:文档处理 | Oracle AI Vector Search 专为人工智能 (AI) 工作负载而设计,它允许您根据语义而非关键字来查询数据。 |
| Org-mode | 一个 Org Mode 文档 是一个文 档编辑、格式化和组织模式,专为自由软件文本编辑器 Emacs 中的笔记、规划和创作而设计。 |
| Outline 文档加载器 | Outline 是一个开源协作知识库平台,专为团队信息共享而设计。 |
| Pandas DataFrame | 本 Notebook 将介绍如何从 pandas DataFrame 加载数据。 |
| parsers | |
| PDFMinerLoader | 本 Notebook 提供了使用 PDFMiner 文档加载器的快速入门概述。如需了解 ModuleNameLoader 所有功能的详细文... |
| PDFPlumber | 与 PyMuPDF 类似,输出的 Documents 包含关于 PDF 及其页面的详细元数据,并为每个页面返回一个文档。 |
| Pebblo 安全文档加载器 | Pebblo 使开发人员能够安全地加载数据,并将他们的 Gen AI 应用推广到生产环境,而无需担心组织的合规性和安全要求。该项目识别加载... |
| Polars DataFrame | 本笔记本介绍如何从 polars DataFrame 加载数据。 |
| Dell PowerScale 文档加载器 | Dell PowerScale 是一个企业级横向扩展存储系统,它托管行业领先的 OneFS 文件系统,可以部署在本地或云端。 |
| Psychic | 本 Notebook 涵盖了如何从 Psychic 加载文档。更多详情请参阅 此处。 |
| PubMed | PubMed® 由 The National Center for Biotechnology Information, National... |
| PullMdLoader | 使用 pull.md 服务将 URL 转换为 Markdown 的加载器。 |
| PyMuPDFLoader | 本 Notebook 提供 PyMuPDF 文档加载器 的快速入门概览。有关 ModuleNameLoader 所有功能和配置的详细文档,... |
| PyMuPDF4LLM | 本 Notebook 提供了 PyMuPDF4LLM 文档加载器 的快速入门概述。要获取 PyMuPDF4LLMLoader 所有功能和配... |
| PyPDFDirectoryLoader | 此加载器加载特定目录中的所有 PDF 文件。 |
| PyPDFium2Loader | 本笔记本提供了 PyPDF 文档加载器 的快速入门指南。有关所有 DocumentLoader 功能和配置的详细文档,请参阅 API 参考。 |
| PyPDFLoader | 本笔记提供了使用 PyPDF 文档加载器 的快速入门指南。如需了解所有 DocumentLoader 功能和配置的详细文档,请访问 API... |
| PySpark | 本笔记本介绍如何从 PySpark DataFrame 加载数据。 |
| Quip | Quip 是一款适用于移动和 Web 的协作生产力软件套件。它允许人们作为一个小组共同创建和编辑文档和电子表格,通常用于商业目的。 |
| ReadTheDocs 文档 | Read the Docs 是一个开源免费软件文档托管平台。它由 Sphinx 文档生成器生成文档。 |
| 递归 URL | RecursiveUrlLoader 允许你从根 URL 递归地抓取所有子链接,并将它们解析成 Documents。 |
| Reddit 是一个美国的社交新闻聚合、内容评级和讨论网站。 | |
| Roam | ROAM 是一款用于网络化思考的笔记工具,旨在创建个人知识库。 |
| Rockset | ⚠️ 弃用通知:Rockset 集成已禁用 |
| rspace | 本笔记本展示了如何使用 RSpace 文档加载器将 RSpace Electronic Lab Notebook 中的研究笔记和文档導入 ... |
| RSS Feeds | 这部分内容将介绍如何将一系列 RSS Feed URL 中的 HTML 新闻文章加载到文档格式中,以便后续使用。 |
| RST | A reStructured Text (RST) 文件是纯文本数据的文件格式,主要在 Python 编程语言社区中用于技术文档。 |
| scrapfly | ScrapFly 是一个网络爬虫 API,具有无头浏览器功能、代理和反机器人绕过能力。它允许将网页数据提取为易于访问的 LLM markd... |
| ScrapingAnt | ScrapingAnt 是一个网页抓取 API,具备无头浏览器功能、代理和反机器人绕过能力。它允许将网页数据提取为易于访问的 LLM ma... |
| SingleStore | SingleStoreLoader 允许您直接从 SingleStore 数据库表中加载文档。它是 langchain-singlesto... |
| Sitemap | SitemapLoader 扩展自 WebBaseLoader,它从给定的 URL 加载站点地图,然后抓取并加载站点地图中的所有页面,将每... |
| Slack | Slack 是一款即时通讯程序。 |
| Snowflake | 本笔记本将介绍如何从 Snowflake 加载文档。 |
| 源代码 | 本笔记本介绍如何使用一种特殊的语言解析方法加载源代码文件:代码中的每个顶级函数和类都将被加载到单独的文档中。任何已加载函数和类之外的剩余顶... |
| Spider | Spider 是最快且最具性价比的爬虫和抓取器,可返回 LLM 就绪的数据。 |
| Spreedly | Spreedly 是一项服务,可让您安全地存储信用卡,并使用它们针对任意数量的支付网关和第三方 API 进行交易。它通过同时提供卡令牌化/... |
| Stripe | Stripe 是一家爱尔兰裔美国金融服务与软件即服务 (SaaS) 公司。它为电子商务网站和移动应用程序提供支付处理软件和应用程序编程接口。 |
| 副标题 | The SubRip file format 在 Matroska 多媒体容器格式网站上被描述为“或许是最基本的所有字幕格式”。 SubR... |
| SurrealDB | SurrealDB 是一款面向现代应用程序(包括 Web、移动、无服务器、Jamstack、后端和传统应用程序)的端到端云原生数据库。借助... |
| Telegram | Telegram Messenger 是一款全球可访问的免费增值、跨平台、加密、云存储和集中式即时通讯服务。该应用程序还提供可选的端到端加... |
| 腾讯云对象存储 (COS) 目录 | 腾讯云对象存储 (COS) 是一项分布式存储服务, |
| 腾讯 COS 文件 | 腾讯云对象存储 (COS) 是一种分布式存储服务,让您可以通过 HTTP/HTTPS 协议随时随地存储任意量的数据。 |
| TensorFlow Datasets | TensorFlow Datasets 是一个数据集集合,可与 TensorFlow 或其他 Python ML 框架(如 Jax)直接使... |
| TiDB | TiDB Cloud 是一个全面的数据库即服务 (DBaaS) 解决方案,提供专用和无服务器选项。TiDB Serverless 现已将内... |
| 2Markdown | 2markdown 服务将网站内容转换为结构化的 markdown 文件。 |
| TOML | TOML 是一种用于配置文件(configuration files)的文件格式。它旨在易于阅读和编写,并被设计成能够无歧义地映射到字典中... |
| Trello | Trello 是一款基于网络的项目管理和协作工具,允许个人和团队组织和跟踪他们的任务和项目。它提供了一个称为“看板”(board)的视觉界... |
| TSV | 一个制表符分隔值(TSV)文件是一种简单的、基于文本的文件格式,用于存储表格数据。[3]记录由换行符分隔,记录中的值由制表符分隔。 |
| Twitter 是一个在线社交媒体和社交网络服务。 | |
| Unstructured | 本 Notebook 将介绍如何使用 Unstructured 文档加载器 来加载多种类型的文件。Unstructured 目前支持文本文... |
| UnstructuredMarkdownLoader | 本 Notebook 提供了 UnstructuredMarkdown 文档加载器 的快速入门指南。如需了解 ModuleNameLoad... |
| UnstructuredPDFLoader | Unstructured 支持一个通用接口,可用于处理非结构化或半结构化文件格式,例如 Markdown 或 PDF。LangChain ... |
| Upstage | 本指南将介绍如何开始使用 UpstageDocumentParseLoader。 |
| URL | 本示例介绍如何将 URLs 列表中的 HTML 文档加载到我们下游使用的 Document 格式中。 |
| VSDX | Visio 文件(扩展名为 .vsdx)与用于创建图表的软件 Microsoft Visio 相关联。它存储了图表的结构、布局和图形元素的... |
| 天气 | OpenWeatherMap 是一个开源天气服务提供商 |
| WebBaseLoader | 此内容涵盖了如何使用 WebBaseLoader 将 HTML 网页的全部文本加载到可供下游使用的文档格式中。有关加载网页的更多自定义逻辑... |
| WhatsApp 聊天记录 | WhatsApp(也称为 WhatsApp Messenger)是一款免费、跨平台、中心化的即时通讯 (IM) 和网络语音通话 (VoIP... |
| Wikipedia | Wikipedia 是一个多语言的免费在线百科全书,由称为维基百科人的志愿者社区通过开放协作编写和维护,并使用名为 MediaWiki 的... |
| UnstructuredXMLLoader | 本指南将快速介绍如何开始使用 UnstructuredXMLLoader 文档加载器。UnstructuredXMLLoader 用于加载... |
| Xorbits Pandas DataFrame | 本笔记本将介绍如何从 xorbits.pandas DataFrame 加载数据。 |
| YouTube 音频 | 在 YouTube 视频上构建聊天或问答应用程序是一个备受关注的主题。 |
| YouTube 转录 | YouTube 是由 Google 创建的在线视频分享和社交媒体平台。 |
| YoutubeLoaderDL | 利用 yt-dlp 库加载 Youtube 内容的 Loader。 |
| Yuque | Yuque 是一个面向团队协作的专业云端知识库,用于文档管理。 |
| ZeroxPDFLoader | ZeroxPDFLoader 是一个利用 Zerox 库的文档加载器。Zerox 将 PDF 文档转换为图像,使用支持视觉功能的语言模型进... |