Retrievers

检索器 (retriever)是一个接口，它接受一个非结构化的查询并返回文档。它比向量存储（vector store）更通用。检索器不需要能够存储文档，只需要能够返回（或检索）它们。检索器可以由向量存储创建，但也足够广泛，可以支持维基百科搜索和 Amazon Kendra。

检索器接受字符串查询作为输入，并返回一个 Document 列表作为输出。

关于如何使用检索器的具体信息，请参见相关的操作指南。

请注意，所有向量存储都可以被转换为检索器。有关可用的向量存储，请参阅向量存储的集成文档。此页面列出了通过继承 BaseRetriever 实现的自定义检索器。

自带文档 (Bring-your-own documents)

下面的检索器允许您索引和搜索自定义文档语料库。

Retriever	Self-host	Cloud offering	Package
AmazonKnowledgeBasesRetriever	❌	✅	langchain_aws
AzureAISearchRetriever	❌	✅	langchain_community
ElasticsearchRetriever	✅	✅	langchain_elasticsearch
VertexAISearchRetriever	❌	✅	langchain_google_community

外部索引 (External index)

下面的检索器将在外部索引上进行搜索（例如，从互联网数据或类似来源构建的）。

Retriever	Source	Package
ArxivRetriever	Scholarly articles on arxiv.org	langchain_community
TavilySearchAPIRetriever	Internet search	langchain_community
WikipediaRetriever	Wikipedia articles	langchain_community

所有检索器 (All retrievers)

注意： 下表中的描述为了便于阅读已进行截断处理。

Name	Description
Activeloop Deep Memory	Activeloop Deep Memory 是一套工具，可让您针对特定用例优化向量存储，并在 LLM 应用中实现更高的准确性。
Amazon Kendra	Amazon Kendra 是由 Amazon Web Services (AWS) 提供的一项智能搜索服务。它利用先进的自然语言处理 (...
Arcee	Arcee 致力于开发 SLM——小巧、专业化、安全且可扩展的语言模型。
Arxiv	arXiv 是一个开放获取的档案库，收录了物理学、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程与系统科学以及经济学领域的 2...
AskNews	AskNews 使用单一的自然语言查询，为任何 LLM 的注入最新的全球新闻（或历史新闻）。具体来说，AskNews 通过翻译、摘要、实体...
Azure AI Search	Azure AI Search（以前称为 Azure Cognitive Search）是一项微软云搜索服务，为开发人员提供了大规模信息检...
Bedrock (Knowledge Bases)	本指南将帮助您开始使用 AWS 知识库检索器。
BM25	BM25 (维基百科) 也称为 Okapi BM25，是一种在信息检索系统中使用的排序函数，用于估算文档与给定搜索查询的相关性。
Box	这将帮助你开始使用 Box 检索器。关于 BoxRetriever 功能和配置的详细文档，请访问 API 参考。
BREEBS (开放知识)	BREEBS 是一个开放的协作知识平台。
Chaindesk	Chaindesk 平台将来自任何地方的数据（数据源：文本、PDF、Word、PowerPoint、Excel、Notion、Airtab...
ChatGPT 插件	OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插件使 ChatGPT 能够与开发者定义的 API 进行交互，从而增强 C...
Cognee	这将帮助您开始使用 Cognee 检索器。有关所有 CogneeRetriever 功能和配置的详细文档，请参阅 API 参考。
Cohere 重排器	Cohere 是一家加拿大初创公司，提供自然语言处理模型，帮助企业改善人机交互。
Cohere RAG	Cohere 是一家加拿大初创公司，提供自然语言处理模型，帮助企业改善人机交互。
Contextual AI Reranker	Contextual AI 的指令遵循 Reranker 是世界上第一个旨在根据时效性、来源和元数据等特定标准遵循自定义指令来优先排序文档...
Dappier	Dappier 将任何 LLM 或您的 Agentic AI 连接到来自可信来源的实时、已获授权的专有数据，使您的 AI 在任何领域都成为...
DocArray	DocArray 是一个多功能、开源的工具，用于管理您的多模态数据。它允许您以任何您想要的方式塑造数据，并提供使用各种文档索引后端的灵活性...
Dria	Dria 是一个面向开发者的公共 RAG 模型中心，开发者可以在此贡献和利用共享的嵌入湖。本 notebook 演示了如何使用 Dria ...
ElasticSearch BM25	Elasticsearch 是一个分布式的、RESTful 的搜索和分析引擎。它提供了一个分布式、多租户的全文本搜索引擎，带有一个 HTT...
Elasticsearch	Elasticsearch 是一个分布式、RESTful 的搜索和分析引擎。它提供了一个分布式的、支持多租户的全文搜索引擎，具有 HTTP...
Embedchain	Embedchain 是一个用于创建数据管道的 RAG 框架。它负责加载、索引、检索和同步所有数据。
FlashRank reranker	FlashRank 是一个超轻量级且超快速的 Python 库，可为您的现有搜索和检索管道添加重排功能。它基于最先进的交叉编码器，在此感谢...
Fleet AI 上下文	Fleet AI Context 是一个高质量的嵌入式数据集，包含了 1200 个最受欢迎且具有宽松许可证的 Python 库及其文档。
Galaxia	Galaxia 是 GraphRAG 解决方案，可自动执行文档处理、知识库（Graph Language Model）创建和检索：
Google云端硬盘	本笔记本介绍如何从 Google Drive 中检索文档。
Google Vertex AI Search	Google Vertex AI 搜索（以前称为 Generative AI App Builder 上的 Enterprise Sear...
Graph RAG	使用文档元数据在任何向量存储上进行图遍历。
GreenNode	GreenNode是一家全球人工智能解决方案提供商，也是 NVIDIA 首选合作伙伴，为美国、MENA 和 APAC 地区的各行业企业提供...
IBM watsonx.ai	WatsonxRerank 是 IBM watsonx.ai 基础模型的封装器。
JaguarDB 向量数据库	JaguarDB 向量数据库
Kay.ai	Kai Data API 专为 RAG 而构建 🕵️ 我们正在策展全球最大的数据集作为高质量的嵌入，以便您的 AI 代理可以即时检索上下...
基于 Kinetica 向量库的检索器	Kinetica 是一个数据库，集成了向量相似性搜索支持。
kNN	在统计学中，k-近邻算法 (k-NN) 是一种非参数监督学习方法，最初由 Evelyn Fix 和 Joseph Hodges 于 195...
LinkupSearchRetriever	Linkup 提供了一个 API，用于将 LLM 连接到 Web 和 Linkup 高级合作伙伴源。
LLMLingua 文档压缩器	LLMLingua 使用一个小型、训练有素的语言模型（例如 GPT2-small、LLaMA-7B）来识别和移除提示中非必需的 token...
LOTR (Merger Retriever)	Lord of the Retrievers (LOTR)，也称为 MergerRetriever，它接受一个检索器列表作为输入，并将它们...
Metal	Metal 是一个托管的 ML 嵌入服务。
NanoPQ (乘积量化)	乘积量化算法 (k-NN) 是一种量化算法，有助于压缩数据库向量，从而在涉及大型数据集时实现语义搜索。简而言之，嵌入被分成 M 个子空间，...
Nebius	NebiusRetriever 可通过 Nebius AI Studio 的 embedding 实现高效的相似性搜索。它利用高质量的 e...
needle	Needle Retriever
Nimble	NimbleSearchRetriever 使开发者能够构建 RAG 应用和 AI Agent，以搜索、访问和检索来自网络任何地方的在线信...
大纲	Outline 是一个开源的协作知识库平台，专为团队信息共享而设计。
Permit	Permit 是一个访问控制平台，通过 RBAC、ABAC 和 ReBAC 等各种模型提供细粒度的实时权限管理。它使组织能够跨应用程序强制...
Pinecone 混合搜索	Pinecone 是一个功能广泛的向量数据库。
Pinecone Rerank	此 Notebook 展示了如何使用 PineconeRerank 进行两阶段向量检索重排，具体是通过 Pinecone 托管的重排 AP...
PubMed	PubMed® 是由 The National Center for Biotechnology Information, Nationa...
Qdrant 稀疏向量	Qdrant 是一个开源的高性能向量搜索引擎/数据库。
RAGatouille	RAGatouille 让使用 ColBERT 变得无比简单！
RePhraseQuery	RePhraseQuery 是一个简单的检索器，它在用户输入和检索器传递的查询之间应用一个 LLM。
Rememberizer	Rememberizer 是一个知识增强服务，由 SkyDeck AI Inc. 为 AI 应用程序创建。
SEC 文件	SEC filing 是提交给美国证券交易委员会（SEC）的财务报表或其他正式文件。上市公司、某些内部人士以及券商需要定期进行 SEC f...
自我查询检索器
SVM	支持向量机 (SVMs) 是一组用于分类、回归和异常值检测的监督学习方法。
TavilySearchAPI	Tavily 的搜索 API 是一个专为 AI 代理（LLM）构建的搜索引擎，能够快速提供实时、准确和事实性的结果。
TF-IDF	TF-IDF 的意思是词频（term frequency）乘以逆文档频率（inverse document-frequency）。
NeuralDB	NeuralDB 是 ThirdAI 开发的一款对 CPU 友好且可微调的检索引擎。
ValyuContext	Valyu 允许 AI 应用程序和代理搜索互联网和专有数据源，以获取相关的 LLM 就绪信息。
Vectorize	本 Notebook 展示了 LangChain Vectorize Retriever 的用法。
Vespa	Vespa 是一个功能齐全的搜索引擎和向量数据库。它支持向量搜索 (ANN)、词汇搜索以及结构化数据搜索，所有操作都可以在同一个查询中完成。
Wikipedia	Wikipedia 是一个多语言的免费在线百科全书，由一群称为维基百科人的志愿者通过开放协作编写和维护，并使用一个名为 MediaWiki...
You.com	you.com API 是一套工具，旨在使用最新、最准确、最相关但 LLM 训练数据集可能未包含的信息，为 LLM 的输出提供依据。
Zep Cloud	Zep Cloud 的检索器示例
Zep 开源	Zep 的检索器示例 Zep
Zilliz 云管道	Zilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的向量集合，对您的数据进行嵌入、摄取、搜索和删除的链式处理。
Zotero	这将帮助你开始使用 Zotero retriever。有关 ZoteroRetriever 所有功能和配置的详细文档，请访问 Github...

自带文档 (Bring-your-own documents)​

外部索引 (External index)​

所有检索器 (All retrievers)​

自带文档 (Bring-your-own documents)

外部索引 (External index)

所有检索器 (All retrievers)