Skip to main content
Open on GitHub

Retrievers

检索器 (retriever)是一个接口,它接受一个非结构化的查询并返回文档。 它比向量存储(vector store)更通用。 检索器不需要能够存储文档,只需要能够返回(或检索)它们。 检索器可以由向量存储创建,但也足够广泛,可以支持 维基百科搜索Amazon Kendra

检索器接受字符串查询作为输入,并返回一个 Document 列表作为输出。

关于如何使用检索器的具体信息,请参见相关的操作指南

请注意,所有 向量存储 都可以被 转换为检索器。 有关可用的向量存储,请参阅向量存储的集成文档。 此页面列出了通过继承 BaseRetriever 实现的自定义检索器。

自带文档 (Bring-your-own documents)

下面的检索器允许您索引和搜索自定义文档语料库。

RetrieverSelf-hostCloud offeringPackage
AmazonKnowledgeBasesRetrieverlangchain_aws
AzureAISearchRetrieverlangchain_community
ElasticsearchRetrieverlangchain_elasticsearch
VertexAISearchRetrieverlangchain_google_community

外部索引 (External index)

下面的检索器将在外部索引上进行搜索(例如,从互联网数据或类似来源构建的)。

RetrieverSourcePackage
ArxivRetrieverScholarly articles on arxiv.orglangchain_community
TavilySearchAPIRetrieverInternet searchlangchain_community
WikipediaRetrieverWikipedia articleslangchain_community

所有检索器 (All retrievers)

注意: 下表中的描述为了便于阅读已进行截断处理。

NameDescription
Activeloop Deep MemoryActiveloop Deep Memory 是一套工具,可让您针对特定用例优化向量存储,并在 LLM 应用中实现更高的准确性。
Amazon KendraAmazon Kendra 是由 Amazon Web Services (AWS) 提供的一项智能搜索服务。它利用先进的自然语言处理 (...
ArceeArcee 致力于开发 SLM——小巧、专业化、安全且可扩展的语言模型。
ArxivarXiv 是一个开放获取的档案库,收录了物理学、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程与系统科学以及经济学领域的 2...
AskNewsAskNews 使用单一的自然语言查询,为任何 LLM 的注入最新的全球新闻(或历史新闻)。具体来说,AskNews 通过翻译、摘要、实体...
Azure AI SearchAzure AI Search(以前称为 Azure Cognitive Search)是一项微软云搜索服务,为开发人员提供了大规模信息检...
Bedrock (Knowledge Bases)本指南将帮助您开始使用 AWS 知识库 检索器。
BM25BM25 (维基百科) 也称为 Okapi BM25,是一种在信息检索系统中使用的排序函数,用于估算文档与给定搜索查询的相关性。
Box这将帮助你开始使用 Box 检索器。关于 BoxRetriever 功能和配置的详细文档,请访问 API 参考。
BREEBS (开放知识)BREEBS 是一个开放的协作知识平台。
ChaindeskChaindesk 平台将来自任何地方的数据(数据源:文本、PDF、Word、PowerPoint、Excel、Notion、Airtab...
ChatGPT 插件OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插件使 ChatGPT 能够与开发者定义的 API 进行交互,从而增强 C...
Cognee这将帮助您开始使用 Cognee 检索器。有关所有 CogneeRetriever 功能和配置的详细文档,请参阅 API 参考。
Cohere 重排器Cohere 是一家加拿大初创公司,提供自然语言处理模型,帮助企业改善人机交互。
Cohere RAGCohere 是一家加拿大初创公司,提供自然语言处理模型,帮助企业改善人机交互。
Contextual AI RerankerContextual AI 的指令遵循 Reranker 是世界上第一个旨在根据时效性、来源和元数据等特定标准遵循自定义指令来优先排序文档...
DappierDappier 将任何 LLM 或您的 Agentic AI 连接到来自可信来源的实时、已获授权的专有数据,使您的 AI 在任何领域都成为...
DocArrayDocArray 是一个多功能、开源的工具,用于管理您的多模态数据。它允许您以任何您想要的方式塑造数据,并提供使用各种文档索引后端的灵活性...
DriaDria 是一个面向开发者的公共 RAG 模型中心,开发者可以在此贡献和利用共享的嵌入湖。本 notebook 演示了如何使用 Dria ...
ElasticSearch BM25Elasticsearch 是一个分布式的、RESTful 的搜索和分析引擎。它提供了一个分布式、多租户的全文本搜索引擎,带有一个 HTT...
ElasticsearchElasticsearch 是一个分布式、RESTful 的搜索和分析引擎。它提供了一个分布式的、支持多租户的全文搜索引擎,具有 HTTP...
EmbedchainEmbedchain 是一个用于创建数据管道的 RAG 框架。它负责加载、索引、检索和同步所有数据。
FlashRank rerankerFlashRank 是一个超轻量级且超快速的 Python 库,可为您的现有搜索和检索管道添加重排功能。它基于最先进的交叉编码器,在此感谢...
Fleet AI 上下文Fleet AI Context 是一个高质量的嵌入式数据集,包含了 1200 个最受欢迎且具有宽松许可证的 Python 库及其文档。
GalaxiaGalaxia 是 GraphRAG 解决方案,可自动执行文档处理、知识库(Graph Language Model)创建和检索:
Google云端硬盘本笔记本介绍如何从 Google Drive 中检索文档。
Google Vertex AI SearchGoogle Vertex AI 搜索(以前称为 Generative AI App Builder 上的 Enterprise Sear...
Graph RAG使用文档元数据在任何向量存储上进行图遍历。
GreenNodeGreenNode是一家全球人工智能解决方案提供商,也是 NVIDIA 首选合作伙伴,为美国、MENA 和 APAC 地区的各行业企业提供...
IBM watsonx.aiWatsonxRerank 是 IBM watsonx.ai 基础模型的封装器。
JaguarDB 向量数据库JaguarDB 向量数据库
Kay.aiKai Data API 专为 RAG 而构建 🕵️ 我们正在策展全球最大的数据集作为高质量的嵌入,以便您的 AI 代理可以即时检索上下...
基于 Kinetica 向量库的检索器Kinetica 是一个数据库,集成了向量相似性搜索支持。
kNN在统计学中,k-近邻算法 (k-NN) 是一种非参数监督学习方法,最初由 Evelyn Fix 和 Joseph Hodges 于 195...
LinkupSearchRetrieverLinkup 提供了一个 API,用于将 LLM 连接到 Web 和 Linkup 高级合作伙伴源。
LLMLingua 文档压缩器LLMLingua 使用一个小型、训练有素的语言模型(例如 GPT2-small、LLaMA-7B)来识别和移除提示中非必需的 token...
LOTR (Merger Retriever)Lord of the Retrievers (LOTR),也称为 MergerRetriever,它接受一个检索器列表作为输入,并将它们...
MetalMetal 是一个托管的 ML 嵌入服务。
NanoPQ (乘积量化)乘积量化算法 (k-NN) 是一种量化算法,有助于压缩数据库向量,从而在涉及大型数据集时实现语义搜索。简而言之,嵌入被分成 M 个子空间,...
NebiusNebiusRetriever 可通过 Nebius AI Studio 的 embedding 实现高效的相似性搜索。它利用高质量的 e...
needleNeedle Retriever
NimbleNimbleSearchRetriever 使开发者能够构建 RAG 应用和 AI Agent,以搜索、访问和检索来自网络任何地方的在线信...
大纲Outline 是一个开源的协作知识库平台,专为团队信息共享而设计。
PermitPermit 是一个访问控制平台,通过 RBAC、ABAC 和 ReBAC 等各种模型提供细粒度的实时权限管理。它使组织能够跨应用程序强制...
Pinecone 混合搜索Pinecone 是一个功能广泛的向量数据库。
Pinecone Rerank此 Notebook 展示了如何使用 PineconeRerank 进行两阶段向量检索重排,具体是通过 Pinecone 托管的重排 AP...
PubMedPubMed® 是由 The National Center for Biotechnology Information, Nationa...
Qdrant 稀疏向量Qdrant 是一个开源的高性能向量搜索引擎/数据库。
RAGatouilleRAGatouille 让使用 ColBERT 变得无比简单!
RePhraseQueryRePhraseQuery 是一个简单的检索器,它在用户输入和检索器传递的查询之间应用一个 LLM。
RememberizerRememberizer 是一个知识增强服务,由 SkyDeck AI Inc. 为 AI 应用程序创建。
SEC 文件SEC filing 是提交给美国证券交易委员会(SEC)的财务报表或其他正式文件。上市公司、某些内部人士以及券商需要定期进行 SEC f...
自我查询检索器
SVM支持向量机 (SVMs) 是一组用于分类、回归和异常值检测的监督学习方法。
TavilySearchAPITavily 的搜索 API 是一个专为 AI 代理(LLM)构建的搜索引擎,能够快速提供实时、准确和事实性的结果。
TF-IDFTF-IDF 的意思是词频(term frequency)乘以逆文档频率(inverse document-frequency)。
**NeuralDB**NeuralDB 是 ThirdAI 开发的一款对 CPU 友好且可微调的检索引擎。
ValyuContextValyu 允许 AI 应用程序和代理搜索互联网和专有数据源,以获取相关的 LLM 就绪信息。
Vectorize本 Notebook 展示了 LangChain Vectorize Retriever 的用法。
VespaVespa 是一个功能齐全的搜索引擎和向量数据库。它支持向量搜索 (ANN)、词汇搜索以及结构化数据搜索,所有操作都可以在同一个查询中完成。
WikipediaWikipedia 是一个多语言的免费在线百科全书,由一群称为维基百科人的志愿者通过开放协作编写和维护,并使用一个名为 MediaWiki...
You.comyou.com API 是一套工具,旨在使用最新、最准确、最相关但 LLM 训练数据集可能未包含的信息,为 LLM 的输出提供依据。
Zep CloudZep Cloud 的检索器示例
Zep 开源Zep 的检索器示例 Zep
Zilliz 云管道Zilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的向量集合,对您的数据进行嵌入、摄取、搜索和删除的链式处理。
Zotero这将帮助你开始使用 Zotero retriever。有关 ZoteroRetriever 所有功能和配置的详细文档,请访问 Github...