构建语义搜索引擎
本教程将帮助你熟悉 LangChain 的 文档加载器、嵌入 和 向量存储 抽象。这些抽象旨在支持从(向量)数据库和其他数据源检索数据,并将其集成到 LLM 工作流中。它们对于那些在模型推理过程中需要获取数据进行推理的应用非常重要,例如检索增强生成(Retrieval-Augmented Generation)或 RAG(请参阅我们在此处的 RAG 教程)。
在这里,我们将围绕一个 PDF 文档构建一个搜索引擎。这将使我们能够检索 PDF 中与输入查询相似的段落。
概念
本指南侧重于文本数据的检索。我们将涵盖以下概念:
- 文档和文档加载器;
- 文本分割器;
- 嵌入;
- 向量存储和检索器。