CrateDB
CrateDB 是一款分布式可扩展 SQL 数据库,能够近乎实时地存储和分析海量数据,即使是复杂的查询也不在话下。它兼容 PostgreSQL,基于 Lucene,并继承自 Elasticsearch。
安装与设置
设置 CrateDB
有两种快捷方式可以开始使用 CrateDB。或者,选择其他 [CrateDB 安装选项]。
在本地机器上启动 CrateDB
示例:使用 Docker 或 Podman 运行一个单节点 CrateDB 实例,禁用安全设置。不推荐用于生产环境。
docker run --name=cratedb --rm \
--publish=4200:4200 --publish=5432:5432 --env=CRATE_HEAP_SIZE=2g \
crate:latest -Cdiscovery.type=single-node
在 CrateDB Cloud 上部署集群
CrateDB Cloud 是一项托管的 CrateDB 服务。请注册以获取免费试用。
安装客户端
安装最新版本的 langchain-cratedb 包以及本教程所需的其他几个包。
pip install --upgrade langchain-cratedb langchain-openai unstructured
文档
有关 CrateDB wrapper 的更详细演练,请参阅[将 LangChain 与 CrateDB 结合使用]。另请参阅[CrateDB 的所有功能],了解 CrateDB 提供的其他功能。
功能
LangChain 的 CrateDB 适配器提供了将 CrateDB 用作向量存储、文档加载器和聊天消息存储的 API。
Vector Store
在 FLOAT_VECTOR 和 KNN_MATCH 周围使用 CrateDB 的向量存储功能,用于相似性搜索和其他目的。另请参阅[CrateDBVectorStore 教程]。
请确保您已配置有效的 OpenAI API 密钥。
export OPENAI_API_KEY=sk-XJZ...
from langchain_community.document_loaders import UnstructuredURLLoader
from langchain_cratedb import CrateDBVectorStore
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
loader = UnstructuredURLLoader(urls=["https://github.com/langchain-ai/langchain/raw/refs/tags/langchain-core==0.3.28/docs/docs/how_to/state_of_the_union.txt"])
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
# 连接到本地主机上的自托管 CrateDB 实例。
CONNECTION_STRING = "crate://?schema=testdrive"
store = CrateDBVectorStore.from_documents(
documents=docs,
embedding=embeddings,
collection_name="state_of_the_union",
connection=CONNECTION_STRING,
)
query = "What did the president say about Ketanji Brown Jackson"
docs_with_score = store.similarity_search_with_score(query)
Document Loader
使用基于 SQLAlchemy 的文档加载器 CrateDBLoader,从 CrateDB 数据库表中加载文档。另请参阅[CrateDBLoader 教程]。
要在您的应用程序中使用文档加载器:
import sqlalchemy as sa
from langchain_community.utilities import SQLDatabase
from langchain_cratedb import CrateDBLoader
# 连接到本地主机上的自托管 CrateDB 实例。
CONNECTION_STRING = "crate://?schema=testdrive"
db = SQLDatabase(engine=sa.create_engine(CONNECTION_STRING))
loader = CrateDBLoader(
'SELECT * FROM sys.summits LIMIT 42',
db=db,
)
documents = loader.load()
Chat Message History
使用 CrateDB 作为聊天消息的存储。 另请参阅[CrateDBChatMessageHistory 教程]。
要在您的应用程序中使用聊天消息历史记录:
from langchain_cratedb import CrateDBChatMessageHistory
# 连接到本地主机上的自托管 CrateDB 实例。
CONNECTION_STRING = "crate://?schema=testdrive"
message_history = CrateDBChatMessageHistory(
session_id="test-session",
connection=CONNECTION_STRING,
)
message_history.add_user_message("hi!")
Full Cache
标准的完全缓存可以避免在输入提示与已遇到的提示完全相同时调用 LLM。 另请参阅[CrateDBCache 示例]。
要在您的应用程序中使用完全缓存:
import sqlalchemy as sa
from langchain.globals import set_llm_cache
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_cratedb import CrateDBCache
# 配置缓存。
engine = sa.create_engine("crate://crate@localhost:4200/?schema=testdrive")
set_llm_cache(CrateDBCache(engine))
# 调用 LLM 对话。
llm = ChatOpenAI(
model_name="chatgpt-4o-latest",
temperature=0.7,
)
print()
print("Asking with full cache:")
answer = llm.invoke("What is the answer to everything?")
print(answer.content)
Semantic Cache
语义缓存允许用户根据用户输入与先前缓存的输入之间的语义相似性来检索缓存的提示。它还可以在不需要时避免调用 LLM。 另请参阅[CrateDBSemanticCache 示例]。
要在您的应用程序中使用语义缓存:
import sqlalchemy as sa
from langchain.globals import set_llm_cache
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_cratedb import CrateDBSemanticCache
# 配置 embeddings。
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
# 配置缓存。
engine = sa.create_engine("crate://crate@localhost:4200/?schema=testdrive")
set_llm_cache(
CrateDBSemanticCache(
embedding=embeddings,
connection=engine,
search_threshold=1.0,
)
)
# 调用 LLM 对话。
llm = ChatOpenAI(model_name="chatgpt-4o-latest")
print()
print("Asking with semantic cache:")
answer = llm.invoke("What is the answer to everything?")
print(answer.content)