百度向量数据库
百度向量数据库 是百度智能云研发和运营的,开服即托管的企业级分布式向量数据库服务。它在存储、检索和分析多维向量数据方面表现出色。VectorDB 的核心是百度自研的“Mochow”向量数据库内核,这保证了其高性能、高可用性、高安全性,同时还兼具出色的可扩展性和易用性。
该数据库服务支持多种索引类型和相似度计算方法,以满足各种用例的需求。VectorDB 的一个突出特点是能够管理高达 100 亿的海量向量规模,同时保持令人印象深刻的查询性能,支持每秒数百万次查询(QPS),查询延迟达到毫秒级。
您需要安装 langchain-community 才能使用此集成,命令为 pip install -qU langchain-community。
本 notebook 展示了如何使用与百度向量数据库相关的各种功能。
要运行它,您应该拥有一个 数据库实例。。
!pip3 install pymochow
from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings.fake import FakeEmbeddings
from langchain_community.vectorstores import BaiduVectorDB
from langchain_community.vectorstores.baiduvectordb import ConnectionParams
from langchain_text_splitters import CharacterTextSplitter
API Reference:TextLoader | FakeEmbeddings | BaiduVectorDB | ConnectionParams | CharacterTextSplitter
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
embeddings = FakeEmbeddings(size=128)
conn_params = ConnectionParams(
endpoint="http://192.168.xx.xx:xxxx", account="root", api_key="****"
)
vector_db = BaiduVectorDB.from_documents(
docs, embeddings, connection_params=conn_params, drop_old=True
)
query = "What did the president say about Ketanji Brown Jackson"
docs = vector_db.similarity_search(query)
docs[0].page_content
vector_db = BaiduVectorDB(embeddings, conn_params)
vector_db.add_texts(["Ankush went to Princeton"])
query = "Where did Ankush go to college?"
docs = vector_db.max_marginal_relevance_search(query)
docs[0].page_content
Related
- Vector store conceptual guide
- Vector store how-to guides