LlamaEdge

LlamaEdge 是在本地或边缘运行定制化和微调的大语言模型最简单、最快的方式。

轻量级推理应用。LlamaEdge 以 MB 为单位而不是 GB。

原生和 GPU 加速的性能

支持多种 GPU 和硬件加速器

支持多种优化推理库

海量 AI / LLM 模型选择

安装和配置

from langchain_community.chat_models.llama_edge import LlamaEdgeChatService