在本地运行模型
用例
llama.cpp、Ollama、GPT4All、llamafile 等项目的流行,突显了在本地(您自己的设备上)运行 LLM 的需求。
这至少有两个重要好处:
隐私:您的数据不会发送给第三方,也不会受到商业服务的服务条款的约束。成本:没有推理费用,这一点对于 token 密集型应用(例如 长期模拟、摘要)非常重要。
概述
在本地运行 LLM 需要满足一些条件:
开源 LLM:一 个可以自由修改和共享的开源 LLM。推理:能够以可接受的延迟在您的设备上运行此 LLM。
开源 LLM
用户现在可以访问数量迅速增长的 开源 LLM。
这些 LLM 可以从至少两个维度进行评估(见下图):
基础模型:基础模型是什么?它是如何训练的?微调方法:基础模型是否进行了微调?如果是,使用了什么 指令集?

可以使用几个排行榜来评估这些模型的相对性能,包括:
推理
已经出现了一些框架来支持在各种设备上对开源 LLM 进行推理: