Skip to main content
Open on GitHub

评估

评估是评估 LLM 驱动的应用程序的性能和有效性的过程。 它涉及根据一组预定义的标准或基准来测试模型的响应,以确保其达到期望的质量标准并实现预期的目的。 这个过程对于构建可靠的应用程序至关重要。

LangSmith 在这个过程中有几种方式可以提供帮助:

  • 通过其跟踪和注释功能,可以更轻松地创建和策划数据集
  • 提供一个评估框架,帮助您定义指标并针对您的数据集运行应用程序
  • 允许您随着时间的推移跟踪结果,并将评估程序自动安排在计划中或作为 CI/Code 的一部分运行

要了解更多信息,请查看此 LangSmith 指南