Skip to main content

评估

评估是评估 LLM 驱动的应用程序的性能和有效性的过程。它涉及根据一组预定义的标准或基准来测试模型的响应，以确保其达到期望的质量标准并实现预期的目的。这个过程对于构建可靠的应用程序至关重要。

LangSmith 在这个过程中有几种方式可以提供帮助：

通过其跟踪和注释功能，可以更轻松地创建和策划数据集
提供一个评估框架，帮助您定义指标并针对您的数据集运行应用程序
允许您随着时间的推移跟踪结果，并将评估程序自动安排在计划中或作为 CI/Code 的一部分运行

要了解更多信息，请查看此 LangSmith 指南。