将 LLM 用作评审

技术雷达

更新于 : Nov 05, 2025

Nov 2025

评估

使用 LLM 作为评审——评估另一个系统（通常是基于 LLM 的生成器）的输出——因其在生成式 AI 中提供可扩展、自动化评估的潜力而备受关注。然而，为了反映新近发现的复杂性和风险，我们将此讨论从“试验”阶段移至“评估”阶段。尽管该技术提供速度和规模，但它常常无法作为人类判断的可靠代理。评估容易受到位置偏差、冗长偏差和低稳健性影响。更严重的问题是规模污染：当LLM作为评判者用于奖励建模的训练流程时，它会引入自我增强偏差（即模型族倾向于自身的输出）和偏好泄漏，从而模糊训练和测试之间的界限。这些缺陷导致过拟合结果，使性能指标虚高但缺乏现实有效性。已有研究对这一模式进行了更严格的调查。为应对这些缺陷，我们正在探索改进技术，例如使用 LLM 作为陪审团（通过多个模型达成共识）或在评估过程中使用链式思维推理。尽管这些方法旨在提高可靠性，但也增加了成本和复杂性。我们建议团队谨慎对待此技术——在将 LLM 评审用于关键工作流前，确保有人类验证、透明性和伦理监管。该方法仍然有效，但不如之前认为的那样成熟。

Oct 2024

试验

许多我们构建的系统具有两个关键特征：一是能够根据大量数据集中的问题提供答案，二是几乎不可能追踪到该答案的得出过程。尽管这些系统具有不透明性，我们仍然希望评估并提高其响应质量。通过 大语言模型(LLM)作为评判者 的模式，我们可以使用一个 LLM 来评估另一个系统的响应，这个系统可能本身也是基于 LLM 的。我们看到这种模式用于评估产品目录中搜索结果的相关性，以及判断基于 LLM 的聊天机器人是否在合理地引导用户。当然，评估系统必须经过仔细设置和校准。这种方法能够显著提高效率，从而降低成本。这是一个正在进行的研究领域，其现状可以在这篇文章中找到总结。

发布于 : Oct 23, 2024

下载

English | Español | Português | | 中文

订阅科技雷达新闻简报

订购

解决方案

行业

数字出版物和工具

所有洞见

下载

订阅科技雷达新闻简报

查看存档并阅读往期内容