Enable javascript in your browser for better experience. Need to know to enable it? Go here.

将 LLM 用作评审

更新于 : Nov 05, 2025
Nov 2025
评估 ?

使用 LLM 作为评审——评估另一个系统(通常是基于 LLM 的生成器)的输出——因其在生成式 AI 中提供可扩展、自动化评估的潜力而备受关注。然而,为了反映新近发现的复杂性和风险,我们将此讨论从“试验”阶段移至“评估”阶段。 尽管该技术提供速度和规模,但它常常无法作为人类判断的可靠代理。评估容易受到位置偏差、冗长偏差和低稳健性影响。更严重的问题是 规模污染:当LLM作为评判者用于奖励建模的训练流程时,它会引入自我增强偏差(即模型族倾向于自身的输出)和偏好泄漏,从而模糊训练和测试之间的界限。这些缺陷导致过拟合结果,使性能指标虚高但缺乏现实有效性。已有 研究 对这一模式进行了更严格的调查。为应对这些缺陷,我们正在探索改进技术,例如使用 LLM 作为陪审团(通过多个模型达成共识)或在评估过程中使用链式思维推理。尽管这些方法旨在提高可靠性,但也增加了成本和复杂性。我们建议团队谨慎对待此技术——在将 LLM 评审用于关键工作流前,确保有人类验证、透明性和伦理监管。该方法仍然有效,但不如之前认为的那样成熟。

Oct 2024
试验 ?

许多我们构建的系统具有两个关键特征:一是能够根据大量数据集中的问题提供答案, 二是几乎不可能追踪到该答案的得出过程。尽管这些系统具有不透明性,我们仍然希望评估并提高其响应质量。通过 大语言模型(LLM)作为评判者 的模式,我们可以使用一个 LLM 来评估另一个系统的响应,这个系统可能本身也是基于 LLM 的。我们看到这种模式用于评估产品目录中搜索结果的相关性,以及判断基于 LLM 的聊天机器人是否在合理地引导用户。当然,评估系统必须经过仔细设置和校准。这种方法能够显著提高效率,从而降低成本。这是一个正在进行的研究领域,其现状可以在这篇文章 中找到总结。

发布于 : Oct 23, 2024

下载

 

 

 

English | Español | Português | | 中文

订阅科技雷达新闻简报

 

 

订购

 

查看存档并阅读往期内容