Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Last updated : Nov 05, 2025
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar. Understand more
Nov 2025
Assess ?

使用 LLM 作为评审——评估另一个系统(通常是基于 LLM 的生成器)的输出——因其在生成式 AI 中提供可扩展、自动化评估的潜力而备受关注。然而,为了反映新近发现的复杂性和风险,我们将此讨论从“试验”阶段移至“评估”阶段。 尽管该技术提供速度和规模,但它常常无法作为人类判断的可靠代理。评估容易受到位置偏差、冗长偏差和低稳健性影响。更严重的问题是 规模污染:当LLM作为评判者用于奖励建模的训练流程时,它会引入自我增强偏差(即模型族倾向于自身的输出)和偏好泄漏,从而模糊训练和测试之间的界限。这些缺陷导致过拟合结果,使性能指标虚高但缺乏现实有效性。已有 研究 对这一模式进行了更严格的调查。为应对这些缺陷,我们正在探索改进技术,例如使用 LLM 作为陪审团(通过多个模型达成共识)或在评估过程中使用链式思维推理。尽管这些方法旨在提高可靠性,但也增加了成本和复杂性。我们建议团队谨慎对待此技术——在将 LLM 评审用于关键工作流前,确保有人类验证、透明性和伦理监管。该方法仍然有效,但不如之前认为的那样成熟。

Oct 2024
Trial ?

许多我们构建的系统具有两个关键特征:一是能够根据大量数据集中的问题提供答案, 二是几乎不可能追踪到该答案的得出过程。尽管这些系统具有不透明性,我们仍然希望评估并提高其响应质量。通过 大语言模型(LLM)作为评判者 的模式,我们可以使用一个 LLM 来评估另一个系统的响应,这个系统可能本身也是基于 LLM 的。我们看到这种模式用于评估产品目录中搜索结果的相关性,以及判断基于 LLM 的聊天机器人是否在合理地引导用户。当然,评估系统必须经过仔细设置和校准。这种方法能够显著提高效率,从而降低成本。这是一个正在进行的研究领域,其现状可以在这篇文章 中找到总结。

Published : Oct 23, 2024

Download the PDF

 

 

 

English | Português 

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Download the PDF

 

 

 

English | Português 

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Visit our archive to read previous volumes