Technology Radar
Published : Apr 02, 2025
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar.
Understand more
Apr 2025
Assess
自上次雷达发布以来, 推理模型(Reasoning Models) 的突破和普及是人工智能领域最重要的进展之一。这些模型,也被称为“思考模型”,在诸如前沿数学和编码等基准测试中,它们已达到人类顶级水平的表现。
推理模型通常通过强化学习(RL)或监督式微调(SFT)进行训练,增强了诸如逐步思考(思维链)、探索替代方案(思维树)和自我修正等能力。典型代表包括 OpenAI 的 o1 / o3 、 DeepSeek R1 和 Gemini 2.0 Flash Thinking。然而,这些模型应被视为与通用大型语言模型(LLM)不同的类别,而非简单的高级版本。
这种能力提升伴随着代价。推理模型需要更长的响应时间和更高的 token 消耗,因此我们戏称它们为“更慢的 AI”(如果当前的 AI 还不够慢的话)。并非所有任务都值得采用这类模型。对于文本摘要、内容生成或快速响应聊天机器人等简单任务,通用 LLM 仍然是更好的选择。我们建议在 STEM 领域、复杂问题解决和决策制定中使用推理模型——例如,将 LLM 用作评判者或通过推理模型显式的 CoT 输出来提高最终结果的可解释性。截至撰写本文时,混合推理模型 Claude 3.7 Sonnet 已发布,暗示了传统 LLM 和推理模型之间融合的可能性。