Technology Radar
Published : Apr 02, 2025
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar.
Understand more
Apr 2025
Assess
DeepSeek-R1 是 DeepSeek 推出的第一代 推理模型 。在一系列非推理模型的基础上,DeepSeek 的工程师设计并应用了多种方法来最大化硬件使用率。这些方法包括多头潜在注意力(Multi-Head Latent Attention, MLA)、专家混合(Mixture of Experts, MoE)门控、8 位浮点训练(FP8)以及底层 PTX 编程。这些方法结合其 高性能计算协同设计 方法使 DeepSeek-R1 在显著降低训练和推理成本的同时,达到与最先进模型(state-of-the-art)相媲美的表现。
DeepSeek-R1-Zero 另一个显著创新在于: 工程师们可以通过简单的强化学习(RL),无需监督微调(SFT)即可让非推理模型展现出推理能力。此外,所有的 DeepSeek 模型都为开放权重,即它们可以被自由获取,但训练代码和训练数据仍然为专有。该代码库还包括六个从 DeepSeek-R1 蒸馏而来的稠密模型,基于 Llama 和 Qwen 构建,其中的 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini。