Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Last updated : Apr 15, 2026
Apr 2026
Assess ?

Small language models (SLMs) continue to improve and are beginning to offer better intelligence per dollar than LLMs for certain use cases. We've seen teams evaluate SLMs to reduce inference costs and speed up agentic workflows. Recent progress shows steady gains in intelligence density, making SLMs competitive with older LLMs for tasks such as summarization and basic coding. This shift reflects a move away from "bigger is better" toward higher-quality data, model distillation and quantization. Models such as Phi-4-mini and Ministral 3 3B demonstrate how distilled models can retain many capabilities of larger teacher models. Even ultra-compact models such as Qwen3-0.6B and Gemma-3-270M are becoming viable for running models on edge devices. For agentic use cases where older LLMs have been sufficient, teams should consider SLMs as a lower-cost, lower-latency alternative with reduced resource requirements.

Nov 2025
Assess ?

我们观察到 小语言模型 (SLMs) 在多个版本的科技雷达中稳步发展。随着对构建智能体解决方案的兴趣不断增长,我们看到了越来越多的证据表明 SLMs 可以高效地支持智能体 AI。目前大多数智能体工作流都集中在狭窄、重复的任务上,不需要高级推理,这使得它们与 SLMs 非常匹配。SLMs 的持续进展,如 Phi-3、SmolLM2 和 DeepSeek,表明 SLMs 在这些任务中提供了足够的功能——与 LLMs 相比,具有更低成本、更低延迟和更低资源消耗的好处。值得考虑 SLMs 作为智能体工作流的默认选择,只在必要时保留更大、更资源密集的 LLMs。

Apr 2025
Trial ?

最近发布的 DeepSeek R1 充分展示了 小语言模型(SLMs) 为何仍然备受关注。满血版 R1 拥有 6710 亿个参数,并且需要约 1342GB 的 VRAM 才能运行,这通常只能通过八块最先进的 NVIDIA GPU 组成的“迷你集群”来实现。然而,DeepSeek 也提供了“蒸馏版”,即 Qwen 和 Llama 等更小的开放权重模型,使其能力得以迁移,并能够在更普通的硬件上运行。尽管这些小型版本在性能上有所折损,但相较于以往的小语言模型,依然实现了巨大的性能飞跃。小语言模型领域仍在不断创新。自上次技术雷达以来,Meta 推出了 Llama 3.2,涵盖 10 亿和 30 亿参数规模;微软发布了 Phi-4,其 140 亿参数模型在质量上表现出色;谷歌则推出了 PaliGemma 2,一个支持视觉-语言任务的模型,提供 30 亿、100 亿和 280 亿参数版本。这些只是近期发布的小型模型中的一部分,但无疑表明了这一趋势仍值得持续关注。

Oct 2024
Trial ?

大语言模型(LLMs)在许多应用领域中被证明是有用的,但它们的体积庞大可能会带来一些问题:响应一个提示需要大量计算资源,导致查询速度慢且成本高;这些模型是专有的,体积庞大,必须由第三方托管在云中,这可能对敏感数据造成问题;而且,在大多数情况下,训练一个模型的费用是非常高的。最后一个问题可以通过RAG 模式来解决,该模式绕过了训练和微调基础模型的需求,但成本和隐私问题往往依然存在。为此,我们现在看到对 小语言模型(SLMs) 的兴趣日益增长。与更流行的 LLMs 相比,SLMs 的参数更少、精度较低,通常在 35 亿到 100 亿个参数之间。最近的研究表明,在适当的上下文中,正确设置时,SLMs 可以执行甚至超越 LLMs。它们的体积也使得在 端侧设备上运行成为可能。我们之前提到过谷歌的 Gemini Nano,但随着微软推出其Phi-3系列,该领域正在迅速发展。

Published : Oct 23, 2024

Download the PDF

 

 

 

English | Português 

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Download the PDF

 

 

 

English | Português 

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Visit our archive to read previous volumes