Technology Radar
Published : Nov 05, 2025
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar.
Understand more
Nov 2025
Assess
GPU 和 LPU 不再是独立设备,而是紧密耦合的加速器网络,其性能取决于放置位置和拓扑。在 NVIDIA 的 NVL72 等机架级系统中,72 个 GPU 共享超过 13 TB 的显存,并作为单一加速器运行——直到工作负载跨交换机网络,集体操作才会成为瓶颈。类似地,Groq 的编译时、软件调度架构假设数据移动是确定性的;随机调度会破坏这些假设和可预测性。即便在同一数据中心内,GPU 性能也可能存在显著差异,这就产生了对拓扑感知调度的需求,在作业放置时同时考虑硬件布局和性能波动。 忽略 NVLink、PCIe 或 NIC 拓扑的简单调度器,往往会随意分散多 GPU 工作负载,导致步骤时间和效率下降。训练工作负载是同步且带宽受限的,更适合在连续的 NVLink 网络上调度,确保所有 reduce 和流水线阶段拥有统一、高带宽路径。这些作业应基于互连带宽进行协同调度,避免跨交换机跳转,并将链路、交换机和节点边界视为故障域。相比之下,推理工作负载受延迟和 SLO 限制,通常在跨域高可用复制与分片之间平衡,以保持专家混合(MoE)和 KV 缓存的局部性在最短路径上。针对预填充与解码阶段、微批处理以及租户隔离优化放置,可进一步提升效率。我们认为,随着加速器性能越来越依赖网络和数据中心拓扑,拓扑感知调度将成为必需。我们的团队已在评估 Kueue 及相关项目,以提高放置精度、提升性能并确保客户的可靠扩展。