Enable javascript in your browser for better experience. Need to know to enable it? Go here.

Programación consciente de la topología

Published : Nov 05, 2025
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar. Understand more
Nov 2025
Assess ?

Las GPU y LPU han dejado de ser dispositivos independientes para convertirse en redes estrechamente acopladas de aceleradores cuyo rendimiento depende de la ubicación y la topología. En sistemas a escala de rack como el NVL72 de NVIDIA, 72 GPUs comparten más de 13 TB de VRAM y funcionan como un único acelerador, hasta que las cargas de trabajo cruzan las islas de conmutadores, convirtiendo las operaciones colectivas en cuellos de botella. De manera similar, la arquitectura de Groq (planificada por software en tiempo de compilación) asume un movimiento de datos determinista; una planificación aleatoria rompe esas suposiciones y su previsibilidad. Incluso dentro de un mismo centro de datos, el rendimiento de las GPU puede variar significativamente, generando la necesidad de una programación consciente de la topología que considere tanto el diseño del hardware como su variabilidad al asignar trabajos. Los planificadores ingenuos que ignoran la topología de NVLink, PCIe o NIC suelen distribuir cargas de trabajo multi-GPU de forma arbitraria, lo que provoca una degradación en los tiempos de ejecución y la eficiencia. Las cargas de entrenamiento, que son síncronas y dependientes del ancho de banda, se benefician de islas NVLink contiguas con rutas uniformes y de alta velocidad para las etapas de all-reduce y pipeline. Estos trabajos deben programarse en función del ancho de banda del tejido, evitando saltos entre conmutadores y tratando los límites de enlace, conmutador y nodo como dominios de falla. Las cargas de inferencia, por el contrario, están limitadas por la latencia y los SLO, y suelen equilibrar la replicación para alta disponibilidad entre dominios, combinándola con particionamiento (sharding) para mantener la localidad de los mixture of experts (MoE) y las cachés KV en las rutas más cortas. Optimizar la ubicación para las fases de prefill y decode, el microprocesamiento por lotes (micro-batching) y el aislamiento de inquilinos mejora aún más la eficiencia. Creemos que la programación consciente de la topología se volverá esencial a medida que el rendimiento de los aceleradores dependa cada vez más de la red y la topología del centro de datos. Nuestros equipos ya están evaluando Kueue y proyectos relacionados para mejorar la precisión en la asignación, incrementar el rendimiento y garantizar una escalabilidad confiable para nuestros clientes.

Download the PDF

 

 

 

English | Português

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Visit our archive to read the previous volumes