Enable javascript in your browser for better experience. Need to know to enable it? Go here.

Agendamento consciente de topologia

Publicado : Nov 05, 2025
Nov 2025
Avalie ?

GPUs e LPUs não são mais "apenas um monte de dispositivos". Elas são redes de chips fortemente acoplados cujo desempenho depende de onde o trabalho é alocado. Por exemplo, sistemas em escala de rack como o NVL72 da Nvidia apresentam domínios NVLink de 72 GPUs que se comportam como um único acelerador massivo (pense em mais de 13 TB de VRAM compartilhada) apenas se o posicionamento mantiver os jobs dentro da mesma ilha de switch. Saltos entre ilhas transformam as operações coletivas no gargalo. O Groq, como outro exemplo, usa uma rede agendada por software em tempo de compilação, que assume a movimentação de dados determinística e cronometrada pelo compilador entre as placas. Quando os workloads são mal alocados ou agendados aleatoriamente, quebramos essas premissas e a previsibilidade. Além disso, as GPUs variam muito em seu desempenho, mesmo no mesmo data center e rack. Há uma demanda crescente para que os agendadores estejam cientes dessa variabilidade e posicionem os jobs em uma fatia da topologia que também leve essa variabilidade e o tipo de job em consideração ao agendar. Agendadores ingênuos que ignoram a topologia de NVLink/PCIe/NIC e a variabilidade das GPUs espalharão aleatoriamente os jobs multi-GPU e destruirão o tempo de passo e a eficiência; o posicionamento e o agendamento conscientes de topologia corrigem isso e, geralmente, você terá dois tipos de workloads. Treinamento: (síncrono, limitado por largura de banda): Favorece ilhas contíguas com caminhos uniformes e de alta largura de banda para estágios de all-reduce e pipeline; co-agenda a largura de banda do fabric; evita saltos entre switches; trata os limites de link/switch/nó como domínios de falha. E favorece blocos de alta variabilidade de desempenho. Inferência: (limitada por latência/SLO, elástica): Geralmente escolhe entre replicação (espalhar réplicas entre blocos de disponibilidade para alta disponibilidade) e sharding (manter os shards/experts de MoE e a localidade do cache KV nos caminhos mais curtos). Otimiza o posicionamento de prefill vs. decode, micro-batching, isolamento de tenants, etc. Em suma, acreditamos que a dependência dos aceleradores na topologia da rede e do data center continuará a aumentar, e com isso, também o agendamento consciente de topologia. Estamos avaliando projetos como o Kueue e outros neste espaço para alcançar um agendamento de topologia de maior desempenho em nossos clientes.

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber a newsletter do Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores