GPUs e LPUs não são mais "apenas um monte de dispositivos". Elas são redes de chips fortemente acoplados cujo desempenho depende de onde o trabalho é alocado. Por exemplo, sistemas em escala de rack como o NVL72 da Nvidia apresentam domínios NVLink de 72 GPUs que se comportam como um único acelerador massivo (pense em mais de 13 TB de VRAM compartilhada) apenas se o posicionamento mantiver os jobs dentro da mesma ilha de switch. Saltos entre ilhas transformam as operações coletivas no gargalo. O Groq, como outro exemplo, usa uma rede agendada por software em tempo de compilação, que assume a movimentação de dados determinística e cronometrada pelo compilador entre as placas. Quando os workloads são mal alocados ou agendados aleatoriamente, quebramos essas premissas e a previsibilidade. Além disso, as GPUs variam muito em seu desempenho, mesmo no mesmo data center e rack. Há uma demanda crescente para que os agendadores estejam cientes dessa variabilidade e posicionem os jobs em uma fatia da topologia que também leve essa variabilidade e o tipo de job em consideração ao agendar. Agendadores ingênuos que ignoram a topologia de NVLink/PCIe/NIC e a variabilidade das GPUs espalharão aleatoriamente os jobs multi-GPU e destruirão o tempo de passo e a eficiência; o posicionamento e o agendamento conscientes de topologia corrigem isso e, geralmente, você terá dois tipos de workloads. Treinamento: (síncrono, limitado por largura de banda): Favorece ilhas contíguas com caminhos uniformes e de alta largura de banda para estágios de all-reduce e pipeline; co-agenda a largura de banda do fabric; evita saltos entre switches; trata os limites de link/switch/nó como domínios de falha. E favorece blocos de alta variabilidade de desempenho. Inferência: (limitada por latência/SLO, elástica): Geralmente escolhe entre replicação (espalhar réplicas entre blocos de disponibilidade para alta disponibilidade) e sharding (manter os shards/experts de MoE e a localidade do cache KV nos caminhos mais curtos). Otimiza o posicionamento de prefill vs. decode, micro-batching, isolamento de tenants, etc. Em suma, acreditamos que a dependência dos aceleradores na topologia da rede e do data center continuará a aumentar, e com isso, também o agendamento consciente de topologia. Estamos avaliando projetos como o Kueue e outros neste espaço para alcançar um agendamento de topologia de maior desempenho em nossos clientes.