Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Nov 05, 2025
NÃO ENTROU NA EDIÇÃO ATUAL
Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais
Nov 2025
Experimente ?

O NVIDIA DCGM Exporter é uma ferramenta de código aberto que ajuda os times a monitorarem o treinamento distribuído de GPUs em escala. Ele converte a telemetria proprietária do NVIDIA Data Center GPU Manager (DCGM) em formatos abertos compatíveis com sistemas de monitoramento padrão. O Exporter expõe métricas críticas em tempo real — incluindo utilização da GPU, temperatura, energia e contagem de erros ECC — tanto da GPU quanto dos servidores hospedeiros. Essa visibilidade é essencial para organizações que fazem o ajuste fino (fine-tuning) de LLMs customizados ou executam trabalhos de treinamento de longa duração e intensivos em GPU. O efeito do retardatário — onde um worker lento se torna o gargalo de todo o processo — pode reduzir a taxa de transferência em mais de 10% e desperdiçar até 45% das horas de GPU alocadas. Projetado para ambientes cloud-native de larga escala, o DCGM Exporter se integra de forma transparente com o Prometheus e o Grafana, ajudando a garantir que cada GPU opere dentro dos limites ideais de performance.

Baixe o PDF

 

 

 

English | Português

Inscreva-se para receber a newsletter do Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores