Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Nov 05, 2025
Nov 2025
Experimente ?

O NVIDIA DCGM Exporter é uma ferramenta de código aberto que ajuda os times a monitorarem o treinamento distribuído de GPUs em escala. Ele converte a telemetria proprietária do NVIDIA Data Center GPU Manager (DCGM) em formatos abertos compatíveis com sistemas de monitoramento padrão. O Exporter expõe métricas críticas em tempo real — incluindo utilização da GPU, temperatura, energia e contagem de erros ECC — tanto da GPU quanto dos servidores hospedeiros. Essa visibilidade é essencial para organizações que fazem o ajuste fino (fine-tuning) de LLMs customizados ou executam trabalhos de treinamento de longa duração e intensivos em GPU. O efeito do retardatário — onde um worker lento se torna o gargalo de todo o processo — pode reduzir a taxa de transferência em mais de 10% e desperdiçar até 45% das horas de GPU alocadas. Projetado para ambientes cloud-native de larga escala, o DCGM Exporter se integra de forma transparente com o Prometheus e o Grafana, ajudando a garantir que cada GPU opere dentro dos limites ideais de performance.

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber a newsletter do Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores