Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Published : Nov 05, 2025
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar. Understand more
Nov 2025
Trial ?

NVIDIA DCGM Exporter es una herramienta de código abierto que ayuda a los equipos a monitorizar el entrenamiento distribuido en GPU a gran escala. Convierte la telemetría propietaria del NVIDIA Data Center GPU Manager (DCGM) en formatos abiertos compatibles con sistemas de monitorización estándar. El Exporter expone métricas críticas en tiempo real, incluidas la utilización de GPU, temperatura, consumo de energía y conteos de errores ECC, tanto de las GPU como de los servidores anfitriones. Esta visibilidad es esencial para las organizaciones que ajustan modelos LLM personalizados o ejecutan trabajos de entrenamiento prolongados e intensivos en GPU. El efecto straggler, donde un solo trabajador (worker) lento genera un cuello de botella en todo el proceso, puede reducir el rendimiento en más de un 10% y desperdiciar hasta un 45% de las horas de GPU asignadas. Diseñado para entornos cloud-native y de gran escala, DCGM Exporter se integra sin problemas con Prometheus y Grafana, ayudando a garantizar que cada GPU opere dentro de los límites óptimos de rendimiento.

Download the PDF

 

 

 

English |  Português 

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Visit our archive to read the previous volumes