Enable javascript in your browser for better experience. Need to know to enable it? Go here.

NVIDIA DCGM Exporter

发布于 : Nov 05, 2025
Nov 2025
试验 ?

NVIDIA DCGM Exporter 是一个开源工具,帮助团队在大规模分布式 GPU 训练中进行监控。它将 NVIDIA 数据中心 GPU 管理器(DCGM) 的专有遥测数据转换为兼容标准监控系统的开放格式。Exporter 暴露关键的实时指标——包括 GPU 利用率、温度、功耗和 ECC 错误计数——涵盖 GPU 和主机服务器。这种可见性对于微调自定义 LLM 或运行长时间、高强度 GPU 训练作业的组织至关重要。滞后效应——即单个缓慢工作节点限制整个流程——可能降低吞吐量超过 10%,并浪费多达 45% 的分配 GPU 小时。DCGM Exporter 为云原生大规模环境设计,可与 PrometheusGrafana 无缝集成,帮助确保每个 GPU 在最佳性能范围内运行。

Download the PDF

 

 

 

English | Español | Português | 中文

Sign up for the Technology Radar newsletter

 

 

Subscribe now

查看存档并阅读往期内容