Prometheus GPU 监控
  ETWZF7L1nsXD 2023年11月13日 35 0

Prometheus GPU 监控

以下是步骤

1,Prometheus GPU 监控

2,安装gpu-monitoring-tools

2.1,设置`dcgm-exporter`开机启动

3,Prometheus修改配置

4,grafana

5,使用监控面板`9957`可以切换节点

6,Grafana设置

7,使用`12027`

8,使用GPU-Nodes-Metrics-Nvidia 12639

1,Prometheus GPU 监控

安装DCGM

datacenter-gpu-manager_1.7.2_amd64.deb

# dcgmi --version

dcgmi  version: 1.7.2

2,安装gpu-monitoring-tools

# git clone https://github.com/NVIDIA/gpu-monitoring-tools.git
# cd gpu-monitoring-tools/
# make binary
go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
# make install
go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
install -m 557 dcgm-exporter /usr/bin/dcgm-exporter
install -m 557 -D ./etc/dcgm-exporter/default-counters.csv /etc/dcgm-exporter/default-counters.csv
install -m 557 -D ./etc/dcgm-exporter/dcp-metrics-included.csv /etc/dcgm-exporter/dcp-metrics-included.csv
  • 运行dcgm-exporter
# which dcgm-exporter
/usr/bin/dcgm-exporter
# dcgm-exporter
INFO[0000] Starting dcgm-exporter
INFO[0000] DCGM successfully initialized!
INFO[0000] Pipeline starting
INFO[0000] Starting webserver
  • 测试,可以看到监控数据
# curl 192.168.1.2:9400/metrics

2.1,设置dcgm-exporter开机启动

#新建服务
vim /lib/systemd/system/dcgm-exporter.service 

#如下

[Unit]
Description=dcgm-exporter service

[Service]
User=root
ExecStart=/usr/bin/dcgm-exporter

TimeoutStopSec=10
Restart=on-failure
RestartSec=5

[Install]
WantedBy=multi-user.target

保存退出
加载、添加开机启动、开启、查看服务的一些命令

 1.加载
 systemctl daemon-reload
 2.添加开机启动
 systemctl enable dcgm-exporter.service
 3.开启
 systemctl start dcgm-exporter.service
 4.查看
 systemctl status dcgm-exporter.service

3,Prometheus修改配置

  • 添加dcgm-exporter(修改prometheus配置文件)
    # dcgm-exporter
  - job_name: 'gpu'
    static_configs:
    - targets: ['192.168.1.2:9400']
如下是我的配置文件 实例:# dcgm-exporter 以下是新添加的

# cat prometheus.yml
  - job_name: 'prometheus'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
    - targets: ['localhost:9090']


    # node_exporter
  - job_name: 'node'
    static_configs:
    - targets: ['127.0.0.1:9100','192.168.1.2:9100']

    # dcgm-exporter
  - job_name: 'gpu'
    static_configs:
    - targets: ['192.168.1.2:9400']
  • 重启prometheus
systemctl restart  prometheus.service

浏览器访问你的prometheus

如下:http://10.10.201.86:9090/targets

可以看到新添加的 UP了

Prometheus GPU 监控_开机启动

4,grafana

Prometheus GPU 监控_配置文件_02

5,使用监控面板9957可以切换节点

Prometheus GPU 监控_开机启动_03

Prometheus GPU 监控_开机启动_04

6,Grafana设置

  • 监控功率,instance为ip地址
DCGM_FI_DEV_POWER_USAGE{instance="192.168.1.101:9400"}
  • 显卡使用率
DCGM_FI_DEV_GPU_UTIL{instance="192.168.1.101:9400"}

7,使用12027模板

Prometheus GPU 监控_配置文件_05

   # dcgm-exporter
  - job_name: 'gpu-metrics'
    static_configs:
    - targets: ['127.0.0.1:9400','192.168.1.101:9400','192.168.1.102:9400']

Prometheus GPU 监控_开机启动_06


手动设置监控

Prometheus GPU 监控_github_07

  • 查看显卡指标
curl http://127.0.0.1:9400/metrics
  • 使用功率
DCGM_FI_DEV_POWER_USAGE{instance="127.0.0.1:9400"}
  • 内存使用
DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}
  • 总内存
DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}+DCGM_FI_DEV_FB_FREE{instance="127.0.0.1:9400"}
  • GPU使用率
DCGM_FI_DEV_GPU_UTIL{instance="127.0.0.1:9400"}

8,使用GPU-Nodes-Metrics-Nvidia 12639




【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月13日 0

暂无评论

推荐阅读
  MHUUsenkOJj9   2023年11月24日   31   0   0 Dockergithub
  P3nxyT0LRuwj   2023年11月24日   63   0   0 缓存redis配置文件
  9JCEeX0Eg8g4   2023年12月11日   23   0   0 mysql配置文件
ETWZF7L1nsXD