Prometheus监控的4个黄金指标及示例
  kZLEadpmxZsY 16天前 25 0

Prometheus的黄金指标通常指的是在监控和度量系统性能时,关注的四个核心指标:延迟(Latency)、流量(Throughput)、错误(Errors)和饱和度(Saturation)。下面我将为你解释这些指标以及对应的PromQL(Prometheus Query Language)写法。

  1. 延迟(Latency)

    延迟是服务请求或操作所需的时间。例如,HTTP请求的平均响应时间。

    PromQL写法示例:

    histogram_quantile(0.95, sum(rate({job="my-service"}[5m]) by (le)))
    

    这个查询假设你有一个名为histogram_quantile的直方图指标,它记录了延迟分布。这个查询将计算过去5分钟内95%的请求延迟。

  2. 流量(Throughput)

    流量是系统在给定时间内处理的事务数量。例如,每秒处理的HTTP请求数。

    PromQL写法示例:

    rate({job="my-service"}[1m])
    

    这个查询将计算过去1分钟内my-service作业的HTTP请求率。

  3. 错误(Errors)

    错误是失败的服务请求或操作的数量。例如,返回HTTP 5xx状态码的请求。

    PromQL写法示例:

    increase(http_requests_total{code=~"5.."}[1m])
    

    这个查询将计算过去1分钟内HTTP响应码以5开头的请求数量(即错误请求)的增长量。

  4. 饱和度(Saturation)

    饱和度是指系统资源的利用情况,如CPU、内存、磁盘I/O等的使用率。

    PromQL写法示例(以CPU为例):

    (1 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m]))) * 100
    

    这个查询将计算过去5分钟内CPU的平均非空闲时间(即饱和度),并将其转换为百分比。

请注意,上面的PromQL查询示例是基于假设的指标名和标签集。在实际使用中,你需要根据你的Prometheus设置和指标命名约定来调整这些查询。同时,确保你的Prometheus实例已经收集了相关的指标数据。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 16天前 0

暂无评论

推荐阅读
kZLEadpmxZsY