Kubernetes监控体系驳杂,涉及到的内容非常多,总是感觉摸不到头绪,网上虽然有很多资料,都略显凌乱,没有一个体系化的讲解,今天开始,我们准备撰写一系列文章,把Kubernetes监控说透,从如何采集数据,到重点关注哪些指标,怎么做监控大盘,怎么配告警规则,全部囊括其中,让大家彻底理解Kubernetes监控,解决你的工作问题,当然,鉴于我们的知识储备水平,有些地方可能难免会有疏漏和错误,如果您发现有不合理的内容,欢迎联系我一起探讨。 Kubernetes监控概述 当我们谈及Kubernetes监控的时候,我们在谈论什么?显然是Kubernetes架构下的各个内容的监控,Kubernete...

  wzFl6rDubusz   2023年11月01日   43   0   0 Kubernetes

咱们这个系列是讲解Kubernetes监控,Kubernetes自身也是要跑在机器上的,那机器的监控自然也是整个体系的一环。机器层面的监控分为两部分,带内网络和带外网络,通过带内网络做监控主要是在OS里部署agent的方式,获取OS的CPU、内存、磁盘、IO、网络、进程等相关监控指标。带外监控,主要是走带外管理卡,通过IPMI、SNMP协议,获取硬件健康状况。 带内监控 带内监控的agent有很多,大家可能会面临选型问题,这里我对常见agent做一个基本介绍。 Telegraf Telegraf来自InfluxData,InfluxData就是做InfluxDB那家公司,Telegraf是M...

  wzFl6rDubusz   2023年11月01日   26   0   0 Kubernetes

生产环境大都是在Linux下的,所以这篇文章我们先来分享如何使用Categraf采集LinuxOS相关的指标。读完本篇内容,你应该可以完成机器层面的监控了。 原理概述 Categraf作为一款agent需要部署到所有目标机器上,因为采集CPU、内存、IO、进程等指标,是需要读取OS里的一些信息的,远程读取不了。采集到数据之后,做格式转换,传输给监控服务端,这里我们使用Nightingale作为监控服务端软件。 Categraf推送监控数据到服务端,走的是Prometheus的RemoteWrite协议,是基于protobuf的HTTP协议,所以,不止是Nightingale,所有支持Remot...

  wzFl6rDubusz   2023年11月01日   30   0   0 Kubernetes

简介 首先,请阅读文章《Kubernetes监控手册01-体系介绍》,回顾一下Kubernetes架构,Kube-Proxy是在所有工作负载节点上的。 Kube-Proxy默认暴露两个端口,10249用于暴露监控指标,在 /metrics 接口吐出Prometheus协议的监控数据: [root@tt-fc-dev01.njlib]curl-shttp://localhost:10249/metrics|head-n10 HELPapiserver_audit_event_total[ALPHA]Counterofauditeventsgeneratedandsentto...

  wzFl6rDubusz   2023年11月01日   31   0   0 Kubernetes

上一篇我们介绍了如何监控Kube-Proxy,Kube-Proxy的/metrics接口没有认证,相对比较容易,这一篇我们介绍一下Kubelet,Kubelet的监控相比Kube-Proxy增加了认证机制,相对更复杂一些。 Kubelet端口说明 如果你有多台Node节点,可以批量执行 ss-tlnp|grepkubelet 看一下,Kubelet监听两个固定端口(我的环境,你的环境可能不同),一个是10248,一个是10250,通过下面的命令可以知道,10248是健康检查的端口: [root@tt-fc-dev01.nj]psaux|grepkubelet root16...

  wzFl6rDubusz   2023年11月01日   27   0   0 Kubernetes

写在前面 如果是用的公有云托管的Kubernetes集群,控制面的组件都交由云厂商托管的,那作为客户的我们就省事了,基本不用操心APIServer的运维。个人也推荐使用云厂商这个服务,毕竟Kubernetes还是有点复杂的,升级也不好搞,我们自己来维护整个集群,性价比有点低。当然,如果因为各种原因最后我们还是要维护控制面这些组件,那就要好好看看本系列接下来的几篇博客了。 黑盒测试 APIServer在Kubernetes架构中非常核心,是所有API的入口,APIServer也暴露了metrics数据,我们尝试获取一下: [root@tt-fc-dev01.njetcd]ss-tlpn|gre...

  wzFl6rDubusz   2023年11月01日   36   0   0 Kubernetes

指标监控的痛点 当下比较流行的监控系统,比如Prometheus、Nightingale、VictoriaMetrics,都是基于数值型指标的监控系统,这类监控系统的痛点在于:告警的时候只能拿到异常值,以及有限的几个标签,难以拿到更详细的信息。比如HTTP探测监控,通常用监控值表示不同的错误: Success=0 ConnectionFailed=1 Timeout=2 DNSError=3 AddressError=4 BodyMismatch=5 CodeMismatch=6 告警的时候,比如你收到一个异常值,说访问http://x.com异常了,异常值是3,需要比较资深的人才能知道这个...

  wzFl6rDubusz   2023年11月01日   26   0   0 其他技术区

如果您之前对可观测性重要性,益处,以及组成不甚了解,本文是一个合适的指南手册。 什么是可观测性? 可观测性被定义为根据系统产生的输出数据(如日志,指标和链路追踪)来衡量当前系统运行状态的能力。 可观测性目前被广泛的用于提升分布式IT系统的稳定性(系统复杂度成倍提升,在故障或者异常时很难快速定位和解决),它利用指标、日志和链路追踪三种类型数据,为分布式系统内部运行状态提供了深度透视能力,协助DevOps工程师解决各种问题并提升系统性能。 如果您还不明白什么是可观测性,那么让我们这样说吧:可观测性是可以帮助团队高效调试其系统的工具或技术解决方案。可观测性基于探索事先未定义的属性和模式(帮助我们主...

  wzFl6rDubusz   2023年11月01日   90   0   0 其他技术区

FlashDuty:一站式告警响应平台,前往此地址免费体验! FlashDuty现在已经全面支持了深色模式,这为您提供了更柔和的光线和舒适的界面外观。并且,您可以根据自己的喜好和使用环境动态切换深色和浅色模式与主题,提高使用体验的个性化和灵活性。 深色模式效果预览 为了确保在深色模式下能够呈现出更好的效果,我们对产品的部分页面样式进行了优化。 我们重新设计了颜色方案和对比度,以确保文本和图标在深色背景下具有良好的可读性和醒目度。 此外,我们还优化了页面元素的投影和边缘,以确保在深色模式下呈现出更加清晰和精细的外观。我们希望这些优化措施将为您带来更加舒适和出色的视觉体验。 以下是一些具体...

  wzFl6rDubusz   2023年11月01日   64   0   0 代码与软件发布

FlashDuty:一站式告警响应平台,前往此地址免费体验! 自定义字段 FlashDuty已支持接入大部分常见的告警系统,我们将推送内容中的大部分信息放到了Lables进行展示。尽管如此,我们用户还是会有一些扩展或定制性的需求,比如人工标记一个故障是否为误报。因此我们提供了自定义字段功能,来进一步丰富故障描述。 通过自定义字段,您可以添加自定义的元数据,记录特定的故障相关信息,并在故障处理过程中传递和使用这些信息。以下是的自定义字段常见使用场景: 灵活定义:您可以根据需要创建多个自定义字段,并定义字段的名称、类型、可选项和默认值。常见的自定义字段类型包括文本、下拉列表、Checkbo...

  wzFl6rDubusz   2023年11月01日   30   0   0 代码与软件发布

在PerconaMySQL支持团队中,我们经常看到客户抱怨复制延迟的问题。当然,这对MySQL用户来说并不是什么新鲜事,多年来我们在MySQL性能博客上发表过一些关于这个主题的文章(过去有两篇特别受欢迎的文章:"ReasonsforMySQLReplicationLag"和“ManagingSlaveLagwithMySQLReplication"),两篇文章均由Percona首席执行官PeterZaitsev撰写)。 译者注:Percona公司是做MySQL发行版的,MySQL有三大发行版,MySQL、MariaDB、Percona,《高性能MySQL》这本神作就是出自Percona的专家...

  wzFl6rDubusz   2023年11月01日   20   0   0 MySQL
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~