优维产品最佳实践第17期:善用控制台
  e8Vk3bXIRRmD 2023年12月06日 30 0

优维产品最佳实践第17期:善用控制台_高负载

优维产品最佳实践第17期:善用控制台_折线图_02

「 背 景 」

遇到页面报错时,是不是感到困扰,不知如何解决?

页面响应缓慢时,是否感到迷茫,不清楚从何入手排查?

面对主机高负载时,是不是觉得确认异常根因很有挑战?

本期最佳实践为您讲解如何通过控制台排查定位:

  1. 页面报错时,获取traceId确认报错组件;通过全局监控确认组件状态,查看组件日志分析原因。
  2. 页面响应缓慢时,查看集群主机状态并通过链路跟踪发现耗时最长的节点,进一步查看组件状态、日志,优化解决。
  3. 主机高负载时,通过主机上的CPU使用、内存使用Top10进程来定位,找到占用资源最高的进程,抓取堆栈信息进行分析。

「 全 局 监 控 」

优维产品最佳实践第17期:善用控制台_进程名_03

平台监控包括四个模块: 全局监控、存储组件监控、逻辑组件监控、监控流监控

「 主 机 监 控 

默认首页为主机监控,在这个界面我们可以看到这个集群的整体情况,集群中各主机的状态。集群状态的判断为各主机心跳状态+ 时间偏移+磁盘使用率低于90,这3个指标都正常的时候集群状态才为正常。图一跟图二的对比可以看出来,当磁盘使用率降到90以下后集群状态才回归正常。

优维产品最佳实践第17期:善用控制台_折线图_04

接下来的部分是常用指标的折线图,最长保留60天的数据,可以通过调整右上角的时间范围来看长时间的趋势。

优维产品最佳实践第17期:善用控制台_进程名_05

主机资源不足的情况下,我们常常会去找占用资源最多的进程。控制台同样集成这样的能力,我们可以按主机、CPU、内存、进程名来过滤,定位进程的资源使用情况。这里记录的是某个时刻的Top10进程,如果进程没有进到前10,则会搜索不到。

优维产品最佳实践第17期:善用控制台_进程名_06

优维产品最佳实践第17期:善用控制台_高负载_07

「 组 件 状 态 

组件状态主要展示集群组件的运行状态,按组件类型分tab展示:后台组件、资源包(以-M、-db、-R结尾的组件)、前端插件(以NA、NB结尾的组件)

优维产品最佳实践第17期:善用控制台_进程名_08

该页面提供过滤、查询等功能,当我们已知组件部分信息时,这个功能能帮助我们确认组件部署所在的主机、组件监听的端口、名字服务以及状态。如果组件状态为异常,点击组件名可以查看详细信息。如果为下线组件,可以标记忽略,避免误报。

优维产品最佳实践第17期:善用控制台_高负载_09

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月06日 0

暂无评论

e8Vk3bXIRRmD