基于arthas解决业务系统服务异常问题-摩杜云开发者社区

基于arthas解决业务系统服务异常问题

ehrZuhofWJiC 2024年05月17日 23 0

现象

应用基于spring cloud + k8s 部署，接口的暴露基于了nodeport+openresty，同时为了保证业务的稳定接口添加了upstream 的重试机制出现的问题是，当网关重新部署的时候服务可以使用一段时间，但是当业务系统量比较大的时候，过一段时间会出现服务不可用的问题

排错猜测

初步感觉是因为服务层接口故障问题，而且通过openresty 的日志看到upstream 有read timeout 的问题，过一段时间之后spring cloud gateway暴露的服务基本就不能访问了，重新进行容器的创建就又短暂的可以了，初步感觉是接口故障(有可能是个别服务的问题)

基于arthas排错

因为入口都是走的gateway，而且我们的容器已经都集成了arthas 所以直接进入k8s pod 查看jvm 信息，首先查看了线程总的信息，很不好的是关于spring boot 内嵌网络io 线程全是block（也是好的情况，至少确定了是gateway 的问题，不是openresty 的问题），然后我们重点查看下block线程的信息，thread ,然后我们可以自下向上或者直接自上而下查看，结果通过查看到的信息是是log4j 连接的问题，结合我们的业务场景是有可能的，因为我们依赖了graylog, 默认要求都是要走udp协议的，应该不会出现问题的，所以查看了下gatewy 记录日志的代码，结果是走的tcp，tcp 协议就很明显了，很容易造成网络io 阻塞，解决方法很简单就是修改为udp的，但是合理的tcp也不应该会造成这么严重的问题，结果通过排查日志组件的服务器，发现结果主机的iowit 很严重（排除挖矿以及可能病毒侵入情况）经过咨询原来虚拟化底层的存储出现了一些故障，造成存储io影响比较严重

当前解决方法

调整为udp协议或者禁用写入graylog 系统（使用udp 更好）

说明

以上是基于arhtas 快速解决线上业务问题的一个实践，希望对大家有用

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： centraldogma基于git&zk&http2的高可用支持版本管理的配置服务工具下一篇： Firewall-cmd 为 MariaDB 数据库防火墙进行配置

分享：

最后一次编辑于 2024年05月17日 0

暂无评论

ehrZuhofWJiC

作者其他文章更多

Centos yum install和yum groupinstall的区别

2024-05-31

系统概要设计

2024-05-31

配置过滤器（解决乱码）

2024-05-31

【前端传过来三次请求，主键为业务系统，三次以后就停止发送】

2024-05-31

力扣数据中心有 n 台服务器，分别按从 0 到 n-1 的方式进行了编号

2024-05-17

remix-ide是浏览器的ide，官方已经提供地址，但是需要连接外网。如果是内网，需要自己在服务器里搭建remix-ide；另一种方式是用remix-ide的桌面版。

2024-05-17

Linux：Centos9：配置固定ip

2024-05-17

Linux：shell脚本：基础使用（4）《正则表达式-grep工具》

2024-05-17

MDM（移动设备管理策略系统）、MAM、MCM作用

2024-05-17

Linux配置yum源(本地源和网络源)

2024-05-17

最新推荐更多

Centos yum install和yum groupinstall的区别

2024-05-31

系统概要设计

2024-05-31

配置过滤器（解决乱码）

2024-05-31

【前端传过来三次请求，主键为业务系统，三次以后就停止发送】

2024-05-31

力扣数据中心有 n 台服务器，分别按从 0 到 n-1 的方式进行了编号

2024-05-17

remix-ide是浏览器的ide，官方已经提供地址，但是需要连接外网。如果是内网，需要自己在服务器里搭建remix-ide；另一种方式是用remix-ide的桌面版。

2024-05-17

Linux：Centos9：配置固定ip

2024-05-17

Linux：shell脚本：基础使用（4）《正则表达式-grep工具》

2024-05-17

MDM（移动设备管理策略系统）、MAM、MCM作用

2024-05-17

Linux配置yum源(本地源和网络源)

2024-05-17

iOS调用系统相册、相机显示中文标题

2024-05-17

linux 新增磁盘通过fstab自动挂载重启系统后系统故障案例

2024-05-17

Linux网络配置文件:MAC,UUID,设备名,子网掩码,网关,DNS等底层结构、架构图，工作原理，使用场景详解

2024-05-17

系统时间正常日志时间不正常

2024-05-17

吃透nginx 403 forbidden报错

2024-05-17

linux系统中解决docker: command not found

2024-05-17

#yyds干货盘点# Go+ HTTP 服务器教程（5.2）

2024-05-17

如何避免Win10监控你的一举一动

2024-05-17

flume 隐藏文件.flumespool-main.meta (系统找不到指定的路径。)

2024-05-17

使用adb命令抓取崩溃日志

2024-05-17