问题描述: 某个客户在针对生产环境中,对ECIF数据库同步改造为使用kafka进行数据同步后,测试环境也偶尔发生消费数据存在空的问题,当时以为是调度系统间隔太慢,导致数据没有读取到,但是在上线之后,生产存在同样的问题,无法消费消息数据; 问题分析: 1.由于问题比较突然,对于kafka的问题分析需要结合消费端和生产端以及服务节点同时分析。 2.首先经过现场运维得知,kafka的集群环境并不是新搭建的,之前就一直正常使用,只是给本次业务系统上线增加了一个新的topic,然后对接消费端和服务端; 3.所以大概率排除了由于环境搭建引起的问题,本身运维对开发会涉及的问题也不太清楚,所以尽可能少的牵扯...

  skA6WysNXsa9   2023年11月09日   46   0   0 数据kafka运维kafka数据运维

问题描述: 客户生产环境某台机器在接收到交易请求,执行通过脚本调用google-chrome访问页面渲染生成pdf过程时,前端交易无应答直到超时异常; 问题分析: 1.对于这个交易过程,通过业务实现来分析,其链路如下: 交易调用链路 2.对于可能导致交易发生阻塞的点,最容易的就是想到业务系统自身的处理日志,通过查看交易自身的业务日志请求、应答发现,在后端服务执行到调用环境中的google-chrome插件生成pdf的过程没有正常执行结束,所以需要关注这个插件的执行过程发生了什么问题; 3.首先通过Linux中,系统中检查后端应用派生出的子进程,有许多google-chrome工具生成的子进程...

问题现象: 生产环境中,客户反馈在启动服务系统后,首次交易存在5秒以上的延迟现象,后续每次交易会避免这时间。 问题分析: 此类问题,从经验上看,通常对于首次的耗时,最常见的就是可能考虑到有需要首次加载或初始化资源的场景时会产生这个问题,所以目前需要分析出,代码执行过程中的耗时点; 由于开发人员无法在生产上debug,通过增加了业务层调用代码日志的方式,来跟踪了首次交易的耗时过程,体现在一个调用第三方架构来实现beancopy功能的地方; 通过增加日志方法,只能大致知道一个宽泛的耗时方法,但是这个方法的调用过程详细耗时点没有办法得知,所以对于这类问题,尤其是生产环境,我们需要掌握一些分析此类问...

问题现象: 一个客户的生产环境中,由于灾备切换,将原有环境切换到灾备环境后出现了问题,在通过走nginx转发链路触发保存pdf的交易过程,会存在2分钟以上的等待时间,但是直接访问后端服务器地址,不会有耗时的问题,但是目前由于网络限制,业务无法直接访问服务机器,只有运维可以在内网直接操作验证,影响业务交易; 问题分析: 首先通过问题的现象分析,通过直接访问后端服务的情况可以正常执行,但是通过nginx跳转到服务的情况无法成功,所以问题一定是与访问链路因素有关,但具体影响在什么地方,需要我们通过细节进行分析; 异常链路表示 2.目前对于问题链路中,需要分析的点有两个,一个是nginx是否存在...

关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~