一分钟精华速览 酷家乐开发魔方语言的目的是解决其2BSaaS系统在复杂微服务架构下的故障定位难题,以提升系统稳定性并加速故障恢复。由于原监控工具操作复杂,需要人工逐项点击且依赖经验,导致处理效率低下。魔方语言通过自动化根因分析,显著提升了故障处理的覆盖率和准确率,从而减少了重复操作,降低了技术门槛,有效提高了客户满意度和产品竞争力。初步成效显示,大部分典型故障定位时长缩短90%以上,已进入1分钟定位阶段。详细的解决策略和方法,请参阅文章正文。 作者介绍 酷家乐监控负责人——少丰TakinTalks稳定性社区专家团成员,酷家乐监控负责人、技术专家。主要专注稳定性保障、新一代监控系统的研发工作。...

  n8YJ0FlhOMCC   2024年03月28日   55   0   0 软件测试

一分钟精华速览 B站的业务规模和用户群体不断扩大,对于服务的稳定性和可用性的要求也日益增高。这就需要B站的监控告警系统能够及时、准确地发现和定位问题,以便尽快解决,维护好用户的使用体验。 本文是对B站在告警监控系统上的一次重要迭代和优化的详细记录。文章详细阐述了B站对告警平台设计思路和优化迭代,以及在实现过程中遇到的问题和解决方法。特别是对于告警定位的精准性和定位效率的提升,文章给出了新的设计方案和实践方法。 作者介绍 哔哩哔哩资深开发工程师——王程田 TakinTalks稳定性社区专家团成员,哔哩哔哩资深开发工程师。2020年加入B站先后负责事件平台,链路追踪,AIOps及告警平台方向...

一分钟精华速览 去哪儿网的原有监控系统在指标数量上展现出了强大实力——上亿指标量和百万级的告警量,但在故障数据方面却稍显不足——订单类故障平均发现时间长达4分钟,仅有20%的订单类故障能在1分钟内被发现,近半数的故障处理时长超过30分钟。为了解决这些问题,去哪儿网决定从优化故障指标出发,对故障发现、故障根因定位、故障修复等各个环节展开全面优化。 本文将深入探讨这一系列优化改革的详细过程,剖析各个阶段所采用的监控方法和工具,以及在实践过程中遇到的关键问题。 作者介绍 去哪儿网基础架构技术TL——肖双 TakinTalks稳定性社区专家团成员。2018年加入去哪儿网,目前负责去哪儿网CI/CD...

一分钟精华速览 底层技术是系统稳定运行的基石,往往牵一发而动全身。通过底层技术的优化,有效地管理和减少代码量,能极大提升系统的运行效率。去哪儿网作为业内较早落地“代码瘦身”的企业,该项目让其系统成功地减少了50%的代码量,26%的服务数量,提高了9.5%的发布效率。 本文旨在分享其如何运用可观测性技术识别并清除无用代码,并尝试通过还原实施细节、总结方法论,并为读者在系统精简方面提供一种新的思考和实践方式。 作者介绍 去哪儿旅行基础架构组技术专家——马阳阳 TakinTalks稳定性社区专家团成员,去哪儿旅行基础架构组技术专家。公司云原生SIG成员,负责测试环境治理平台、代码精简平台、组件...

一分钟精华速览 在当前阶段,可观测性的建设并没有统一的执行路径。每家公司会根据自身的业务需求、运营模式和规模,形成一套独特的实践方案。为了应对业务规模的扩大和需求的变化,可观测团队必须持续优化和升级其架构,并始终保证可观测系统本身的高可用性。 本文详尽地描绘了滴滴从2017年至今,在四个不同阶段所遭遇的技术挑战,如单体应用阶段的资源瓶颈、运维成本的上升、分布式服务的通信问题等等。滴滴通过寻找并应用适宜的技术方案,逐渐战胜了这些技术难题,使其可观测架构始终能为业务提供强大的支持。 作者介绍 滴滴出行可观测架构负责人——钱威 TakinTalks稳定性社区专家团成员,滴滴出行可观测架构负责...

一分钟精华速览 分布式链路追踪系统在企业的APM体系中扮演着重要的角色。本文分享了去哪儿旅行构建分布式链路追踪系统的实践经验。从APM整体架构设计入手,讲述了日志收集、Kafka传输和Flink任务处理等环节的性能优化实践和踩坑经验。 同时,作者结合丰富的分布式系统架构经验,探讨了APM系统和Trace数据的价值。通过阅读本文,你将了解到去哪儿旅行在构建APM体系中所面临的挑战,并学习如何应对这些挑战,实现更高效的性能监控和管理。 作者介绍 去哪儿旅行基础平台架构师——王鹏TakinTalks稳定性社区专家团成员。毕业于大连理工大学,10年以上大型分布式基础架构经验,专注于大型分布式基础...

一分钟精华速览 应急预案,是指在系统出现故障时,为了保障核心业务能够持续可用,而提前准备的指导手册。这个手册可以用来告诉我们:在遇到什么样的问题后,做什么样的操作能最大化地降低对业务的影响,将被动响应变为主动防御。哈啰结合“930大促”活动,从多角度分享了其在日常梳理、预案保鲜、预案执行等方面的实践经验。 作者介绍 哈啰技术风险负责人——孟闯 TakinTalks稳定性社区专家团成员。十年互联网行业研发经验,2015年加入哈啰出行,参与哈啰业务系统从0到1的建设,作为核心Owner主导多个重点稳定性保障项目,在高可用架构、技术风险等领域有丰富经验。目前主要牵头哈啰稳定性保障体系化建设,通过...

一分钟精华速览 容量保障的目标是保证服务在大量用户访问时,依然可以正常为用户提供服务。比如,在“双11”购物节的超高访问量下,各电商系统依然能够稳定地运行,可以说容量保障是所有技术人都应当具备的技能。 知名技术博主老张结合其在电商行业多年的容量保障经验,系统梳理了一套容量保障方法,分享了如何根据业务场景制定容量保障的目标,以及如何从点到面系统地落实容量保障工作。 作者介绍 前得物稳定性测试团队Leader张维功TakinTalks社区专家团成员,网络ID老张,前得物稳定性测试团队Leader,资深测试专家。在全链路压测和稳定性保障领域具有丰富的实践经验。技术专栏超过500w阅读量,在电商零售行...

  n8YJ0FlhOMCC   2023年11月01日   20   0   0 软件测试

引言 保险业务的数字化转型正如火如荼地进行,产品线上化、投保线上化、承保线上化、核保线上化等业务转型,导致系统的应用范围不断扩大,用户的高频访问也正在成为常态。同时,系统复杂性也呈指数上升,这些因素都增加了系统的稳定性风险。 中国人寿将无侵入在线压测作为防御稳定性风险的重要手段,作为保险行业首家落地生产全链路压测的企业,其实践经验具有相当的借鉴意义。 作者介绍 中国人寿寿险研发中心高级工程师熊军军 TakinTalks稳定性社区专家团成员,毕业于中国科学院自动化所,就职于中国人寿保险股份有限公司研发中心,先后从事产品研发、架构设计、质量管理工作,熟悉保险销售管理及销售支持业务,具备数据治理和...

  n8YJ0FlhOMCC   2023年11月01日   20   0   0 软件测试

一分钟精华速览 可观测能力是指在复杂的软件系统中能及时、准确感知到服务状态,特别是异常或故障的发生,确定异常的影响范围、异常部位边界、判定异常点位、并由相关人员或软件做出准确决策的能力。本文作者结合虎牙SRE实践及20余年架构、研发、运维经验,重点讲述如何设计和建设观测能力,做到分钟级感知故障、定位和快恢。 作者介绍 《SRE原理与实践》作者张观石TakinTalks稳定性社区专家团成员,前虎牙SRE负责人,资深运维专家和架构师,拥有20年软件开发、架构、运维、SRE经验。历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。熟悉基于微服务架构的直播业务、音...

  n8YJ0FlhOMCC   2023年11月01日   34   0   0 软件测试

一分钟精华速览 聊稳定性治理的文章很多,但面对系统的“各类疾病”,到底该从哪里着手才能立竿见影,怎么才能“药到病除”?相信在看这个问题时,大家会抱着“能不能学两招回去用”的心态阅读。「TakinTalks论道系列」第3期,我们采访了4位资深从业人员,分别从CTO、稳定性负责人、SRE架构师、研发工程师等不同视角,去了解大家经验里比较好用、能够落实的“独门秘籍”。 温馨提醒:本文约4000字,预计花费7分钟阅读;后台回复“交流”进入读者交流群。 去哪儿网朱仕智 高级技术总监 稳定性治理,有哪些非常有效的大招? 全链路压测、混沌工程、质量左移是主动预防风险最有效的三个手段 去哪儿网整个稳定性相关的...

  n8YJ0FlhOMCC   2023年11月01日   22   0   0 软件测试

一分钟精华速览 当成千上万的服务器都处于低利用率时,就意味着巨额的浪费,良好的容量管理可以帮助消除某些“最后时刻”的临时应急式的盲目或者超量采购。除了成本合理控制方面,容量管理还要预估对客户可能产生影响的业务发展和风险变化。 B站在降本增效大背景下,从业务视角对整体容量做了可视化管理,本文详细描述了其容量管理的背景、思路及成效。 作者介绍哔哩哔哩资深SRE专家张鹤 TakinTalks社区专家团成员,2020年加入B站,先后负责主站/直播/OGV/推广搜相关的SRE工作。深度参与多活、活动保障、混沌工程、容量治理相关的建设,并主导容量管理平台、混沌平台的架构设计和落地。曾负责B站S赛、跨年晚会...

  n8YJ0FlhOMCC   2023年11月01日   15   0   0 软件测试

一分钟精华速览 首刊限版400本,没有电子版下载。100本作为社区福利,免费领取,领完即止!不加印。 为什么会有这本刊物? TakinTalks社区是由业内专家共同发起的、专注业务稳定性提升的技术交流平台。面向技术管理者和一线从业者,定期探讨行业前沿的技术,分享最新的、可参考的、可落地的实战经验。 我们主张技术人要关注技术,更要关注技术和代码带来的业务价值。正是由于业务的某些强烈需求,才推动技术的发展与落地,所以业务连续性应是所有技术团队都应该关注的共同目标。本刊正是在这个大前提下策划完成。社区联合了多家头部企业的技术团队,从业务视角去审视技术的落地效果,也从各种不同的技术角色视角,去看技术...

  n8YJ0FlhOMCC   2023年11月01日   32   0   0 软件测试

一分钟精华速览 在典型的分布式系统中,用户的一个请求到达组合的前端服务后,前端服务会分发请求到内部的各个服务,每次调用都涉及跨系统的一次请求和一次响应。在有大规模、高并发请求量的系统中,如何标识这些请求及存储这些调用信息,并形成调用链?如果系统的某两个服务间出了问题,又如何为业务方提供可视化的展现形式以快速排障? 本文总结了微盟支持千亿级规模的调用链实践,详解平台的建设目标、设计思路和落地效果。 作者介绍 微盟APM团队负责人——向明亨 TakinTalks稳定性社区专家团成员。2017年加入微盟,目前负责公司APM体系建设,包含APM体系从规范到实施,推动APM体系在公司的落地,主导了微...

  n8YJ0FlhOMCC   2023年11月01日   39   0   0 软件测试

一分钟精华速览 全链路灰度发布是指在微服务体系架构中,应用的新、旧版本间平滑过渡的一种发布方式。由于微服务之间依赖关系错综复杂,一次发布可能会涉及多个服务升级,所以在发布前进行小规模的生产环境验证,让新版本的应用实例来承接、处理限定规模或范围的业务流量,能最大限度控制发布上线风险,保证业务连续性。本文详细解读微盟全链路灰度平台实践难点、解决思路及使用场景,还原其服务百万商家客户的全过程。 作者介绍 微盟基础架构团队技术专家——戴明智TakinTalks社区专家团成员,SpringFramework、ApacheSkywalking社区Contributor,个人博客阅读量100w+。2019...

  n8YJ0FlhOMCC   2023年11月01日   29   0   0 软件测试

一分钟精华速览 越来越多企业正在通过故障注入和演练的方式提升系统可靠性,这其中金融行业的应用较为特殊。一方面其可靠性要求比非涉账类系统更高;另一方面金融行业有更加严格的监管要求,如客户、账目等信息都有严格约束。加之金融系统较其他行业系统更加庞大、繁杂,所以金融行业落地混沌工程和故障演练等工作需尤为谨慎、严谨。 本文介绍了中国人寿故障演练的项目背景、目标思路、技术方案等,分享其在预知故障和降低不确定性风险方面的实践成效。 作者介绍 中国人寿研发中心高级工程师——刘玢 TakinTalks社区专家团成员。拥有多年开发和运维经验,专注高可用领域,目前负责中国人寿混沌工程等多项高可用举措的规划和落地实...

  n8YJ0FlhOMCC   2023年11月01日   51   0   0 软件测试
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~