监控的4个黄金指标 《SRE:Google运维解密》中提出,监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)。 延迟:服务处理某个请求所需要的时间。在微服务中通常提倡快速失败,服务不要憋着,这些延迟请求要尽快反馈给开发人员分析,这些缓慢的错误会消耗系统性能,所以需要对这些错误延迟进行长期跟踪处理。 流量:当前系统的数据流入流出的数据统计,用来衡量服务的承载能力,不同系统的流量有不同的含义,比如对web服务来说,流量指每秒的HTTP请求数。 错误:当前系统发生错误请求的数量,一般单纯看数量不太直观,经常会对错误进行计...

  KIfi0sjTTlXF   2023年11月19日   20   0   0 运维

为了量化客户对服务可靠性的期望,找到客户对可靠性满意的点,我们需要制定针对用户的服务质量目标,并且努力去达到这个质量目标。在这个过程中,我们需要定义一些服务质量指标(SLI)、服务质量目标(SLO),以及服务质量协议(SLA)。这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不符合预期时的应对计划。 一、服务质量术语:SLI、SLO、SLA 指标 服务质量指标(SLI):服务的某项服务质量的一个具体量化指标。常见的SLI包括请求延迟(处理请求所消耗的时)、错误率(请求处理失败的百分比)、系统吞吐量(每秒请求数量)、可用性(服务可用时间的百分比,运维行业经常用9的数量来描述...

  KIfi0sjTTlXF   2023年11月02日   51   0   0 SRE

我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务。所以,SRE要把更多的时间花费在长期项目研发上而非日常运维中的琐事。 一、什么是琐事 琐事就是运维服务中手动性的,重复性的,可以被自动化的,战术性的,没有持久价值的工作。而且,琐事与服务呈线性关系的增长。琐事具有以下特点: 手动性:例如收到磁盘目录满告警,运维人员手动清理日志。 重复性:如果某件事是第一次做,甚至第二次做,都不算琐事。琐事就是不停反复做的工作,如果你正在解决一个新出现的问题或者寻求一种新的解决办法,不算琐事。清理磁盘目录不太可能是一次性的,因此我们需要反复...

  KIfi0sjTTlXF   2023年11月02日   37   0   0 运维

故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。 一、故障复盘目的 通过复盘总结教训,找到根因,从根本上进行优化和改进,后期工作中规避问题再发生。 有策略的、系统性的去组织复盘踩过的坑,还原事实,找到薄弱点加以改进。 最终目的是鼓励做事,而不是处罚失败。 二、故障复盘原则 鼓励做事和质量改进,反对推诿扯皮不作为;鼓励公开透明,反对掩盖问题;鼓励整体的系统思考和团队协同,反对把问题推给个人。 明确宗旨,拒绝甩锅:故障复盘的目的是为了找...

  KIfi0sjTTlXF   2023年11月02日   51   0   0 故障复盘

API安全的重要性 近几年,越来越多的企业开始数字化转型之路。数字化转型的核心是将企业的服务、资产和能力打包成服务(服务的形式通常为API,API又称接口,下文中提到的API和接口意思相同),从而让资源之间形成更强的连接和互动关系,释放原有资产的价值,提升企业的服务能力。企业数字化转型使得基于API的业务系统剧增,随之而来带来的安全问题也日渐凸显。 API安全事件频发,技术能力领先的头部企业也屡遭数据泄露。2020年3月19日,有用户在暗网上发现微博的5.38亿用户信息在暗网出售,其中1.72亿条有账户基本信息,原因就是来自于终端APP的业务逻辑API被非法流量调用超过40亿次而导致。 AP...

  KIfi0sjTTlXF   2023年11月02日   28   0   0 API
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~