阿里核弹级事故,全系产品都崩了...完整事件回顾
  jnyjONGydcL2 2023年12月06日 19 0


怪事年年有,今年特别多。
这一次可以说是真的活久见了,强如阿里也会全线崩溃。
早在10月23号这天,阿里旗下的语雀便遭遇了一场前所未有的P0级事故。
客户端,网站,移动端都无法正常访问和使用,持续了近8个小时。
由于当天又是周一,所以受影响的用户非常多,致使很多打工人在微博上怨声载道。

正当大家以为这起事故已经称得上是“年度大事件”的时候,11月12日——这个电商公布双十一战绩的关键节点,阿里再度被打脸。
当天下午五点多起,阿里旗下产品的大量用户开始反馈无法使用等问题。
很快,淘宝崩了、闲鱼崩了、钉钉崩了......一系列铺天盖地的信息冲上了热搜。

由于问题出在了阿里云上,所有阿里系的应用基本上都部署在自家的阿里云上。
而阿里云这个类似于高速公路一样的基础设施塌了后,公路上的车辆自然都无法通行。
据网友实测,本次故障范围覆盖了一系列阿里系应用,包括饿了么、高德地图,甚至支付宝的多活机房都满载了。
其中钉钉等应用直接无法打开,淘宝、天猫、闲鱼等则是交易系统故障。
不仅阿里自家产品受影响,据天眼查数据,阿里云的企业用户超过300万家。
这些客户因为云服务不可用,业务运营也可能全面瘫痪。
很多用了阿里云或者阿里云服务的产品也没能逃过一劫,比如CSDN和博客园。

这一次的故障,也让不少网友感慨称,原来阿里系的产品已经与我们的生活息息相关。
据反馈,在故障的影响下,甚至有一些停车场都无法顺利抬杆,还有一些超市无法结账。
大到公司业务停摆,小到烘干机和智能音箱都用不了。


因为前一天正是双十一,有不少人推测,服务器故障或是受到其影响。
也有网友调侃称,这是“双十一期间开屏跳转广告”和“降本增效”带来的后遗症。


愿意除了以上还有几条:
技术层面的原因,有网络文章分析是AUTH授权的问题,晚上加班太多不小心新手上上去了,AUTH这种公共模块问题倒是有可能,但是未经过充分测试就上线怕是和新手关系不大 ,更大的是流程特别是测试流程,关键模块的自动化测试用例,守住关键流程的岗位人的安排,所以引申出其背后真正的问题,关键节点用人不对或用人对了,把人给用伤心了开始马虎了,大多数企业都存在类似的问题,往往声色俱厉的惩罚实施的程序员或者研发负责人,实际更多的是公司的价值观导向和用人、流程的问题,才是真相
比如成都有个公司是阿里云的“大客户”,阿里云有个销售特别好,做的工作也特别细,负责架构服务的架构师也特别好,也就是说大多数普通打工人其实都不错,都用力气干活儿,但那个“大客户”业务对接人带着博士的头衔经常装成一副懂技术的样子的PPT决策胡乱大师,久而久之,阿里云的小伙子实在忍不住了,偷偷吐槽了一下那位大师一看就不是搞技术的的话痨大师而已,还是偷偷的,很快那位工程师就离职了,至于是离职还是被离职就不得而知了,大多数善良的程序员在金钱面前只是被利益关联者蝼蚁般揉腻,利用,认清事实,不可侥幸,才能更好的在职场生涯中如鱼得水
受影响地域也涵盖甚广,包括阿里云位于中国内地、港澳台、亚洲其他、欧洲、北美、中东、政务云以及金融云等数据中心均受影响。
从阿里云官网得知,这次受到影响的产品包括:企业级分布式应用服务、消息队列 MQ、微服务引擎、链路追踪、应用高可用服务、应用实时监控服务、Prometheus监控服务、消息服务、消息队列Kafka版、机器学习、图像搜索、智能推荐 AIRec、智能开放搜索 OpenSearch、云行情、数据总线 DataHub、检索分析服务 Elasticsearch版、图计算服务 Graph Compute、实时计算 Flink版、智能数据建设与治理 Dataphin、开源大数据平台 E-MapReduce、云原生大数据计算服务 MaxCompute、实时数仓 Hologres、大数据开发治理平台 DataWorks、智能媒体服务、媒体处理、视频点播、对象存储、文件存储NAS、表格存储、日志服务、云存储网关、文件存储 HDFS 版、块存储、混合云备份服务、密钥管理服务、云防火墙、数据库审计、加密服务、运维安全中心(堡垒机)、容器镜像服务、容器服务Kubernetes版、API 网关、资源编排、云原生数据仓库 AnalyticDB PostgreSQL版、图数据库、云原生内存数据库Tair、云数据库 Redis 版、云原生关系型数据库 PolarDB、云数据库专属集群、云数据库 MySQL 版、云原生数据仓库AnalyticDB MySQL版、云原生分布式数据库 PolarDB-X、云数据库 ClickHouse、云原生多模数据库Lindorm、云数据库 PostgreSQL 版、云数据库 SQL Server 版、云数据库 MongoDB 版、云数据库HBase版、数据传输、数据库自治服务、数据库备份、物联网平台、NAT网关、负载均衡、云解析 PrivateZone、弹性公网IP、共享带宽、转发路由器、私网连接、高速通道、IPv6 网关、专有网络VPC、云企业网、VPN网关、FPGA 云服务器、超级计算集群、批量计算、无影云桌面、弹性伸缩、弹性容器实例、弹性裸金属服务器、云服务器 ECS、轻量应用服务器、函数计算、Serverless 应用引擎、云托付、专有宿主机、GPU云服务器、弹性高性能计算、操作审计、服务器迁移中心、运维编排、智能计算灵骏、云呼叫中心、交通云控平台、客服工作台、视觉智能开放平台、智能外呼机器人、智能语音交互、智能对话机器人、智能用户增长、运维事件中心、新零售智能助理、智能双录质检、地址标准化、机器翻译、自然语言处理、短信服务、云解析DNS、域名、号码认证服务、邮件推送、版权与专利服务、语音服务、智能联络中心、工商财税、Salesforce on Alibaba Cloud、智能营销引擎、云采销、能耗宝、阿里邮箱、商标服务、移动研发平台、机器人流程自动化、号码隐私保护、DataV数据可视化、音视频通信、视频直播、闪电立方、网盘与相册服务、安全、内容安全、安全管家、应用身份服务 (IDaaS)、实人认证、数字证书管理服务(原SSL证书)、风险识别、Web应用防火墙、云安全中心(态势感知)、数据管理、云价签、云投屏、物联网智能视频服务、物联网无线连接服务、CDN、云数据传输、数据语音、智能接入网关、全站加速、ChatAPP 消息、全球加速、安全加速 SCDN、边缘节点服务 ENS、访问控制、资源管理、云监控、配置审计。
受到影响的地区包括:华北2(北京)、华北6(乌兰察布)、华北1(青岛)、华东2(上海)、华南2(河源)、华北3(张家口)、中国香港、印度(孟买)、美国(硅谷)、华南1(深圳)、英国(伦敦)、韩国(首尔)、日本(东京)、阿联酋(迪拜)、西南1(成都)、华南3(广州)、新加坡、澳大利亚(悉尼)、马来西亚(吉隆坡)、华北5(呼和浩特)、印度尼西亚(雅加达)、美国(弗吉尼亚)、菲律宾(马尼拉)、泰国(曼谷)、华东1(杭州)、华南1 金融云、华东5(南京-本地地域)、华东6(福州-本地地域)、华北2 金融云(邀测)、华东2 金融云、华东1 金融云、华北2 阿里政务云1、非区域性、德国(法兰克福)、沙特(利雅得-合作伙伴运营)。
总之,本次阿里云出事波及之大,已属于全球性大故障,在阿里系历史上实属罕见。
当天18 点 14 分,阿里云官方终于回应了:

尊敬的客户:您好!
北京时间 2023 年 11 月 12 日 17:44 起,阿里云监控发现云产品控制台访问及 API 调用出现异常,阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。

根据阿里云团队公布的整个修复过程,从17:44发现问题,一直到21:11,历时将近3个半小时才基本恢复。
这次应该是阿里云 OSS 的故障,使用阿里云 OSS 的公司这次都受到了影响。这种情况下,用户的自救可能性为零,只能等待阿里云恢复。

阿里云此次核弹级别的重大事故,也再次暴露了云计算服务的脆弱性。
云计算服务的确是一种高可靠、高可用、弹性伸缩的服务,但也存在故障的风险。
这次还只是部分地域控制台服务受影响,那下一次呢?
在日益复杂的互联网环境下,阿里的技术保障能否真正应对挑战?
阿里作为互联网巨头,其崩溃影响之大,背后暴露出的问题同样惊人。
还希望包括阿里在内的各大互联网公司能吸取各种教训,加强技术和服务的改进,以免再度发生类似的事情带来巨大损失。
当然,最苦逼的还是阿里打工的程序员,估计今年年终奖金也难了......
另外,阿里云相关负责人的绩效怕是不保了,说好的“稳定可靠”呢?

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月06日 0

暂无评论

推荐阅读
jnyjONGydcL2
最新推荐 更多

2024-05-17