11月12日晚间阿里云发生故障。“阿里云盘崩了”“淘宝又崩了”“闲鱼崩了”“钉钉崩了”等话题相继登上热搜,阿里系诸多产品受到影响。 阿里云对此公告称,2023年11月12日17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。18:54阿里云再度公告,经过工程师处理,杭州、北京等地域控制台已恢复,其他地域控制台服务逐步恢复中。 这次故障使大部分阿里系产品受到影响,包括:淘宝、阿里云、钉钉、语雀、闲鱼、阿里云盘…… 从17:44分开始, 截至晚上21:11分才完全恢复。 据悉,此次受影响产品包括企业级分布式应用服务、消息...

  8NpFq6F8GNVm   2023年11月19日   16   0   0 云服务运维

过线上MySQL维护经验的童鞋都知道,主从延迟往往是一个让人头疼不已的问题。 不仅仅是其造成的潜在问题比较严重,而且主从延迟原因的定位尤其考量DBA的综合能力:既要熟悉复制的内部原理,又能解读主机层面的资源使用情况,甚至还要会分析binlog。 导致主从延迟的一个常见原因是,对于binlog中的事务,从库上只有一个SQL线程进行重放,而这些事务在主库中是并发写入的。 就好比你多个人(多线程)挖坑,我一个人(单线程)来填,本来就双拳难敌四手,在你挖坑速度不快的情况下,我尚能应付。一旦你稍微加速,我则力有不逮,只能眼睁睁地看着你挖的坑越来越深。 具体在MySQL中,则意味着Seconds_Be...

  8NpFq6F8GNVm   2023年11月19日   13   0   0 sedmysql并行执行

一、云计算正在杀死运维吗? 随着云计算的发展,企业上云已经成为一种趋势。企业上云的初衷是把复杂的IT基础设施交给云平台去管理,企业可以专注于业务与应用、从而降低企业IT运营成本,提高IT部门工作效率。 因此有人会误以为,业务上云以后,运维就和企业没有关系了,只要业务系统可用就完事大吉了。然而实践并不如想的那么简单,而是给运维人员新的责任和机会,云平台的管理和运维依然需要专业人员进行监控,维护和故障排查,在云环境下配置和管理各种服务,并进行性能优化和安全管理。此外,随着企业越来越多地采用混合云和多云架构,运维人员需要具备跨云平台和多厂商的技术能力,熟悉各种云服务的特性和最佳实践。 传统的运维...

  8NpFq6F8GNVm   2023年11月19日   17   0   0 云服务云计算运维

随着信息技术的飞速发展,企业对于IT系统的依赖程度日益加深。为保障IT系统的稳定运行,越来越多的企业选择智能运维管理软件,以全面高效的监控和管理系统和资产情况。 一、运维监控平台的重要性 无监控,不运维。将资产并入监控系统,对每个资源节点的状态、性能进行实时监控。展示系统运行状态,高效应对规模庞大的基础设施,网络设备、服务器、存储、应用等,以业务视角监控系统健康度,系统视图展示各个资产运行的状态,业务拓扑图、告警列表趋势等。预先发现漏洞,防患于未然;事后控制不如事中控制,事中控制不如事前控制 LinkSLA智能运维监控平台,集中统一实现IT软硬件、机房动环的自动采集、监测、巡检、告警及展现。 ...

  8NpFq6F8GNVm   2023年11月19日   13   0   0 IT运维实时监控

线上故障主要会包括cpu、磁盘、内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍。同时例如jstack、jmap等工具也是不囿于一个方面的问题的,基本上出问题就是df、free、top三连,然后依次jstack、jmap伺候,具体问题具体分析即可。 CPU 一般来讲我们首先会排查cpu方面的问题。cpu异常往往还是比较好定位的。原因包括业务逻辑问题(死循环)、频繁gc以及上下文切换过多。而最常见的往往是业务逻辑(或者框架逻辑)导致的,可以使用jstack来分析对应的堆栈情况。 使用jstack分析cpu问题 我们先用ps命令找到对应...

  8NpFq6F8GNVm   2023年11月19日   18   0   0 TCP客户端服务端

在如今快节奏的技术领域,容器编排平台Kubernetes(简称K8s)以其强大的功能和灵活性,成为了现代应用开发和部署的重要工具。然而,对于刚刚接触K8s的新手而言,手动编写K8s的YAML配置文件可能会是一件令人望而却步的挑战。 毕竟,这些配置文件包含了许多复杂的对象和属性,光是理解Pod对象的各个字段、它们的含义以及可接受的值就可能让人头疼不已。如果你也曾为此烦恼,不妨阅读本篇文章,相信你会从中获得提升,功力大增。尽管本文内容以基础为主,但其中的实用技巧可能会让你豁然开朗,哪怕是已经入门的小白同学也未必知晓。 三把利剑:help、dry-run、explain 尽管手写K8s的YAML配置...

  8NpFq6F8GNVm   2023年11月13日   13   0   0 Pod配置文件YAML

1常用的Load分析方法 CPU高、Load高 通过 top 命令查找占用CPU最高的进程PID; 通过top-HpPID查找占用CPU最高的线程TID; 对于java程序,使用jstack打印线程堆栈信息; 通过printf%xtid打印出最消耗CPU线程的十六进制; CPU低、Load高 产生的原因一句话总结就是:等待磁盘I/O完成的进程过多,导致进程队列长度过大,但是CPU运行的进程却很少,这样就体现到负载过大了,cpu使用率低。 通过top命令查看CPU等待IO时间,即%wa; 通过iostat-d-x-m110查看磁盘IO情况;(安装命令 yumi...

  8NpFq6F8GNVm   2023年11月13日   18   0   0 sedmysql数据

日志是处理生产故障、性能优化、业务分析的重要参考依据,是系统稳定运行不可或缺的一部分。随着业务系统规模急剧膨胀增大,尤其是是微服务架构逐渐普及,一个系统可能涉及多个应用模块与服务实例,传统模式下运维人员去定位问题显得异常困难,效率低下。 当服务器资源增加时,各种类型的系统日志、业务日志、组件日志、容器日志等散落在不同设备上,故障排查异常艰难,因此构建高效且统一的日志中心能力尤为必要。本文主要研究基于ELK架构实时日志分析平台。 1、架构设计 ELK是三个组件缩写,分别表示Elasticsearch,Logstash,Kibana。Elasticsearch是个开源分布式搜索引擎,提供搜集、分析...

  8NpFq6F8GNVm   2023年11月13日   14   0   0 Elastic数据日志采集

“相比较系统上线之前,事故降低了80%,我们运维工程师时间节约40%! ” “监控系统如果没有工单服务台,发现问题,没有解决问题方案,也没闭环的服务流程,那事实上没有起到啥作用,LinkSLA提出的主动式运服务,最为打动我,事实上,效果真的非常不错。” 信息部门人力缺乏,往往是一个萝卜多个坑,无法做到主动预防,只能被动硬撑,工作量大且效果不佳。信息部门往往是出力不讨好的那种,所以沈工特别需要一个“管家式”助手。恰好LinkSLA的服务方案能满足企业需求。 1、全链路资产管理; 2、提供58及节假日值守服务; 3、SLA服务协议,按照资产的重要程度和告警级别主动生成不同级别的工单,确保...

  8NpFq6F8GNVm   2023年11月13日   16   0   0 IT运维解决方案

需求 在运维工作中随着我们积累的经验不断增多,不知你是否遇到过以下几个场景: Linux如何快速删除大量文件? Vsphere如何在不重启的情况下识别新添加的iscsi硬盘? Linux中rm命令如何做到防误删? 不同Linux服务器之间如何实现快速挂载? Linux中如何将用户快速添加到附属组? 细心的人往往会通过自己特有的方式来快速处理,不禁让人拍手叫绝。 下面我就来具体介绍下我的处理方式吧。 1.Linux如何快速删除大量文件? 在Linux中对于删除大量小文件或删除大文件,我们一般会通过rm命令直接删除,这时你就很有可能会遇到以下问题: rm删除过程耗时很长,效率低下; rm删除...

  8NpFq6F8GNVm   2023年11月13日   13   0   0 文件系统重启误删

Redis简介 Redis是C语言开发的一个开源高性能键值对的内存数据库,可以用来做数据库、缓存、消息中间件等场景,是一种NoSQL(not-onlysql,非关系型数据库)的数据库。 Redis特点 优秀的性能,数据是存储在内存中,读写速度非常快,可支持并发10WQPS。 单线程单进程,是线程安全的,采用IO多路复用 可作为分布式锁 支持十种数据类型 支持数据持久化 可以作为消息中间件使用,支持消息发布及订阅。 数据类型 下表是我列举的常用五种数据类型的特性及其使用场景: 缓存 数据缓存是Redis最重要的一个场景,为缓存而生,在springboot中,一般有两种使用方式: 直接...

  8NpFq6F8GNVm   2023年11月13日   16   0   0 缓存数据库redis

【摘要】本文介绍了Redis缓存原理、详细解析了缓存模型、缓存一致性和缓存异常场景。 【作者】李杰,专注于Java虚拟机技术、云原生技术领域的探索与研究。 尽管(关系型)数据库系统(SQL)带来了许多出色的属性,例如ACID,但为了保持这些属性,数据库的性能在“3高”条件环境下下往往显得捉襟见肘、苍白无力。 为了解决这个问题,我们往往需要在应用层(即处理业务逻辑的后端代码)和存储层(即SQL数据库)之间增加一个缓存层。该缓存层通常使用内存缓存来实现,毕竟,传统SQL数据库的性能瓶颈通常发生在二级存储(即硬盘)的I/O层面。随着主内存(RAM)的价格在过去十年中下降,故将(至少部分)数据存储在主...

  8NpFq6F8GNVm   2023年11月13日   18   0   0 缓存数据库redis

文章列举了几个Nginx常见的,实用的,有趣的配置,希望看过之后能说一句:学到了! 一个站点配置多个域名 server{ listen80; server_nameops-coffee.cnb.ops-coffee.cn; } server_name 后跟多个域名即可,多个域名之间用空格分隔。 一个服务配置多个站点 server{ listen80; server_namea.ops-coffee.cn; location/{ root/home/project/pa; indexindex.html; } } server{ listen80; server_...

  8NpFq6F8GNVm   2023年11月13日   11   0   0 nginxtomcat虚拟主机

【摘要】Linux如何删除大量小文件?本文介绍了两种方法。 【作者】赵靖宇 环境: RHEL6.5+Oracle11.2.0.4 需求: 使用df-i巡检发现Inodes使用率过高,需要清理删除文件来解决。如果Inodes满,该目录将不能写,即使df-h查看还有剩余空间。 1.问题现象 Oracle的adump下记录的是sys的登陆审计信息,特点是小碎文件非常多,经常会遇到使用rm-rf命令删除不了,报错-bash:/bin/rm:Argumentlisttoolong。 这是因为通配符在执行时会替换为具体的文件名,例如rm-rffile1file2file3...,如果文件数量过多,就容易出...

  8NpFq6F8GNVm   2023年11月13日   16   0   0 oraclesedlinux

一、Kafka基础 消息系统的作用 应该大部份小伙伴都清楚,用机油装箱举个例子 所以消息系统就是如上图我们所说的仓库,能在中间过程作为缓存,并且实现解耦合的作用。 引入一个场景,我们知道中国移动,中国联通,中国电信的日志处理,是交给外包去做大数据分析的,假设现在它们的日志都交给了你做的系统去做用户画像分析。 按照刚刚前面提到的消息系统的作用,我们知道了消息系统其实就是一个模拟缓存,且仅仅是起到了缓存的作用而并不是真正的缓存,数据仍然是存储在磁盘上面而不是内存。 1.Topic主题 kafka学习了数据库里面的设计,在里面设计了topic(主题),这个东西类似于关系型数据库的表。 ...

  8NpFq6F8GNVm   2023年11月13日   18   0   0 服务器kafka数据

运维监控工具千千万,仅开源的解决方案就有流量监控(MRTG、Cacti、SmokePing、Graphite等)和性能告警(Nagios、Zabbix、ZenossCore、Ganglia、OpenTSDB等)可供选择。 并且每种软件都有自己的特点和功能,各自的侧重点和目标不完全相同,在设计理念和实现方法上也大同小异,但都具有共同特征。例如,采集数据、分析展示、告警以及简单的故障自动处理。最终都能达到对IT系统服务可用性的一个完全展示。 下面我们将针对目前行业内常用的五种监控工具(Cacti、Nagios、Zabbix、Grafana、Prometheus、Nightingale、OpenFa...

  8NpFq6F8GNVm   2023年11月13日   13   0   0 ios数据运维

一、问题出发点 Jun110:30:21audit1kernel:swapper:pageallocationfailure.order:1,mode:0x20 Jun110:30:21audit1kernel:Pid:0,comm:swapperTainted:G--------------T2.6.32-431.20.3.el6.x86_641 Jun110:30:21audit1kernel:CallTrace: Jun110:30:21audit1kernel:<IRQ>[<ffffffff8112f80a>]?__alloc_pages_nodemask+0...

  8NpFq6F8GNVm   2023年11月05日   32   0   0 虚拟内存脏数据物理内存

导读 作为一个合格的DBA,在遇到线上单表数据量超过千万级别的时候,往往会建议用户通过分表来缩减单表数据量,当用户问为什么单表数据量不能超过千万时,DBA往往会说:单表数据量超过千万,会影响查询性能。 知其然而不知所以然,学习技术不能停留在表面,而是要进一步去深入挖掘其中的原理,这样才能不断进步和成长。回到这个问题:为什么单表数据量不能超过两千万,其中的依据是什么?欢迎阅读。 事情是这样的: 小王最近参加了腾讯的技术面试,面试官向他提了一个经典的面试问题:聊聊你日常项目里的分库分表实践? 于是小王以过往项目里的某个case为例做了回答: 我负责的项目里涉及到存储用户操作记录的功能,因为每...

  8NpFq6F8GNVm   2023年11月05日   35   0   0 子节点数据主键
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~