运维
存储数据恢复 标签描述

Ceph存储基本架构: Ceph存储可分为块存储,对象存储和文件存储。Ceph基于对象存储,对外提供三种存储接口,故称为统一存储。 Ceph的底层是RADOS(分布式对象存储系统),RADOS由两部分组成:OSD和MON。 MON负责监控整个集群,维护集群的健康状态,维护展示集群状态的各种图表,如OSDMap、MonitorMap、PGMap和CRUSHMap。 OSD负责存储数据、复制数据、平衡数据、恢复数据,与其它OSD间进行心跳检查等。通常情况下一块硬盘对应一个OSD。 Ceph数据的存储过程: 无论使用哪种存储方式(对象、块、文件),存储的数据都会被切分成对象(Objects)。 ...

XSAN数据恢复环境: 昆腾存储,MACOS操作系统,存放视频类数据(MXF、MOV等格式文件)。 XSAN故障&检测: 将存储空间从XSAN架构迁移到STORNEXT架构后,存储空间中数据全部丢失。  故障存储中一共有9个数据卷:1个META信息卷+8个DATA信息卷。北亚企安数据恢复工程师分析META信息卷&读取其中的元信息,初步判断数据丢失的原因是在迁移存储空间的时候,工作人员误将整个存储系统格式化,导致全部数据丢失。 XSAN数据恢复过程: 1、将故障存储中所有数据以只读方式进行镜像备份,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始数据造成二...

服务器数据恢复环境: 某单位有一台HPEVA存储,连接2组扩展柜,扩展柜中有12块FATA磁盘和10块FC磁盘,不确定数量的LUN,主机安装WINDOWSSERVER操作系统,存储设备用来存放该单位的重要资料。 服务器故障初检: 存储不可用。因故障存储在多家数据恢复服务商处理过,所以在暂时无法直接定位故障原因。 将EVA主机及扩展柜关机,将所有硬盘标好位置序号后取出。将所有磁盘连接到北亚企安数据恢复平台上。磁盘连接如下图: 进入系统后用工具查看磁盘情况,所有磁盘均可正常识别。 查看每个磁盘信息,发现FC磁盘PVHEAD还在,而在FATA磁盘上没有找到PVHEAD。查看FC磁盘中存储的...

EVA存储原理: EVA系列存储是以虚拟化存储为实现目的的中高端存储设备,内部的结构组成完全不同于其他的存储设备,RAID在EVA内部称之为VRAID。 EVA会在每个物理磁盘(PV)的0扇区写入签名,签名后PV会被分配到不同的DISKGROUP。在DISKGROUP中每个PV会按一定大小划分为若干存储单元(PP),PP的大小为2的整数次幂,大小在2-16M之间。 每个PV中有有限数量的PP,这些PP组成了DISKGROUP的可用空间。每5-15个PV组成一组RSS,每个RSS相当于一个常规RAID的冗余组,但这个冗余组不等同于常规RAID。与常规RAID相似的是,常规RAID是以磁盘为单位的...

服务器数据恢复环境: P740+AIX+Sybase+V7000存储,存储阵列柜上共12块SAS机械硬盘(其中一块为热备盘)。 服务器故障: 存储阵列柜中有磁盘出现故障,工作人员发现后更换磁盘,新更换的磁盘数据同步到40%左右时,阵列柜中的另一块磁盘也出现问题,数据同步中断,逻辑盘无法挂接到小型机上,业务中断。存储的管理界面显示2块硬盘故障脱机。 阵列柜中的磁盘共组建了2组Mdisk,加到一个pool中。现在主要数据pool无法加载,有3个通用卷无法挂载。 服务器数据恢复过程: 1、将故障存储中所有磁盘编号后取出,以只读方式给正常的磁盘做全盘镜像。针对故障硬盘,使用专业工具处理后做全盘镜像...

服务器存储数据恢复环境: EMC某型号存储,8块组建一组raid5磁盘阵列。上层操作系统采用zfs文件系统。 服务器存储故障&分析: raid5阵列中有2块硬盘未知原因离线,raid5阵列崩溃,上层应用无法正常使用。 服务器数据恢复过程: 1、将故障服务器存储内的所有硬盘编号后取出,由硬件工程师检测所有磁盘是否存在硬件故障,经过检测没有发现有硬盘(包括两块掉线硬盘)存在物理故障。将所有磁盘以只读方式进行扇区级别的全盘镜像,镜像完成后将所有磁盘按照编号还原到原存储中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。 2、基于镜像文件分析底层数据,通过计...

服务器数据恢复环境: 某公司的光纤SAN存储系统,6块硬盘组建一组RAID6,划分若干LUN,MAP到不同的SOLARIS操作系统服务器上。 服务器故障&分析: 由于业务增长需要新增应用,工作人员增加了一台IBM服务器,在SAN还在线的状态下将存储中的某个LUN映射到新增加的那台IBM服务器上。工作人员在进行操作之前不知道这个映射的卷之前已经MAP到SOLARIS操作系统上的某个LUN上了。当工作人员发现到这个问题后,LUN已经进行了部分的初始化,SOLARIS操作系统中的磁盘报错,重启存储后发现卷无法挂载。 联系原厂工程师进行检测后,执行fsck,完成操作后文件系统可成功挂载,但发...

服务器数据恢复环境: IBMP740小型机+AIX操作系统+Sybase数据库+V7000存储。V7000存储配置了12块SAS机械硬盘(其中一块为热备盘)组建一组raid5磁盘阵列。存储设备一共创建了2组Mdisk,加到一个pool中。 服务器故障: IBMV7000存储中的磁盘发生故障,工作人员更换磁盘后并进行数据同步,同步没有完成时候存储中的另块磁盘出现故障,导致逻辑盘无法挂接在小型机上,业务中断。通过存储设备的管理界面看到有2块磁盘显示故障脱机,其中10号位的故障盘为热备盘,3号位的故障硬盘情况如下图: 主要数据pool现在无法加载,共三个通用卷均无法挂载,如下图: ...

服务器数据恢复环境: 某单位一台DS5300存储,1个主机+4个扩展柜,组建了2组RAID5(一组27块硬盘,一组23块盘)。27块盘的那组RAID5阵列存放Oracle数据库文件,存储系统一共分了11个卷。 服务器故障: 27块盘的那组RAID5阵列中有2块磁盘故障离线,导致RAID阵列崩溃,存储不可用,存储设备已经过保。 服务器数据恢复过程: 1、将存储中崩溃的RAID5阵列中的27块磁盘编号后取出。由硬件工程师对这27块硬盘做硬件故障检测,经过检测在其中2块磁盘中发现坏道、SMART的错误冗余级别已经超过阈值。以只读方式将25块正常硬盘做全盘镜像,针对2块发现坏道的硬盘,使用工具处理...

EVA系列存储是一款以虚拟化存储为实现目的的中高端存储设备。EVA存储中的数据在EVA存储设备工作过程中会不断进行迁移,如果运行的任务比较复杂,EVA存储磁盘负载加重,很容易出现故障的。EVA存储通过大量磁盘的冗余空间和故障后rss冗余磁盘动态迁移来保护存储中的数据安全,但如果掉线磁盘越来越多,这种保护数据安全的能力会超过阈值,直至存储崩溃。下面分享一个EVA存储的数据恢复案例。 EVA存储故障&检测: 硬件架构:EVA某型号控制器+EVA扩展柜+若干FC磁盘。磁盘故障导致EVA存储中的LUN不可用,上层应用无法正常使用。 北亚企安数据恢复工程师拿到故障存储后,将所有磁盘编号后取出,...

服务器故障: 一台IBMV7000存储中的vdisk丢失,Solaris操作系统中的部署的Oracle数据库不可用。经过和工作人员的沟通得知故障原因:工作人员进行重建MDisk的操作,将原先的raid10重建为raid6,然后又再次重建为raid10,这一系列操作导致存储池中的VDisk丢失,导致上层Solaris操作系统中的Oracle数据库不可用。 用户需要恢复Oracle数据库数据。 服务器数据恢复过程: 1、将故障存储中所有磁盘编号后取出,以只读模式连接到北亚企安备份服务器上做全盘镜像备份。备份完成后按照编号将所有磁盘还原到原存储中。后续的数据分析和数据恢复操作都基于镜像文件进行,避...

服务器数据恢复环境: 一台存储设备中有一组由12块硬盘组建的RAID6磁盘阵列,上层采用EXT3文件系统,共划分3个LUN。 服务器故障&分析: 存储设备在运行过程中RAID6阵列突然不可用,管理员对故障存储进行了重新分配RAID的操作并进行了初始化。初始化一段时间后,管理员察觉有异,于是强行终止初始化。因为初始化进程已经超过50%,部分数据已遭受不可逆破坏。 RAID崩溃后管理员使用原RAID6阵列中的11块硬盘进行重分配RAID5,并进行了长时间的初始化,这些操作对原始数据造成不可逆的破坏。 服务器数据恢复过程: 1、将故障存储中所有磁盘编号后取出,以只读方式做全盘镜像备份,备...

服务器数据恢复环境: DELLPowerVault系列某型号存储,15块硬盘搭建了一组RAID5磁盘阵列。 服务器故障&检测: 存储设备raid5阵列中一块磁盘由于未知原因离线,管理员对该磁盘阵列进行了同步操作。在同步的过程中又有一块磁盘指示灯报警,磁盘离线,磁盘阵列同步失败,raid5阵列崩溃,存储无法正常工作。 北亚企安数据恢复工程师对故障存储中的物理磁盘状态进行了检测,经过检测发现该raid5磁盘阵列中先离线的硬盘访问速度极为缓慢,第二块离线的磁盘有少量坏扇区,其他磁盘无明显物理故障。 该raid5磁盘阵列只包含一个卷组,该卷组占用阵列全部空间,该卷组只有一个起始位置为0扇区的...

  服务器数据恢复环境: HPEVA某型号存储,存储中一共有23块磁盘,上层映射给一台windowsserver服务器上。 服务器故障&检测&分析: 该EVA存储上三块磁盘指示灯显示黄色,此时存储设备还能正常工作。运维更换显示黄色的指示灯对应的硬盘,在更换硬盘的过程中,又有一块硬盘对应指示灯显示黄色离线,这时存储崩溃无法使用。 北亚企安数据恢复工程师将故障存储中所有磁盘编号取出,由硬件工程师对指示灯显示黄色离线的4块磁盘进行硬件故障检测,经过检测发现这4块硬盘都出现不同程度的磁头和盘片损坏情况,后续数据恢复只能通过剩下的19块完好的硬盘进行。 服务器数据恢复过程:...

服务器数据恢复环境: 某公司一台EMC某型号存储中有一组由12块硬盘组建的raid5磁盘阵列,其中有2块盘作为热备盘使用。 服务器故障&分析: raid5磁盘阵列中有2块磁盘离线,只有1块热备盘成功启用,另外一块热备盘未启用,raid阵列崩溃。 服务器硬盘离线的原因无非为磁盘出现物理故障或者硬盘出现坏道。由于EMC的raid控制器磁盘检查策略比较严格,经常将阵列中性能不稳定的磁盘判定为物理故障并踢出阵列。所以导致EMC存储中磁盘阵列崩溃的原因有可能是由于磁盘读写不稳定。 服务器数据恢复过程: 1、将故障存储中所有磁盘编号后取出,由硬件工程师对所有磁盘做物理故障检测,经过检测发现没有...

服务器数据恢复环境: 一台挂载在Windowsserver操作系统服务器上的v7000存储,划分了一个分区,格式化为NTFS文件系统,该分区存放oracle数据库。 服务器故障: 服务器在工作过程中由于未知原因宕机,工作人员重启服务器。在服务器操作系统进行磁盘扫描修复时,工作人员强制关机并断开了存储和服务器之间的连接,这个操作导致存储文件系统损坏,报错:“文件或目录损坏且无法读取”。 服务器数据恢复过程: 1、将故障存储中所有磁盘编号后取出以只读方式进行全盘镜像备份,备份完成后将磁盘按编号还原到原存储中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。 2、基于...

存储数据恢复环境: 某单位一台存储,1个机头+4个扩展柜,有两组分别由27块和23块盘组建的RAID5阵列。其中由27块磁盘组建的那一组RAID5阵列崩溃,这组RAID5阵列存放是Oracle数据库文件。存储系统上层共划分了11个卷。 存储故障&检测: 存储内磁盘发生故障,存储设备上有两块盘的硬盘指示灯显示黄色,存储不可用,存储设备已经过保。 硬件工程师将故障存储中那组出现故障崩溃的阵列中所有磁盘编号后取出,对该RAID5阵列中的27块硬盘做了硬件故障检测,发现其中有2块硬盘出现坏道,SMART的错误冗余级别已经超过阈值。将25块正常的硬盘以只读方式进行全盘镜像,将2块发现有坏道的硬...

NetApp存储故障&分析: 某公司一台NetApp存储,工作人员误操作删除一个重要的文件夹。 虽然被删除已经有一段时间了,但是根据NetApp文件系统WAFL的特点,数据被覆盖的可能性不大。 NetApp存储数据恢复过程: 1、由于不同版本WAFL文件系统差距较大,所以需要先根据节点的结构判断数据块节点指针和WAFL文件系统版本。经过北亚企安数据恢复工程师对该NetApp存储的数据结构的分析,判断该WAFL文件系统版本和数据块指针。 2、北亚企安数据恢复工程师经过分析,得知该WAFL文件系统的blocksize(扇区数)、数据块扇区和block标志扇区等信息。 块校验扇区: ...

Netapp存储数据恢复环境: 北京某公司一台netAPP存储,72块SAS硬盘划分了若干个lun。 Netapp存储故障: 工作人员误操作删除了12个lun。 Netapp存储数据恢复过程: 1、将故障存储中所有磁盘编号后取出,以只读方式做全盘镜像后按照编号还原到原存储中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。 2、基于镜像文件分析底层数据,找到盘头位置的超级块。北亚企安数据恢复工程师通过分析超级块信息获取磁盘组的起始块信息、磁盘组名称、逻辑组起始块号、raid编号等信息。 分析超级块: 通过分析得知每个数据块占8个扇区,数据块后附加64字节...

服务器故障: 一台IBMDS存储出现故障,存储分配给aix小机的卷无法访问。从底层查看分配给aix小机的3个卷的lvm信息丢失。 服务器数据恢复过程: 1、将存储中所有磁盘编号后取出,以只读方式做全盘镜像,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。镜像完成后将磁盘按照编号还原到故障存储中。 2、重组raid。 a、基于镜像文件分析硬盘底层数据,根据数据在硬盘中的分布规律找出RAID条带大小及RAID走向。 raid条带就是将连续的数据划分为很多小部分分别存储到不同磁盘上去。raid的这个特性可以让多个进程同时访问数据的多个不同部分而不会导致磁盘冲突。需要...