摘要:
Ceph OSD Status out down;
- k8s笔记1(知识图谱,添加节点,ceph存储)_ATCtoK8s 空管智能运维的技术博客_51CTO博客
- 【ceph】ceph OSD状态及常用命令 - bdy - 博客园 (cnblogs.com)
- ceph集群磁盘故障,更换磁盘流程-腾讯云开发者社区-腾讯云 (tencent.com)
1、Ceph Dashboard的Cluster>>OSDs显示有out down:(out:命令ceph osd out 10该 osd 踢出集群;down:命令ceph osd down 10,此时该 osd 不接受读写请求) 集群外(out);挂了且不再运行(down);集群内(in);活着且在运行(up)。
- 正常情况下OSD的状态是up in状态,如果down掉OSD,它的状态会变为down in,等待数据均衡完成后osd变为down out状态,Ceph 会把其归置组迁移到其他OSD, CRUSH 就不会再分配归置组给它。
- 检查为/dev/sdb的其中一个磁盘故障导致(RAID0 FAILED),更换磁盘,重新设置RAID0后,现象如下:(由osd-prepare Job识别为OSD的应该显示167 167),osd-prepare这个Job运行后ll /dev/sdb显示从 root disk变为167 167。(为了增大容量将RAID1+0改为RAID0,也需要如下修改CephCluster才能使用)
rook-ceph rook-ceph-osd-10-88d88cd44-c7jmz 0/1 CrashLoopBackOff
没有rook-ceph-osd-prepare-k8s-node03的job运行完成记录Completed
[root@k8s-node03 ~]# ll /dev/sdb // root disk而不是167 167
brw-rw---- 1 root disk 8, 16 /dev/sdb
# k edit CephCluster rook-ceph -n rook-ceph 删除以下内容,然后再添加后ll /dev/sdb 显示167 167
- devices:
- name: sdb
name: k8s-node03
//删除无用的deployment,否则pod一直显示 CrashLoopBackOff 状态
[root@k8s-master01 ~]# k -n rook-ceph delete deployment rook-ceph-osd-10
- 但是Ceph Dashboard中OSDs的ID在最后递增:原先状态out down的ID 10还在,新增ID 11
在ceph-tools容器中命令可以删除ID 10,Ceph Dashboard中ID 10的条目消失。
[root@k8s-master01 ~]# k -n rook-ceph exec -ti rook-ceph-tools-897d6797f-nghs9 -- bash
[root@rook-ceph-tools-897d6797f-nghs9 /]# ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
10 hdd 0.27280 osd.10 down 0 1.00000
11 hdd 0.54559 osd.11 up 1.00000 1.00000
# ceph osd rm osd.10
- 但是在Ceph Dashboard的CRUSH map viewer中还有:
从crush map中删除OSD后OK。
# ceph osd crush rm osd.10
removed item id 10 name 'osd.10' from crush map
- CRUSH算法的设置目的是使数据能够根据设备的存储能力和宽带资源加权平均地分布,并保持一个相对的概率平衡。CRUSH会复制数据到多个磁盘,这些复制的数据在恢复的时候使用,确保ceph的容错性。 在将新的磁盘加入Ceph集群后,集群将开始将数据平衡到新的磁盘上。
2、Ceph Dashboard的Cluster Status提示“overall HEALTH_WARN mon k is low on available space; 1 daemons have recently crashed”
# k -n rook-ceph exec -ti rook-ceph-tools-897d6797f-nghs9 -- bash
[root@rook-ceph-tools-897d6797f-nghs9 /]# ceph crash ls-new
ID ENTITY NEW
2023-09-21T06:13:50.760007Z_b7ae15c2-429a-4699-bfaf-a111da43dcdc osd.4 *
[root@rook-ceph-tools-897d6797f-nghs9 /]# ceph crash archive 2023-09-21T06:13:50.760007Z_b7ae15c2-429a-4699-bfaf-a111da43dcdc
3、“MON_DISK_LOW”此警报针对正常存储在/var/lib/ceph/mon中的监视器磁盘空间。此路径存储在与您的操作系统块设备无关的根fs中。当此路径的可用空间小于30%时,会引发此警告(请参阅默认情况下为30的mon_data_avail_warn)。可以将其更改为忽略警报,或者调整该路径的大小,以便为其RocksDB数据留出更多空间。
# ceph -s
cluster:
id: 4fd0b8bd-20e8-465a-847c-2d66c7c83877
health: HEALTH_WARN
mon k is low on available space
# ceph health detail
HEALTH_WARN mon k is low on available space
[WRN] MON_DISK_LOW: mon k is low on available space
mon.k has 21% avail
# crictl rmi registry.cn-beijing.aliyuncs.com/dotbalo/nginx:1.15.12
删除不用的镜像后OK
# ceph health detail
HEALTH_OK