k8s笔记15（Ceph）-摩杜云开发者社区

摘要：

Ceph OSD Status out down；

1、Ceph Dashboard的Cluster>>OSDs显示有out down：(out:命令ceph osd out 10该 osd 踢出集群；down：命令ceph osd down 10，此时该 osd 不接受读写请求) 集群外（out）；挂了且不再运行（down）；集群内（in）；活着且在运行（up）。

k8s笔记15（Ceph）_数据

正常情况下OSD的状态是up in状态，如果down掉OSD，它的状态会变为down in，等待数据均衡完成后osd变为down out状态，Ceph 会把其归置组迁移到其他OSD， CRUSH 就不会再分配归置组给它。
检查为/dev/sdb的其中一个磁盘故障导致（RAID0 FAILED），更换磁盘，重新设置RAID0后，现象如下：（由osd-prepare Job识别为OSD的应该显示167 167），osd-prepare这个Job运行后ll /dev/sdb显示从 root disk变为167 167。（为了增大容量将RAID1+0改为RAID0，也需要如下修改CephCluster才能使用）

rook-ceph     rook-ceph-osd-10-88d88cd44-c7jmz   0/1     CrashLoopBackOff  
没有rook-ceph-osd-prepare-k8s-node03的job运行完成记录Completed
[root@k8s-node03 ~]# ll /dev/sdb               // root disk而不是167 167 
brw-rw---- 1 root disk 8, 16  /dev/sdb
# k edit CephCluster rook-ceph -n rook-ceph  删除以下内容，然后再添加后ll /dev/sdb 显示167 167 
    - devices:
      - name: sdb
      name: k8s-node03
//删除无用的deployment，否则pod一直显示 CrashLoopBackOff 状态
[root@k8s-master01 ~]# k -n rook-ceph delete  deployment rook-ceph-osd-10

k8s笔记15（Ceph）_ceph存储_02

但是Ceph Dashboard中OSDs的ID在最后递增：原先状态out down的ID 10还在，新增ID 11

k8s笔记15（Ceph）_数据_03

在ceph-tools容器中命令可以删除ID 10，Ceph Dashboard中ID 10的条目消失。

[root@k8s-master01 ~]# k -n rook-ceph exec -ti rook-ceph-tools-897d6797f-nghs9 -- bash
[root@rook-ceph-tools-897d6797f-nghs9 /]# ceph osd tree
ID   CLASS  WEIGHT    TYPE NAME            STATUS  REWEIGHT  PRI-AFF
 10    hdd   0.27280          osd.10         down         0  1.00000
 11    hdd   0.54559          osd.11           up   1.00000  1.00000
#  ceph osd rm osd.10

但是在Ceph Dashboard的CRUSH map viewer中还有：

k8s笔记15（Ceph）_数据_04

从crush map中删除OSD后OK。

# ceph osd crush rm osd.10
removed item id 10 name 'osd.10' from crush map

CRUSH算法的设置目的是使数据能够根据设备的存储能力和宽带资源加权平均地分布，并保持一个相对的概率平衡。CRUSH会复制数据到多个磁盘，这些复制的数据在恢复的时候使用，确保ceph的容错性。在将新的磁盘加入Ceph集群后，集群将开始将数据平衡到新的磁盘上。

2、Ceph Dashboard的Cluster Status提示“overall HEALTH_WARN mon k is low on available space; 1 daemons have recently crashed”

# k -n rook-ceph exec -ti rook-ceph-tools-897d6797f-nghs9 -- bash
[root@rook-ceph-tools-897d6797f-nghs9 /]#  ceph crash ls-new
ID                                                                ENTITY  NEW  
2023-09-21T06:13:50.760007Z_b7ae15c2-429a-4699-bfaf-a111da43dcdc  osd.4    *   
[root@rook-ceph-tools-897d6797f-nghs9 /]# ceph crash archive 2023-09-21T06:13:50.760007Z_b7ae15c2-429a-4699-bfaf-a111da43dcdc

3、“MON_DISK_LOW”此警报针对正常存储在/var/lib/ceph/mon中的监视器磁盘空间。此路径存储在与您的操作系统块设备无关的根fs中。当此路径的可用空间小于30%时，会引发此警告（请参阅默认情况下为30的mon_data_avail_warn）。可以将其更改为忽略警报，或者调整该路径的大小，以便为其RocksDB数据留出更多空间。

# ceph -s
  cluster:
    id:     4fd0b8bd-20e8-465a-847c-2d66c7c83877
    health: HEALTH_WARN
            mon k is low on available space
# ceph health detail
HEALTH_WARN mon k is low on available space
[WRN] MON_DISK_LOW: mon k is low on available space
    mon.k has 21% avail
# crictl rmi registry.cn-beijing.aliyuncs.com/dotbalo/nginx:1.15.12
删除不用的镜像后OK
# ceph health detail
HEALTH_OK