Harbor镜像仓库的导出与整理之二-摩杜云开发者社区

Harbor镜像仓库的导出与整理之二

背景

前几天参照大神的blog进行了一下harbor的镜像列表的获取与下载.
当时发现一个很诡异的问题. 
实际上镜像仓库里面的镜像很多.
但是导出和列表里面的却很少.

经过查询发现harbor的v2.0的API里面存在一些限制.
每次api的返回结果最多是 100 个项目. 
默认值是10个. 
所以理论上他的数值就是 projects * 10 的最大值.

这个与项目的需求和场景是严重不符合的. 

所以查询了下方式方法进行了一下改进.

curl的参数有配置

curl 能够设置项目信息等. 但是发现, 这个里面其实还是存在坑的. 
尤其是需要注意 & 等特殊符号的处理. 

curl -s -u 'admin:harborpassword' --limit-rate 1M -H 'Content-Type: application/json' \
-X GET http://192.168.xxx.xx/api/v2.0/projects/erp/repositories?page_size=100 -k \
| python -m json.tool | grep name | awk '/"name": /' | awk -F '"' '{print $4}' |wc -l

能够法相这个project 下面其实是有 98个 镜像的. 
然后可以使用这个命令进行一下获取. 如果某个项目超过了 98 最好是需要使用 page2的方式进行处理

curl -s -u 'admin:harborpassword' --limit-rate 1M -H 'Content-Type: application/json' \
-X GET http://192.168.xxx.xx/api/v2.0/projects/someProject/repositories/repositories?page_size=50\&page=2 -k \
| python -m json.tool | grep name | awk '/"name": /' | awk -F '"' '{print $4}' |wc -l

注意 如果是多个条件, 需要 & 前面增加反斜线进行分割. 
我改为 50的pagesize 第二页就会有 48个镜像. 问题是可控的

导出最新的镜像

Harbor_Address=http://192.168.xxx.xx       #Harbor主机地址
Harbor_Pulltag=192.168.xxx.xx:80
Harbor_User=admin                      #登录Harbor的用户
Harbor_Passwd=harborpassword              #登录Harbor的用户密码
Images_File=ImageInHarbor-`date '+%Y-%m-%d'`.txt   # 镜像清单文件
echo " " > $Images_File
Tar_File=/data/Harbor-backup_new   #镜像tar包存放路径
mkdir -p $Tar_File
#set -x
# 获取Harbor中所有的项目（Projects）
Project_List=$(curl -s -u $Harbor_User:$Harbor_Passwd  -H "Content-Type: application/json" -X GET  $Harbor_Address/api/v2.0/projects?page_size=100   -k  | python -m json.tool | grep name | awk '/"name": /' | awk -F '"' '{print $4}')

for Project in $Project_List;do
   # 循环获取项目下所有的镜像
    mkdir -p ${Tar_File}/${Project}
    Image_Names=$(curl -s -u $Harbor_User:$Harbor_Passwd  -H "Content-Type: application/json" -X GET $Harbor_Address/api/v2.0/projects/$Project/repositories?page_size=100  -k | python -m json.tool | grep name | awk '/"name": /' | awk -F '"' '{print $4}')
    for Image in $Image_Names;do
        # 循环获取镜像的版本（tag)
        Image_Tags=$(curl -s -u $Harbor_User:$Harbor_Passwd   -H "Content-Type: application/json"   -X GET  $Harbor_Address/v2/$Image/tags/list?page_size=100  -k |  awk -F '"'  '{print $8,$10,$12}')
        Tag=$(echo $Image_Tags |sort |awk '{print $NF}')
        docker pull  "$Harbor_Pulltag/$Image:$Tag"
        docker save  "$Harbor_Pulltag/$Image:$Tag" |gzip > ${Tar_File}/${Image}.${Tag}.tar.gz
    done
done

镜像文件太多时的留存策略

同事这边给出过一个处理方式.
我这边东施效颦一下进行一下简单总结

Harbor其实是有一个基本的留存策略的
可以保证每个项目仅保留部分镜像信息. 

具体的方法为:

admin 登录harbor 
->打开 项目
->选择最大磁盘空间的项目
->选中项目的 tag retention 或者是中文 策略 标签页
->选中tag保留
->操作,编辑后者是新增策略 输入
->以artifact 数量或者是天数为条件
->保留最近推送的#个镜像, 输入个数为5 或这个特性需要的个数. 
->保留
->运行 或者是 模拟运行. 
->可以设置定时执行, 比如每周执行一次. 

验证镜像容量就会出现了很大的缩小. 

需要注意 可能还需要执行一次->系统管理->垃圾清理