sge集群安装完成后,sge集群维护
1、sge服务启动/停止
/opt/sge/default/common/sgemaster start | stop | restart
/opt/sge/default/common/sgeexecd start | stop | restart
2、sge日志存放路径文件说明
/opt/sge/default/spool/节点主机名/:
active_jobs:目录中存储了当前正在运行的作业的信息。每个作业都有一个相应的文件,其中包含作业的有关详细信息,如作业ID、执行节点等。
execd.pid:文件中存储了执行守护进程(execd)的进程ID。该文件常用于检查和管理执行守护进程的运行状态。
jobs:目录中存储了已提交的作业的信息。每个作业都有一个相应的文件,其中包含有关作业的详细信息,如作业ID、作业状态、作业参数等。
job_scripts:目录中存储了已提交的作业的脚本文件。每个作业都有一个相应的脚本文件,其中包含了作业的具体执行脚本和相关参数。
messages:文件中存储了集群的系统消息和日志信息。这包括有关作业提交、调度、执行和完成等信息。
3、使用qconf命令对SGE进行配置(该操作一般为集群管理员进行操作):
qconf -ae hostname 添加执行主机
qconf -de hostname 删除执行主机
qconf -sel 显示执行主机列表
qconf -ah hostname 添加管理主机
qconf -dh hostname 删除管理主机
qconf -sh 显示管理主机列表
qconf -as hostname 添加提交主机
qconf -ds hostname 删除提交主机
qconf -ss 显示提交主机列表
qconf -ahgrp groupname 添加主机用户组
qconf -mhgrp groupname 修改主机用户组
qconf -shgrp groupname 显示主机用户组成员
qconf -shgrpl 显示主机用户组列表
qconf -aq queuename 添加集群队列
qconf -dq queuename 删除集群队列
qconf -mq queuename 修改集群队列配置
qconf -sq queuename 显示集群队列配置
qconf -sql 显示集群队列列表
qstat -f 显示执行主机状态
qstat -u user 查看用户的作业
qstat -u \* 查看所有用户作业
qhost 显示执行主机资源信息