PBS集群故障原因

PBS简介

PBS(Portable Batch System)最初由NASA的Ames研究中心开发,主要为了提供一个能满足异构计算网络需要的软件包,用于灵活的批处理,特别是满足高性能计算的需要,如集群系统、超级计算机和大规模并行系统。

PBS的主要特点

代码开放,免费获取;支持批处理、交互式作业和串行、多种并行作业;PBS是功能最为齐全, 历史最悠久, 支持最广泛的本地集群调度器之一。PBS的目前包括openPBS, PBS Pro和Torque三个主要分支. 其中OpenPBS是最早的PBS系统, 目前已经没有太多后续开发, PBS pro是PBS的商业版本, 功能最为丰富. Torque是Clustering公司接过了OpenPBS, 并给与后续支持的一个开源版本。

PBS系统分为管理节点Master,和客户端节点(即计算节点),其中有三个很重要的组件。

  1. pbs_server  PBS服务守护进程,负责接收作业提交。位于服务节点上
  2. pbs_sched  PBS调度守护进程,负责调度作业。位于服务节点上
  3. pbs_mom  PBS MOM守护进程, 负责监控本机并执行作业。位于所有计算节点上

要点:(对于Torque版)

        1. master管理节点上pbs_serverpbs_schedpbs_momtrqauthd几个服务应该正常运行。
          for i in pbs_server pbs_sched pbs_mom trqauthd;
          do service $i restart;
          done

        2. 计算节点pbs_momtrqauthd两个服务应正常运行
          1. for i in pbs_mom trqauthd;
            do service $i start;
            done
          2. 或者 service pbs_mom start  service trqauthd start
        3. master管理节点上检查pbs节点状态,状态为free则正常.
          1.  qnodes   或者  pbsnodes –a

 

 

 

 

 

 

 

参考文档

高性能集群 并行计算 mpich hpc 及 torque作业调度系统  着重参考

http://yejiankang.blog.51cto.com/4032242/885484

CentOS下torque集群配置(MPI+Torque+NFS+NIS集中认证)

http://blog.csdn.net/dream_angel_z/article/details/44225669/

http://blog.csdn.net/dream_angel_z/article/details/44225713

http://blog.csdn.net/dream_angel_z/article/details/44226055

http://blog.csdn.net/dream_angel_z/article/details/44226179

PBS作业调度应用与说明

http://blog.csdn.net/cloudeagle_bupt/article/details/11775107

Moab 5.2.0+Torque 2.2.1/pbs集群作业可视化管理系统部署试验

http://blog.csdn.net/educast/article/details/7167542

 

资源管理软件TORQUE 与作业调度软件Maui 的安装、设置及使用

http://wenku.baidu.com/link?url=W_7yuMrXmpjMIctZUvhgeUqt7n-KUajfRaZ_PoP3TC3bVpUqLSNn7ijUcVY_I4eNRd_8L6TA2ljB_MUKRcWHXObxb0DTDydEs8mDXI1pegG