Tip1:By default, job submission is allowed only on the TORQUE server host (host on which pbs_server is running). Enablement of job submission from other hosts is documented in Configuring Job Submit Hosts. Master node:node3 Submit a job: Qsub
查询作业状态:qstat/qstat –f 查询节点状态:pbsnodes –a 第一步:安装
Yum install torque*
安装之后的路径:/var/torque
第二步:配置 配置控制节点:
1. 执行/usr/share/doc/torque-2.5.7/torque.setup,将本节点配置为管理节点。
命令:./torque.setup
在目录TORQUE_HOME/server_priv/nodes建立文件nodes,具体指定集群中的计算节点。 简单示例如下:
# Nodes 001 and 003-005 are cluster nodes #
node001 np=2 cluster01 rackNumber22 #
# node002 will be replaced soon node002:ts waitingToBeReplaced # node002 will be replaced soon #
node003 np=4 cluster01 rackNumber24 node004 cluster01 rackNumber25
node005 np=2 cluster01 rackNumber26 RAM16GB node006
node007 np=2 node008:ts np=4
配置计算节点:
在计算节点的TORQUE_HOME/mom_priv/config文件中修改
$pbsserver headnode # note: hostname running pbs_server $logevent 255 # bitmap of which events to log
Pbsserver为你的集群中的管理节点的hostname. 3. 重启节点
计算节点:pbs_mom
控制节点:> qterm -t quick
> pbs_server
注意事项:
1.在torque中在执行mpi程序时。执行运行作业的不同节点的用户之间必须要配置为ssh服务相互间访问不用密码。
安装中出现的错误:
Mpirun中找不到共享文件库时:
错误6:error while loading shared libraries: xxx.so.0:cannot open shared object file: No such file or directory
原因:程序执行时,系统不知道xxx.so放在哪个目录下 解决:/etc/ld.so.conf中加入xxx.so所在的目录 若libesmf.so在/usr/local/esmf/lib下
则在/etc/ld.so.conf的下一行加入/usr/local/esmf/lib 最后运行/sbin/ldconfig –v
配置好后重启时,执行qterm -t quick:报错: [root@node2 mom_priv]# qterm -t quick
Cannot connect to default server host 'localhost' - check pbs_server daemon. qterm: could not connect to server '' (111) Connection refused
启动pbs_server时报错:
[root@node2 server_priv]# pbs_server
PBS_Server: LOG_ERROR::No such file or directory (2) in get_svr_attr, Unable to read server database
pbs_server: failed to get server attributes
上述两个错误都是出现在在计算节点企图启动管理daemon导致的哦。