在 ats3 上启动 cluster 服务:
#startsrc –s clcomd
然后将 ats3 加入 cluster
在 ast1 节点上执行,执行成功则无返回值:
#clmgr add node ats3 RUN_DISCOVERY=true PERSISTENT_IP=172.16.50.140 NETWORK=net_ether_01
查看 cluster 的节点信息,已经可以看到 ats3:
#clmgr q node ats1 ats2 ats3
为新节点增加 IP 和非 IP 网络
为 ats3 配置 FC 心跳。首先将 ats3 的 FC 适配器 fcs0 与 ats1 和 ats2 的 fcs0 适配器划分到同一个 zone 里,然后在 ats3 执行 :
# chdev -P -l fcs0 -a tme=yes # chdev -P -l fscsi0 -a dyntrk=yes -a fc_err_recov=fast_fail
执行成功以后,重启两个分区: #shutdown – Fr 0
将 ats3 的以太网络加入现有的 cluster 网络组 net_ether_01 中,执行成功则无返回值:
#clmgr add interface ats3 NETWORK=net_ether_01 NODE=ats3 #clmgr add interface ats3_boot2 NETWORK=net_ether_01 NODE=ats3 #clmgr add service_ip ats3_service NETWORK=net_ether_01 NETMASK=255.255.255.0 #clmgr add persistent_ip ats3_per NETWORK=net_ether_01 NODE=ats3
可以看到,网络已经添加成功:
将节点 ats3 加入到 rg1 和 rg2 的节点列表中,执行成功则无返回值:
#clmgr modify resource_group rg1 NODES=ats1,ats2,ats3 #clmgr modify resource_group rg2 NODES=ats2,ats1,ats3
将 app1 应用的启停脚本 rcp 到 ats3 上:
#rcp -p /usr/IBM/app1/start.sh ats3:/usr/IBM/app1/ # rcp -p /usr/IBM/app1/stop.sh ats3:/usr/IBM/app1/
启动新节点上的 cluster 服务
要启动新节点的 clcomd 的服务,则必须保证 caavg_private 处于导入和激活的状态,否则,clcomd 无法启动:
#startsrc –s clcomd
资源组添加完毕以后,同步 cluster:
#clmgr sync cluster
同步成功以后,启动 ats3 的 cluster manger:
#clmgr on no ats3
将两个资源组 rg1 和 rg2 切换到 ats3 上: 首先,先确认资源组目前所在的节点:
#clmgr -cSa state,CURRENT_NODE,NODES query rg rg 1 #clmgr -cSa state,CURRENT_NODE,NODES query rg rg 2
rg1 和 rg2 均在 ats1 节点上。
将 rg1 移动到 ats3 上,rg2 移动到 ats2 上:
#clmgr move resource_group rg1 NODE=ats 3
#clmgr move resource_group rg 2 NODE=ats 2
使用命令行进行查看,可以看到,rg1 所在的节点是 ats3,rg2 所在的资源组是 ats2:
#clmgr -cSa state,CURRENT_NODE,NODES query rg rg 1 #clmgr -cSa state,CURRENT_NODE,NODES query rg rg 2
模拟 Three-Nodes cluster 故障
在日常的工作中,有时候会出现由于一些问题导致资源组发生切换的情况。在本文中会模拟某个节点的 cluster 服务异常、node 宕机以及节点 rootvg 故障三种情况,以便观察 cluster 和资源组的切换情况。
模拟 ats3 节点 down
目前 rg1 资源组运行在 ats3 节点上:
#clmgr - Sca state,CURRENT_NODE q rg rg1
ONLINE:ats3
首先将两个以太网卡 down 掉,观察资源组是否发生切换: On ats3: