? ? ? ? ? ?
群集的名称和ID 当前的时间和日期 群集的状态 每个节点的状态
每个网卡的IP标识和地址 网卡的状态
监视群集日志:
Cluster Manager的活动被记录在几个日志中,大多数可以用SMIT查看。以下是关于群集的日志:
/usr/adm/cluster.log主要是群集事件和错误的高层视图,可以很容易看出事件的发生顺序。此文件须定期清理。
/tmp/hacmp.out[1-7]记录事件脚本的详细输出,只保留七天的信息。此文件中也有可能包含应用程序的输出信息。
/usr/sbin/cluster/history/cluster.mmdd是群集的长期历史视图。
错误日志(error log):
记录Cluster Manager状态变化的信息,包括启动和停止。
2.4. 故障切换实验
HACMP将侦测并响应三种类型的故障:1 网卡故障,2 网络故障,3 节点故障。HACMP还支持应用级别的故障恢复,HACMP提供了用户对指定的应用进程的监控、恢复和故障切换功能。下面我们就对这几种故障进行测试,具体测试情况和结果如下:
2.4.1. 模拟应用故障
测试实例 1:停止双机服务
测试说明 测试步骤 停止时间 预期结果 实际结果 停止两台服务器的hacmp服务 1、两台服务器正常启动,hacmp服务和 oracle 应用正常启动,oracle,oracle运行在机器p505_a上; 2、使用smit clstop命令停止两台机的hacmp服务。 21s oracle 应用被停止。 成功
测试实例 2:启动双机服务
测试说明 测试步骤 启动两台服务器的hacmp服务 1、两台服务器正常启动,hacmp服务没有启动 2、使用smit clstart命令启动两台机的hacmp服务。 第 6 页 共 9 页
停止时间 预期结果 实际结果 76s Hacmp服务启动后,oracle 应用也启动。 成功
测试实例 3:重启服务器
测试说明 测试步骤 停止时间 预期结果 实际结果 重启运行oracle应用的服务器 1、两台服务器和oracle应用正常启动,oracle运行在p505_a服务器上 2、使用shutdown -Fr命令重启p505_a服务器 17s oracle 应用切换到 p505_b服务器 成功
测试实例 4:模拟服务器关机
测试说明 测试步骤 停止时间 预期结果 实际结果 关闭运行oracle应用的服务器 1、两台服务器和oracle应用正常启动,oracle运行在p505_a服务器上 2、使用shutdown –F 关闭p505_a服务器 15s oracle 应用切换到 p505_b服务器 成功
测试实例 5:oracle应用故障切换()
测试说明 测试步骤 停止时间 预期结果 实际结果 杀死oracle主进程ora_pmon(在hacmp配制时设置了对ora_pmon进程的监控) 1、两台服务器正常启动,hacmp服务和oracle应用正常启动,oracle应用在p505_a服务器上 2、使用kill –9 ora_pmon命令杀死oracle进程 30s oracle 应用切换到 p505_b 服务器 成功
测试实例 6:oracle应用回切
测试说明 测试步骤 停止时间 预期结果 实际结果 oracle应用回切到优先级别高的服务器 1、两台服务器正常启动,hacmp服务和oracle应用在p05_b服务器上启动,hacmp服务在 p505_a服务器上没有启动,oracle的优先节点为p505_a 2、使用clstart命令启动p505_a服务器上的hacmp服务 105s oracle 应用回切到 p505_a服务器 成功
第 7 页 共 9 页
2.4.2. 模拟网络故障
测试实例 7:网络故障(使用磁盘心跳)
测试说明 测试步骤 停止时间 预期结果 实际结果 断开机器两个网卡的网线 1、两台服务器正常启动,hacmp服务和oracle应用正常启动,oracle应用在p505_a服务器上 2、拔掉p505_a上两个网卡的网线 2m11s oracle 应用切到 p505_b服务器 成功
测试实例 8:网络故障(使用网络心跳)
测试说明 断开机器网卡的网线 1、把两台服务器的boot2网络设置为心跳网络 2、两台服务器正常启动,hacmp服务和oracle应用正常启动,oracle应用在p505_a服务器上 3、拔掉p505_a上boot1网卡的网线 停止时间 预期结果 实际结果 41s oracle 应用切到 p505_b服务器 成功 测试步骤
3. 结果验证
通过上面的测试我们可以发现在各种故障的发生后HACMP都能够比较快速的切换应用,保证了应 用的可用性。 测试步骤 故障实例1 故障实例2 故障实例3 故障实例4 故障实例5 故障实例6 故障实例7 故障实例8 成功 成功 成功 成功 成功 成功 成功 成功 结果 21s 76s 17s 15s 30s 105s 2m11s 41s 切换时间
第 8 页 共 9 页
4. 结论
AIX作为一个成熟的操作系统,具有很多先进的特征,在系统的稳定性和可靠性有很大的优点,能够承担关键的任务。HACMP与AIX的许多功能紧密结合,为用户提供更高的可用性。本次测试以IMB的p5服务器为平台来测试HACMP对应用高可靠性的保护。从测试结果中可以看到,对于各种常见的故障如应用故障、网络故障和存储故障HACMP都能够起到对应用的有效的保护,从而提高了关键应用的可靠性和安全性。
在本次测试中由于环境的限制心跳只采用了磁盘心跳的方式,应用的切换速率可能会相对于网络和串口心跳会慢好多(从测试实例7和测试实例8可以刊出)。所以在实际的生产环境中一般要求有两种心跳方式并且至少有一种为非IP网络的心跳来保证心跳的有效。
对于存储的故障可以通过编写events来监控切换,但一般建议在主机上采用两块以上的光纤存储连接卡,分别来连到不同的光纤连接线和不同的磁盘控制阵列控制器来实现对应用的保护。这样无论是硬盘还是光纤连接线的坏掉,所有好的数据还是可以被主机访问。
5. 测试人签名
? 测试时间: ? 测试地点: ? 测试人:
甲:
签名:
乙:
第 9 页 共 9 页