IBM - RS6000小型机故障的基本定位方法(3)

2019-08-31 09:02

09:29:53 0 7 1 6 86 1 2 2 5 90 - 5 2 5 88

09:29:55 0 4 5 56 35 1 12 2 55 32 - 8 4 55 33

09:29:57 0 16 8 14 64 1 15 9 11 65 - 15 8 12 64

Average 0 3 2 10 85 1 4 3 8 85 - 4 2 9 85

表示2秒钟输出一次结果总共有10次结果，然后平均。目前，如果发现内存泄漏，最好重新启动系统。

六 HACMP环境下的排错

在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的.需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作. 一般地,HACMP环境下的排错包括: .了解问题的存在. .判断问题的出处. .解决问题. 一了解问题的存在

您可以通过以下途径了解到一个CLUSTER环境下出现了问题. .最终用户的投诉,他们无法访问应用程序. .控制台上出现一些HACMP的信息.

1.应用服务无法访问

最终用户的抱怨通常预示CLUSTER出现了问题.他们无法正常执行应用或是无法登录到系统.我们必须采集到详细的信息以判断到底那里出现了问题.是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始.您也可以在自己的系统上重复.要知道用户应用不可用并不代表HACMP有问题.问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题.因此应用程序本身的排错也应是HA排错的一部分. 2.控制台上出现一些HACMP的信息

在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也会写入相应的文件中.

二判断问题的出处

当错误出现时,我们应尝试发现错误的所在.但我们常常被错误的表面所误导.以下的步骤可以使我们得到更详细的信息.

1.保存好一些LOG文件.(/tmp/hacmp.out & /tmp/cm.log).因为它们可能被覆盖. 2.仔细检查HACMP所产生的LOG文件.它们能提供最初的判断线索.

3.用HACMP的工具和AIX的命令来检查HACMP的部件是否正常. 4.打开HACMP的跟踪工具来产生更详细的信息.

.HACMP的LOG文件:以下文件都是文本文件,可以用VI来看.每个日志文件都含有每个信息的产生时间.

/usr/adm/cluster.log :记录了HACMP的状态,由HA的守护进程所产生. /tmp/hacmp.out :记录了HA的详细脚本.

/usr/sbin/cluster/history/cluster.mmdd :记录了HA的各个事件的发生. /tmp/cm.log :由clstrmgr进程产生,每次HA重起时会被覆盖.

.HACMP FOR AIX的结构应用层 HACMP软件层 LVM & TCPIP 层 AIX 层物理网络层物理硬盘层硬件层

在物理网络层,物理硬盘层,硬件层,LVM & TCPIP 层,AIX 层我们可以用AIX系统命令来看是否硬件和系统出现了问题.一般地,在用errpt命令来看没有类型为PH的错误,lsvg -o 来看我们所须的VG已varyon,mount来看我们所须的文件系统已安装, netstat -i来看我们所须的service IP是UP的状态(或用ifconfig en*),cluster node 之间的service 与service IP ,standby与 standby IP 互相可以ping通.在各个节点上执行stty<

在HACMP软件层上,我们可以用vi /tmp/hacmp.out来看,如果出现event failed的字段,则有可能问题出现在该层,如果在问题出现的时段,hacmp.out无信息出现,则问题可能出现在应用层.

以下是HA排错的一些守则:

.在第一时间保存好相关的日志文件,特别是那些会被覆盖的文件. .尝试去重复问题的出现.不要被用户所反映的问题迷惑.

.渐进地去重复问题,如果有多个可能导致问题的出现,一个一个地去重复,而不要一次重复多个可能.

.不要凭经验来判断问题,而是要在各种测试后,由结果来判断. .隔离问题的来源,根据我们上面所叙述的层次关系,至顶向下地诊断.

.由简到繁地做测试,我们先从一个简单的环境来做测试,不要尝试在一个复杂的环境中测试. .一次做一次改动,否则我们无法知道是那个改动解决了问题.

.不要忽略各种可能,因小可失大,留心系统的每一个细节,包括电源,插头,连线等. .保持各种测试的记录以及解决的步骤,用做将来排错的参考.

.拨打IBM服务热线,将问题现象和您所做的测试结果告诉IBM的工程师,他们将在CALL

CENTER的测试中心重复试验,必要时会派工程师到场解决问题. 三 IBM HACMP 双机系统的管理和维护

本节将说明HACMP 双机软件的一些基本管理和维护命令这些命令将会在HACMP 双机系统的日常工作中经常用到. 1 HACMP 双机系统的启动

要启动HACMP 双机系统必须要有root 用户的特权分别进入到系统各节点主机在命令行上执行下述命令即可. # smit clstart 或

# /usr/sbin/cluster/etc/rc.cluster -boot -N –I

需要注意的是在双机系统中HACMP 双机软件先启动的节点将成为主节点拥有资源并对外提供关键服务后启动的节点将成为备节点.

另外在启动HACMP 前需要启动双机上的INFORMIX 和SCP 应用. 2 HACMP 双机系统的关闭

要关闭某节点上的HACMP 双机软件必须要有该节点root 用户的特权以root 用户进入到该节点主机在命令行上执行下述命令即可. # smit clstop 或

# clstop -gr

需要注意的是若该节点是主节点并且备节点上的HACMP 软件亦正常运行则需注意 clstop 关闭模式的三种选项的不同1 forced 是指立即关闭双机软件不调用任何客户应用的善后处理例程.2 graceful 是指在关闭双机软件时将调用客户应用预定义的善后处理例程.3 takeover 是指该节点将关闭双机软件并释放资源请求备节点进行接管.如该节点是备节点则关闭模式选项没有多大意义.

另外关闭HACMP 将关闭manager 和informix. 3 查询HACMP 双机系统的状态

在双机系统的运行当中操作员经常需要知道双机系统的当前状态才有可能对双机系

统出现的异常情况进行恢复处理才能保证双机系统的高可用性和高容错性.查询HACMP 双机系统的状态只需以root 用户进入需要查询的节点进行下列操作首先检查HACMP 双机软件在该节点是否已启动命令如下 # lssrc -g cluster

若是系统显示出下面类似的信息则说明HACMP 双机软件已正常启动. Subsystem Group PID Status clstrmgr cluster 22500 active clsmuxpd cluster 23674 active clinfo cluster 28674 active

在已确认双机软件HACMP 正常启动的情况下在命令行执行下述命令来察看双机系统的当前状态

# /usr/sbin/cluster/clstat -a

如果双机系统一切工作正常则系统将显示下述类似信息 clstat - HACMP for AIX Cluster Status Monitor

------------------------------------------------------------------------------------- Cluster: scp_cluster(80) Thu Jan 20 08:45:17 TAIST 2000 State: UP Nodes: 2

SubState: STABLE Node: mscp1 State: UP

Interface: mscp1_svc (0) Address: 192.9.1.60 State: UP

Interface: mscp1_tty (1) Address: 0.0.0.0 State: UP

Node: mscp2 State: UP

Interface: mscp2_svc (0) Address: 192.9.1.61 State: UP

Interface: mscp2_tty (1) Address: 0.0.0.0 State: UP

七常用的系统状态查询命令： # lsdev –C –s scsi

列出各个SCSI设备的所有相关信息：如逻辑单元号，硬件地址及设备文件名等。 # ps -ef

列出正在运行的所有进程的各种信息：如进程号及进程名等。 # netstat -rn

列出网卡状态及路由信息等。 # netstat -in

列出网卡状态及网络配置信息。 # df -k

列出已加载的逻辑卷及其大小信息。 # mount

列出已加载的逻辑卷及其加载位置。 # uname -a

列出系统ID 号，系统名称，OS版本等信息。 # hostname 列出系统网络名称。

# lsvg –l rootvg,lsvg –p rootvg

显示逻辑卷组信息，如包含哪些物理盘及逻辑卷等。 # lslv –l datalv,lslv –p datalv

显示逻辑卷各种信息，如包含哪些盘，是否有镜像等。八网络故障定位方法网络不通的诊断过程：

ifconfig 查看网卡是否启动 (up) netstat –i 查看网卡状态

Ierrs/Ipkts 和 Oerrs/Opkts是否>1% ping自己网卡地址 (ip 地址)

ping其它机器地址，如不通，在其机器上用diag检测网卡是否有问题。在同一网中， subnetmask 应一致。网络配置的基本方法：

(1) 如需修改网络地址、主机名等，一定要用 chdev 命令 # chdev –l inet0 –a hostname=myhost

# chdev -l en0 -a netaddr='9.3.240.58' -a netmask=255.255.255.0’

(2) 查看网卡状态：# lsdev –Cc if (3) 确认网络地址：# ifconfig en0 (4) 启动网卡：# ifconfig en0 up (5) 配置路由有两种方式加入路由：永久路由

# chdev -l inet0 -a route=’10.47.0.0’,’9.3.240.59’ 临时路由

# route add 10.47.1.2 9.3.240.59 用命令 netstat -rn 查看路由表附：常用命令列表：

Any XXXX, ####, ****, or X is to be substituted by a name, resource name or #, fn = filename DIR = Directory | = pipe symbol

bosboot -a -d /dev/hdiskx -rebuilds boot record/image on boot device(hdiskx) cat -view contents of a file

cat /tmp/****.1 -view a file, look at output

cat fn fn > newfile -combines two files to a single file cd -will return you to default DIR cd / -will put in root DIR

cd /xxxx -change you to a DIR anywhere is system cd .. -will drop you out of 1 DIR at a time cd xxxxx -will change you to a DIR in current dir cfgmgr -will auto config devices

cfgmgr -v & -(-v) shows processes (&) puts in background chps -s xx hd# -increase paging space (xx=# of addt'l PPs) cp oldfn newfn -copy a file

cp oldfn Dirn -copy a file to another directory crontab -l -list crontab entries for the current user ctrl + v -will page down 1 page ctrl + 6 -will page up 1 page

del fn -same as rm -i,promts to remove fn df -I -shows status of file systems (no inodes) df -Ik -(k) show status in 1024 bites(1mb)(only AIX 4 diag -a -updates changes in hardware configuration diag ***** -****= a device type(as tape,disk....Fastpath) diag -cd rmtX -resets tape drive dosformat -formats a diskette to DOS dosdir -list files on dos formated diskette dosread XX YY -copies dos file XX to aix file YY doswrite YY XX -copies aix file YY to dos file XX errpt -generates a one line synopsis of logged errors

共4页:

IBM - RS6000小型机故障的基本定位方法(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档