IBM - RS6000小型机故障的基本定位方法(2)

2019-08-31 09:02

服务热线。系统的启动顺序:

.系统不能启动

系统停在Stage 1，可能为电源、系统板、CPU、内存等硬件故障。记录故障代码通知IBM工程师。

系统停在Stage 2，可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS 菜单检查启动顺序表，并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。

系统停在Stage3，可能是硬盘数据损坏，系统设置文件出错，或I/O子系统故障。 .系统停在551，555或557

发生在系统启动的第三阶段 (Stage 3)，可能是：文件系统损坏

文件系统日志(jfslog)损坏 rootvg中有坏硬盘

修复方法

用系统光盘或系统备份带启动（必须与硬盘中的操作系统版本一致）

启动后选择选项3

\ > \

> \ before mounting the file systems\ 格式化文件系统日志(jfslog) # /usr/sbin/logform /dev/hd8

检查修复文件系统

# fsck -y /dev/hd1 （/home 文件系统） # fsck -y /dev/hd2 （/usr 文件系统） # fsck -y /dev/hd3 （/tmp 文件系统） # fsck -y /dev/hd4 （/ 文件系统） # fsck -y /dev/hd9var （/var 文件系统） ... ...

用 exit 命令退出，文件系统会自动 mount 起来。

重建bootimage

# lslv -m hd5 找出bootimage所在的硬盘，如hdisk0 # bosboot -ad /dev/hdisk0

# bootlist -m normal /dev/hdisk0 重建启动顺序表。重启动系统

# shutdown -Fr

如上述步骤不奏效用系统备份带恢复系统。

如备份带不能恢复，用诊断光盘（Diagnostic CDROM）检查是否坏硬盘。

.CDE图形界面挂死

CDE 运行时不要更改网络参数（如：主机名和IP 地址）

更改网卡设置，请先退出CDE图形环境，选择命令行方式登录，在字符界面下更改。如CDE 已经挂死远程 telnet 登录

找出所有dt有关的进程用kill命令杀掉 # ps -ef |grep dt ... ... # kill PID 检查当前主机名 # hostname tscf50

查看主机名是否对应有效的IP地址 # netstat -i |grep tscf50

tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0

更改主机名或IP地址，使主机名与当前有效的IP地址存在对应关系。 # smitty tcpip 重新启动CDE界面 # /etc/rc.dt

HACMP环境下可把主机名alias到127.0.0.1上 # cat /etc/hosts

127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg

.系统dump

发生在系统崩溃时，AIX会做dump(系统内存的快照)。此时机器会显示闪动的888 102 xxx 0cx 代码：

0c9 系统dump 进行中。0c9状态可能会维持超过2分钟，不要关电和按reset, 等待dump做完。 0c0 dump 成功完成，这时可以断电重起。 0c2 手动启动dump 功能

0c4 dump 设备空间不足，只有部分信息保存下来

0c5 不明原因导致dump 失败

一般dump是由于软件出错引起(888-102-207 除外)，机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件，不要选择退出，这样会丢失重要的故障信息。 dump的有关设置

估算系统dump的大小，在系统最繁忙时（内存使用最多）

# sysdumpdev -e

0453-041 Estimated dump size in bytes: 53477376 # lsps -a

Page Space Physical Volume Volume Group Size %Used Active paging00 hdisk0 rootvg 480MB 1 yes hd6 hdisk1 rootvg 544MB 1 yes 当前的设置 #sysdumpdev -l

primary /dev/hd6 <-- dump的主设备 secondary /dev/sysdumpnull

copy directory /var/adm/ras <-- dump拷贝的目录 forced copy flag TRUE always allow dump TRUE hd6应比估算值稍大。

/var/adm/ras 是默认的dump拷贝目录，比较估算值，保证/var文件系统有足够的剩余空间拷贝dump文件。否则机器重起时会提示用户插入磁带。 dump文件名为vmcore.#

对PCI机型如要手动做dump，须把\先设成true。 # sysdumpdev -K dump打包

# snap -a -o /dev/rmt# 或

# snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件 snap.tar.Z如果/tmp文件系统空间不够，可用-d directory 参数指定别的目录代替/tmp/ibmsupt

__________________ 我是一只游来游去的鱼......

02-11-03 00:40

疲倦的鱼一般会员

注册日期: 2002 Jun 来自: 深圳

发帖数量: 97

四 7133-D40 SSA磁盘柜的故障定位

当SSA磁盘柜出现故障时，在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动，在AIX的error log中也会有记载错误信息，如：DISK_ERR1，DISK_ERR4，SSA_ARRAY_ERROR等。请在出现问题后记录下代码，并致电IBM服务热线。

五软件故障定位方法

软件故障情况错综复杂，下面列举几个常见案例的故障处理方法。

1）文件系统空间不够。

查看有没有“满”的文件系统。特别是/、/var、/tmp，不要超过90%。文件系统满可导致系统不能正常工作，尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。用df –k 查看。

# df -k (查看AIX的基本文件系统)

Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% / /dev/hd2 614400 28068 96% 22967 15% /usr /dev/hd9var 8192 4540 45% 649 32% /var /dev/hd3 167936 157968 6% 89 1% /tmp /dev/hd1 16384 5332 68% 1402 35% /home

除/usr文件系统，其他文件系统都不应太满，一般不超过80%。

处理方法1：删除垃圾文件 # du -sk * |sort -rn |head

查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件。（要区分哪些目录是文件系统的 mount point，哪些是文件系统的子目录）删除文件，释放空间。有时删除文件后空间并不马上释放，这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放，有时甚至需要重起系统。处理方法2：增加文件系统大小 # smitty chjfs

文件系统可以在任何时候加大，前提是卷组(VG)中有剩余空间。

2) 检查文件系统的完整性 # umount filesystem_name # fsck -y filesystem_name

注意：文件系统必须先umount，再做检查和修复，否则可导致未知的后果。

3）查看卷组信息(lsvg -l vg_name)：

有没有\状态的逻辑卷。若有，用syncvg 命令修复\逻辑卷。

4）检查内存交换区(paging space)使用率(lsps -s)：

使用率是否超过70% ，若有则用chps –sX pgname增加X个PP或用 mkps –a –n –sX myvg在myvg上增加一个PP数为X的内存交换区。

5）小型机内存泄漏问题

小型机出现内存泄漏，即系统或应用进程无法将使用过的内存释放，使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程，就会造成系统瘫痪。通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。 (a) ps

# ps gv|head -n 1; ps gv|egrep -v \ PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 15674 pts/11 A 0:01 0 36108 36172 32768 5 24 0.6 24.0 ./tctestp 22742 pts/11 A 0:00 0 20748 20812 32768 5 24 0.0 14.0 ./backups 10256 pts/1 A 0:00 0 15628 15692 32768 5 24 0.0 11.0 ./tctestp 2064 - A 2:13 5 64 6448 xx 0 6392 0.0 4.0 kproc 1806 - A 0:20 0 16 6408 xx 0 6392 0.0 4.0 kproc SIZE virtual size (in the pagingspace), in kilobytes,

RSS real-memory (resident set) size in kilobytes of the process.

通过不同时间输出的比较，就能观察出内存和CPU占用率的基本情况。找出其中占用内存数不断变大的进程，这个进程可能就已经发生了内存泄漏。

(b) sar 指令也可以查看CPU占用率，但统计的结果不是很准确。通常使用sar令的格式为： #sar -P ALL 2 10

09:29:37 cpu %usr %sys %wio %idle 09:29:39 0 0 0 4 95 1 1 0 4 95 - 0 0 4 95

09:29:41 0 0 2 6 92 1 3 4 2 91 - 2 3 4 92

09:29:43 0 3 1 2 94 1 2 2 2 95 - 2 1 2 94

09:29:45 0 2 2 7 90 1 4 5 6 86 - 3 3 6 88

09:29:47 0 1 1 2 96 1 1 2 2 96 - 1 1 2 96

09:29:49 0 0 0 0 100 1 0 1 0 99 - 0 0 0 100

09:29:51 0 2 0 0 98 1 0 1 0 98 - 1 0 0 98

共4页:

IBM - RS6000小型机故障的基本定位方法(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档