AIX疑难问题分析过程(5)

2019-03-22 21:48

hdisk1 Available 1S-08-00-9,0 16 Bit LVD SCSI Disk Drive hdisk2 Available 1S-08-00-10,0 16 Bit LVD SCSI Disk Drive hdisk3 Available 1S-08-00-11,0 16 Bit LVD SCSI Disk Drive scsi0 Available 1S-08 Wide/Ultra-3 SCSI I/O Controller

ses0 Available 1S-08-00-15,0 SCSI Enclosure Services Device

在上面的例子中，scsi0上挂了hdisk0,hdisk1,hdisk2,hdisk3，他们都是scsi0的子设备。方法二：通过下面的命令来查看：

9.123.131.147/# lsdev -p scsi0

hdisk0 Available 04-08-00-3,0 16 Bit LVD SCSI Disk Drive hdisk1 Available 04-08-00-4,0 16 Bit LVD SCSI Disk Drive hdisk2 Available 04-08-00-5,0 16 Bit LVD SCSI Disk Drive hdisk3 Available 04-08-00-8,0 16 Bit LVD SCSI Disk Drive ses0 Available 04-08-00-15,0 SCSI Enclosure Services Device

1.21 21 AIX上如何正确挂载Linux 的nfs共享目录环境:(产品,平台,机型,软件版本,等)

AIX 5.3 问题描述:

Linux 服务器上共享了/nfs 这个目录，如何将这个共享目录正确的挂载到AIX 的/data/wuxf 这个挂点。解答:

1.在Linux 服务器上共享/nfs 这个目录, 在/etc/exports文件定义： /nfs *(rw,no_root_squash,sync) hostname : testcom #service portmap start #service nfslock start #service nfs start

2.在AIX 端检查Linux的nfs 共享目录有没有存在：

whoselife@/data>showmount -e testcom *:/nfs

如果AIX上portmap 没有启动，运行showmount -e会出现如下报错： whoselife@/data>showmount -e

whoselife: RPC: 1832-019 Program not registered

如果出现1832-019的报错需要重新启动portmap 和nfs 的服务： whoselife@/data>stopsrc -g nfs

0513-044 The biod Subsystem was requested to stop. 0513-044 The nfsd Subsystem was requested to stop.

0513-044 The rpc.mountd Subsystem was requested to stop. 0513-044 The rpc.lockd Subsystem was requested to stop. 0513-044 The rpc.statd Subsystem was requested to stop. whoselife@/data>stopsrc -s portmap

0513-044 The portmap Subsystem was requested to stop. whoselife@/data>startsrc -s portmap

0513-059 The portmap Subsystem has been started. Subsystem PID is 954432. whoselife@/data>startsrc -g nfs

0513-059 The biod Subsystem has been started. Subsystem PID is 344286. 0513-059 The nfsd Subsystem has been started. Subsystem PID is 618542.

0513-059 The rpc.mountd Subsystem has been started. Subsystem PID is 975026. 0513-059 The nfsrgyd Subsystem has been started. Subsystem PID is 380956. 0513-059 The gssd Subsystem has been started. Subsystem PID is 380958. 0513-059 The rpc.lockd Subsystem has been started. Subsystem PID is 380960. 0513-059 The rpc.statd Subsystem has been started. Subsystem PID is 143412. whoselife@/data>showmount -e testcom *:/nfs

这样就成功检测到了共享文件。

3. 检查/etc/hosts ,确定服务器和客户机的主机名地址可以正确解析。

whoselife@/>traceroute testcom trying to get source for testcom source should be 9.123.x.y

traceroute to testcom (9.123.a.b) from 9.123.x.4 (9.123.x.y), 30 hops max outgoing MTU = 1500

1 9.123.x.4 (9.123.x.4) 1 ms 1 ms 1 ms 2 testcom (9.123.130.34) 1 ms 1 ms 1 ms whoselife@/>host 9.123.a.b testcom is 9.123.a.b

whoselife@/>host 9.123.x.y whoselife is 9.123.x.y

如果检查到0827-803的错误，需要在服务器和客户机的/etc/hosts加入两边正确的主机名和ip地址。

whoselife@/data>host 9.123.131.147

host: 0827-803 Cannot find address 9.123.131.147. 4。挂载Linux nfs 文件系统到AIX 的目录/data/wuxf whoselife@/>mount testcom:/nfs /data/wuxf 如果出现下列不能挂载的问题:

whoselife@/>mount testcom:/nfs/ data/wuxf mount: giving up on： testcom:/nfs/

vmount: Not owner 需要检查nfso -a：

whoselife@/data>nfso -a | grep nfs_use_reserved_ports nfs_use_reserved_ports = 0

默认情况,AIX系统执行mount命令请求时并不使用预先定义好的端口，设置nfs_use_reserved_ports后可使用1024以下的预定义端口。 whoselife@/>nfso -o nfs_use_reserved_ports=1 Setting nfs_use_reserved_ports to 1

这样AIX 就可以正确挂载Linux 的nfs 共享文件了

1.22 22 TCP/IP系统调用序列简介

环境:(产品,平台,机型,软件版本,等) 问题描述: TCP/IP系统调用序列简介解答:

典型的 TCP 客户机和服务器应用程序通过TCP系统调用序列来获取某些函数。这些系统调用包括 socket ()、bind ()、listen ()、accept ()、send () 和 receive()。 TCP 应用程序进行的普通调用序列:

TCP 系统调用的各层:

套接字(socket)层接收进行的任何 TCP 系统调用。套接字层验证 TCP 应用程序传递的参数的正确性。这是一个独立于协议的层，因为尚未将协议连接到调用中。套接字层下面是协议层，该层包含协议的实际实现（本例中为 TCP）。当套接字层对协议层进行调用时，将确保对两个层之间共享的数据结构具有独占访问权限。这样做是为了避免任何数据结构损坏。

各种网络设备驱动程序在接口层运行，该层从物理链路接收数据，并向物理链路传输数据。每个套接字具有一个套接字队列，并且每个接口具有一个用于数据通信的接口队列。不过，对于整个协议层，只有一个称为 IP 输入队列的协议队列。接口层通过此 IP 输入队列将数据输入到协议层。协议层使用相应的接口队列将数据输出到接口。

1.23 23 非root用户不能登陆CDE问题

环境:AIX 5300-06

问题描述:1、仅root用户可以登陆CDE，其他用户登录后启动CDE界面2秒钟后无法显示正确的CDE界面，而显示界面提示如下信息： “无法启动tooltalk” ，并在界面内提示了一些解决方法，如下所示：

2、系统启动日志$HOME/.dt/startlog中提示如下错误：

--- /usr/dt/bin/Xsession starting... --- Xsession started by dtlogin

--- sourcing /home/zxin10/.dtprofile...

--- sourcing /usr/dt/config/Xsession.d/0010.dtpaths... --- sourcing /usr/dt/config/Xsession.d/0030.dttmpdir... --- sourcing /usr/dt/config/Xsession.d/0040.xmbind... --- sourcing /usr/dt/config/Xsession.d/0050.dtxmodmap... --- starting /usr/dt/bin/dthello & --- starting /usr/dt/bin/dtsearchpath --- starting /usr/dt/bin/dtappgather &

--- Tooltalk Message Server did not start within timeout specified. --- Launching Xfailsafe_tooltalk_error to correct problems. 2053-049 mwm：2053-033 无效的助记键规范。

检查窗口管理器资源描述文件。在第 87 行上，该行属于配置文件 /usr/lib/X11/zh_CN/system.mwmrc

2053-049 mwm：2053-033 无效的助记键规范。

检查窗口管理器资源描述文件。在第 88 行上，该行属于配置文件 /usr/lib/X11/zh_CN/system.mwmrc

警告：Missing charsets in String to FontSet conversion 警告：Missing charsets in String to FontSet conversion 3、用root用户可以正常登录CDE 解答:

1.查看/etc/hosts文件，确定ip地址和主机名唯一对应并可以相互正确解析。修改/etc/netsvc.conf文件，添加hosts=local,bind项。问题没有解决。

2.查看/ect/hosts和/etc/netsvc.conf文件以及/dev的访问权限。确保文件访问权限如下所示：

/dev/null的权限为666 /dev/lft0的权限为666 /dev/tty的权限为666

/dev/console的权限为622 /var/tmp的权限为666 /var/dt/tmp的权限为666 /etc/hosts的权限为664

/etc/netsvc.conf 的权限为664

/home/$USER必须对该用户有rwx权限 /dev 的权限是775 /dev/null 的权限是666 /dev/mouse0 的权限是666 /dev/kbd0 的权限是666 /dev/lft0 的权限是600

最后发现etc/hosts 的权限是644 ，即system组没有写权限，其他都正确。将/etc/hosts文件权限改成664之后，非root用户可以正常登陆CDE ，问题解决。

1.24 24 关于config_too_long报警的处理方法

问题描述:在HACMP的日志中，经常会看到有config_too_long的报错，诸如：

Nov 10 07:39:34 EVENT START: config_too_long 540 /usr/es/sbin/cluster/events/node_down.rp 这到底代表什么意思，又如何避免呢？

解答:实际上，每当cluster事件的执行时间超过了某一特定时间之后，config_too_long这条信息就会报在HACMP的日志中。

在早于HACMP4.5的版本中，超时的时限通常会被定死在360秒，而如果诸如node_up或node_down事件的执行超过了360秒，那么每

隔30秒钟，HACMP会报出一条config_too_long警告信息，直到事件执行结束。

而在HACMP 4.5及之后的版本中，客户可以自己定制超时的时限。而在缺省情况下，config_too_long的告警记录规律如下：

1. 头5条config_too_long告警信息会以30秒的间隔记录。

2. 之后每5条config_too_long信息的时间间隔都会比之前5条间隔长一倍，直到间隔到达1小时为止。

3. 之后每一小时记录一次，直到事件结束或终止。

对比于之前举的例子：Nov 10 07:39:34 EVENT START: config_too_long 540 /usr/es/sbin/cluster/events/node_down.rp，它代表的意思是：11月10日的早上7点39分34秒，config_too_long已经执行了540秒还没有结束，对应的事件名是node_down.rp。导致这一报警的可能原因及解决方案如下：

1．某脚本的执行时间超过了超时时限，例如多磁盘的操作或者比较复杂的脚本执行。在这一情况下，要解决问题可以通过整一下导致长执行时间的脚本，或者去延长一下超时时限。延长的办法是：

smit hacmp/Extended Configuration/Extended Event Configuration/Change/Show Time Until Warning （smit cm_time_before_warning）

Max. Event-only Duration (in seconds) [180]

Max. Resource Group Processing Time (in seconds) [180]

把这两个值修改一下即可。下面的Total time to process a Resource Group event before a warning is displayed代表的就是config too long的时间。

2．某一个命令hang住了导致之后的脚本config_too_long。在这种情况下，hang住的命令通常出现于/var/hacmp/log/hacmp.out文件中config_too_long报警之前的命令，而它应该也可以通过ps -ef看到。解决办法就是kill掉这一命令（hang住的命令）。

1.25 25 rsh链接报错解决办法

环境:(产品,平台,机型,软件版本,等)AIX5.3 问题描述:

rsh链接报错：rsh protocol failure due to unexpected closure from server end 解答:

1.检查服务器端rshd服务是否是active状态：

#lssrc -ls inetd |grep shell

shell /usr/sbin/rshd rshd active

2.检查rshd服务使用的默认端口514是否为LISTEN状态： #netstat -an |grep 514 tcp 0 0 *.514 *.* LISTEN 3.检查如下命令的访问权限

# ls -al /usr/bin/rsh

#-r-sr-xr-x 2 root system 303506 Feb 10 14:11 /usr/bin/rsh #ls -l /usr/sbin/rshd

#-r-sr-xr-- 1 root system 24556 Feb 10 14:12 /usr/sbin/rshd #ls -l /usr/bin/rcp

#-r-sr-xr-x 1 root system 319972 Apr 08 2001 /usr/bin/rcp #ls -al /usr/bin/rlogin

#-r-sr-xr-x 1 root bin 306328 Apr 10 2002 /usr/bin/rlogin # ls -al /usr/sbin/rlogind

#-r-sr-xr-- 1 root system 33864 Jul 172002/usr/sbin/rlogind

除了rshd和rlogind的权限为4554，其他命令的权限都必须为4555。

如果不是的话，请参照如下命令修改访问权限：

共8页:

AIX疑难问题分析过程(5).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档