Hadoop大数据环境搭建v1.0(9)

2020-02-22 14:28

2013-09-29 14:28:10,875 INFO org.apache.hadoop.mapred.TaskTracker: FILE_CACHE_SIZE for mapOutputServlet set to : 2000

2.4.8、主hmaster服务故障报警

现象描述：syslog日志告警 Syslog报警日志信息：

[2013-10-20 10:40:02 INFO ] [com.cms.web.syslog.SyslogUtil:100] - 发送:

CEB-HDQS|+|CEB-HDQS|+|1001|+|1001|+|NA|+|TY101-M01|+|检测HMaster服状态

|+|TY101-M01:60000|+|dead|+|APP|+|HDQS|+|HMaster|+|1|+|TY101-M01上HMaster服务故障|+|1382236562|+|xiaoxu|+|13810466464

使用web访问主机IP：60010 显示不能正常打开；例如：http://10.1.20.58:60010; 确认方法：

后台进入系统用户下输入jps显示集群服务状态标记红色框内的服务不存在

使用BDP平台可以查看到dead掉的hmaster服务

平台首页>管理控制台>集群监控>集群服务监控

排除方法:

第一步：登录到故障节点，查看日志告警记录，命令如下： cd /opt/hbase/logs下//进入日志目录

tail -200f hbase-hadoop-master-TY101-M01.log//查看日志最新200条日志信息日志显示：

2013-10-20 10:33:15,466 DEBUG

org.apache.hadoop.hbase.client.HTable$ClientScanner: Creating scanner over .META. starting at key ''

2013-10-20 10:33:15,467 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Advancing internal scanner to startKey at ''

2013-10-20 10:33:15,604 INFO org.apache.hadoop.hbase.master.LoadBalancer: Skipping load balancing because balanced cluster; servers=7 regio

ns=2262 average=323.14285 mostloaded=324 leastloaded=323

2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Finished with scanning at {NAME => '.META.,,1', STARTKEY => '', ENDKEY => '', ENCODED => 1028785192,}

2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.master.CatalogJanitor: Scanned 2260 catalog row(s) and gc'd 0 unreferenced parent reg ion(s)

2013年10月20日星期日10:35:31 CST Killing master 第二步：重新启动hmaster服务；命令如下：

/opt/hbase/sbin/ hbase-daemon.sh start master //重启启动hmaster服务

查看日志信息：tail –200f /opt/ hbase /logs/ hbase -hadoop-master-TY102-M02.log 如果没有异常，服务正常启动。

第三步：确认服务是否正常，查看日志状态和使用jps查看服务状态查看日志显示：

2013-10-20 10:32:33,370 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Adding ZNode for /hbase/backup-masters/TY102-M02,60000,138 2236353080 in backup master directory

2013-10-20 10:32:33,374 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Another master is the active master, TY101-M01,60000,13821 10982913; waiting to become the next active master

如果在上述操作没有在30分钟之内恢复。请启动应急预案中的集群主备切换操作具体操作方法请参照《HDQS-AM-004历史数据查询系统应急处理手册》

2.4.9、备hmaster服务故障报警

现象描述：syslog日志告警 Syslog报警日志信息：

[2013-10-20 10:40:02 INFO ] [com.cms.web.syslog.SyslogUtil:100] - 发送:

CEB-HDQS|+|CEB-HDQS|+|1001|+|1001|+|NA|+|TY102-M02|+|检测HMaster服状态

|+|TY102-M02:60000|+|dead|+|APP|+|HDQS|+|HMaster|+|1|+|TY101-M01上HMaster服务故障|+|1382236562|+|xiaoxu|+|13810466464

使用web访问主机IP：60010 显示不能正常打开；例如：http://10.1.20.59:60010; 确认方法：

后台进入系统用户下输入jps显示集群服务状态标记红色框内的服务不存在

使用BDP平台可以查看到dead掉的hmaster服务

平台首页>管理控制台>集群监控>集群服务监控

排除方法:

因为hmaster由主备模式，当发现备用hmaster节点故障时，不会影响整个hbase的服务，我们尽快排查错误日志，重新启动服务即可

第一步：登录到故障节点，查看日志告警记录，命令如下： cd /opt/hbase/logs下//进入日志目录

tail -200f hbase-hadoop-master-TY102-M02.log//查看日志最新200条日志信息日志显示：

2013-10-20 10:33:15,466 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Creating scanner over .META. starting at key ''

2013-10-20 10:33:15,467 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Advancing internal scanner to startKey at ''

2013-10-20 10:33:15,604 INFO org.apache.hadoop.hbase.master.LoadBalancer: Skipping load balancing because balanced cluster; servers=7 regio

ns=2262 average=323.14285 mostloaded=324 leastloaded=323

2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Finished with

scanning at {NAME => '.META.,,1', STARTKEY => '', ENDKEY => '', ENCODED => 1028785192,}

2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.master.CatalogJanitor: Scanned 2260 catalog row(s) and gc'd 0 unreferenced parent reg ion(s)

2013年10月20日星期日10:35:31 CST Killing master 第二步：重新启动hmaster服务；命令如下：

/opt/hbase/sbin/ hbase-daemon.sh start master //重启启动hmaster服务

查看日志信息：tail –200f /opt/ hbase /logs/ hbase -hadoop-master-TY102-M02.log 如果没有异常，服务正常启动。

第三步：确认服务是否正常，查看日志状态和使用jps查看服务状态查看日志显示：

2013-10-20 10:32:33,370 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Adding ZNode for /hbase/backup-masters/TY102-M02,60000,138 2236353080 in backup master directory

2013-10-20 10:32:33,374 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Another master is the active master, TY101-M01,60000,13821 10982913; waiting to become the next standby master

2.4.10、regionserver服务故障报警

现象描述：syslog日志告警

Syslog报警日志信息：例如snode7的regionserver服务down掉

[2013-10-20 10:50:02 INFO ] [com.cms.web.syslog.SyslogUtil:100] - 发送:

CEB-HDQS|+|CEB-HDQS|+|1001|+|1001|+|NA|+|TY101-007|+|检测RegionServer服务状态|+|TY101-007:60020|+|dead|+|APP|+|HDQS|+|RegionServer|+|1|+|TY101-007上RegionServer服务故障|+|1382237162|+|xiaoxu|+|13810466464 后台进入系统用户下输入jps显示集群服务状态标记红色框内的服务不存在

使用BDP监控平台查看snode7上的regionserver故障信息

平台首页>管理控制台>集群监控>集群服务监控

排除方法:

第一步：登录到监控告警节点，查看日志告警记录，命令如下： cd /opt/hbase/logs //进入日志目录

tail -200f hbase -hadoop-regionserver-TY101-M01.log //查看日志最新200条日志信息第二步：重新启动regionserver服务；命令如下：

/opt/hbase/sbin/hbase-daemon.sh start regionserver//重启启动regionserver服务

查看日志信息：tail –200f /opt/ hbase /logs/ hbase -hadoop-regionserver-TY101-001.log 如果没有异常，服务正常启动。

第三步：确认服务是否正常，查看日志状态和使用jps查看服务状态查看日志：

2013-09-29 14:30:13,236 INFO org.apache.hadoop.ipc.HBaseServer: IPC Server handler 9 on 60020: starting

2013-09-29 14:30:13,236 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 0 on 60020: starting

2013-09-29 14:30:13,236 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 1 on 60020: starting

2013-09-29 14:30:13,237 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 2 on 60020: starting

2013-09-29 14:30:13,237 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 3 on 60020: starting

2013-09-29 14:30:13,237 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 4 on 60020: starting

共10页:

Hadoop大数据环境搭建v1.0(9).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档