2013-09-29 14:28:10,875 INFO org.apache.hadoop.mapred.TaskTracker: FILE_CACHE_SIZE for mapOutputServlet set to : 2000
2.4.8、主hmaster服务故障报警
现象描述:syslog日志告警 Syslog报警日志信息:
[2013-10-20 10:40:02 INFO ] [com.cms.web.syslog.SyslogUtil:100] - 发送:
CEB-HDQS|+|CEB-HDQS|+|1001|+|1001|+|NA|+|TY101-M01|+|检测HMaster服状态
|+|TY101-M01:60000|+|dead|+|APP|+|HDQS|+|HMaster|+|1|+|TY101-M01上HMaster服务故障|+|1382236562|+|xiaoxu|+|13810466464
使用web访问主机IP:60010 显示不能正常打开;例如:http://10.1.20.58:60010; 确认方法:
后台进入系统用户下输入jps显示集群服务状态 标记红色框内的服务不存在
使用BDP平台可以查看到dead掉的hmaster服务
平台首页>管理控制台>集群监控>集群服务监控
排除方法:
第一步:登录到故障节点,查看日志告警记录,命令如下: cd /opt/hbase/logs下//进入日志目录
tail -200f hbase-hadoop-master-TY101-M01.log//查看日志最新200条日志信息 日志显示:
2013-10-20 10:33:15,466 DEBUG
org.apache.hadoop.hbase.client.HTable$ClientScanner: Creating scanner over .META. starting at key ''
2013-10-20 10:33:15,467 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Advancing internal scanner to startKey at ''
2013-10-20 10:33:15,604 INFO org.apache.hadoop.hbase.master.LoadBalancer: Skipping load balancing because balanced cluster; servers=7 regio
ns=2262 average=323.14285 mostloaded=324 leastloaded=323
2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Finished with scanning at {NAME => '.META.,,1', STARTKEY => '', ENDKEY => '', ENCODED => 1028785192,}
2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.master.CatalogJanitor: Scanned 2260 catalog row(s) and gc'd 0 unreferenced parent reg ion(s)
2013年10月20日星期日10:35:31 CST Killing master 第二步:重新启动hmaster服务;命令如下:
/opt/hbase/sbin/ hbase-daemon.sh start master //重启启动hmaster服务
查看日志信息:tail –200f /opt/ hbase /logs/ hbase -hadoop-master-TY102-M02.log 如果没有异常,服务正常启动。
第三步:确认服务是否正常,查看日志状态和使用jps查看服务状态 查看日志显示:
2013-10-20 10:32:33,370 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Adding ZNode for /hbase/backup-masters/TY102-M02,60000,138 2236353080 in backup master directory
2013-10-20 10:32:33,374 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Another master is the active master, TY101-M01,60000,13821 10982913; waiting to become the next active master
如果在上述操作没有在30分钟之内恢复。请启动应急预案中的集群主备切换操作 具体操作方法请参照《HDQS-AM-004历史数据查询系统应急处理手册》
2.4.9、备hmaster服务故障报警
现象描述:syslog日志告警 Syslog报警日志信息:
[2013-10-20 10:40:02 INFO ] [com.cms.web.syslog.SyslogUtil:100] - 发送:
CEB-HDQS|+|CEB-HDQS|+|1001|+|1001|+|NA|+|TY102-M02|+|检测HMaster服状态
|+|TY102-M02:60000|+|dead|+|APP|+|HDQS|+|HMaster|+|1|+|TY101-M01上HMaster服务故障|+|1382236562|+|xiaoxu|+|13810466464
使用web访问主机IP:60010 显示不能正常打开;例如:http://10.1.20.59:60010; 确认方法:
后台进入系统用户下输入jps显示集群服务状态 标记红色框内的服务不存在
使用BDP平台可以查看到dead掉的hmaster服务
平台首页>管理控制台>集群监控>集群服务监控
排除方法:
因为hmaster由主备模式,当发现备用hmaster节点故障时,不会影响整个hbase的服务,我们尽快排查错误日志,重新启动服务即可
第一步:登录到故障节点,查看日志告警记录,命令如下: cd /opt/hbase/logs下//进入日志目录
tail -200f hbase-hadoop-master-TY102-M02.log//查看日志最新200条日志信息 日志显示:
2013-10-20 10:33:15,466 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Creating scanner over .META. starting at key ''
2013-10-20 10:33:15,467 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Advancing internal scanner to startKey at ''
2013-10-20 10:33:15,604 INFO org.apache.hadoop.hbase.master.LoadBalancer: Skipping load balancing because balanced cluster; servers=7 regio
ns=2262 average=323.14285 mostloaded=324 leastloaded=323
2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Finished with
scanning at {NAME => '.META.,,1', STARTKEY => '', ENDKEY => '', ENCODED => 1028785192,}
2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.master.CatalogJanitor: Scanned 2260 catalog row(s) and gc'd 0 unreferenced parent reg ion(s)
2013年10月20日星期日10:35:31 CST Killing master 第二步:重新启动hmaster服务;命令如下:
/opt/hbase/sbin/ hbase-daemon.sh start master //重启启动hmaster服务
查看日志信息:tail –200f /opt/ hbase /logs/ hbase -hadoop-master-TY102-M02.log 如果没有异常,服务正常启动。
第三步:确认服务是否正常,查看日志状态和使用jps查看服务状态 查看日志显示:
2013-10-20 10:32:33,370 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Adding ZNode for /hbase/backup-masters/TY102-M02,60000,138 2236353080 in backup master directory
2013-10-20 10:32:33,374 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Another master is the active master, TY101-M01,60000,13821 10982913; waiting to become the next standby master
2.4.10、regionserver服务故障报警
现象描述:syslog日志告警
Syslog报警日志信息:例如snode7的regionserver服务down掉
[2013-10-20 10:50:02 INFO ] [com.cms.web.syslog.SyslogUtil:100] - 发送:
CEB-HDQS|+|CEB-HDQS|+|1001|+|1001|+|NA|+|TY101-007|+|检测RegionServer服务状态|+|TY101-007:60020|+|dead|+|APP|+|HDQS|+|RegionServer|+|1|+|TY101-007上RegionServer服务故障|+|1382237162|+|xiaoxu|+|13810466464 后台进入系统用户下输入jps显示集群服务状态 标记红色框内的服务不存在
使用BDP监控平台查看snode7上的regionserver故障信息
平台首页>管理控制台>集群监控>集群服务监控
排除方法:
第一步:登录到监控告警节点,查看日志告警记录,命令如下: cd /opt/hbase/logs //进入日志目录
tail -200f hbase -hadoop-regionserver-TY101-M01.log //查看日志最新200条日志信息 第二步:重新启动regionserver服务;命令如下:
/opt/hbase/sbin/hbase-daemon.sh start regionserver//重启启动regionserver服务
查看日志信息:tail –200f /opt/ hbase /logs/ hbase -hadoop-regionserver-TY101-001.log 如果没有异常,服务正常启动。
第三步:确认服务是否正常,查看日志状态和使用jps查看服务状态 查看日志:
2013-09-29 14:30:13,236 INFO org.apache.hadoop.ipc.HBaseServer: IPC Server handler 9 on 60020: starting
2013-09-29 14:30:13,236 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 0 on 60020: starting
2013-09-29 14:30:13,236 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 1 on 60020: starting
2013-09-29 14:30:13,237 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 2 on 60020: starting
2013-09-29 14:30:13,237 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 3 on 60020: starting
2013-09-29 14:30:13,237 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 4 on 60020: starting