Hadoop大数据环境搭建v1.0(9)

2020-02-22 14:28

2013-09-29 14:28:10,875 INFO org.apache.hadoop.mapred.TaskTracker: FILE_CACHE_SIZE for mapOutputServlet set to : 2000

2.4.8、主hmaster服务故障报警

现象描述:syslog日志告警 Syslog报警日志信息:

[2013-10-20 10:40:02 INFO ] [com.cms.web.syslog.SyslogUtil:100] - 发送:

CEB-HDQS|+|CEB-HDQS|+|1001|+|1001|+|NA|+|TY101-M01|+|检测HMaster服状态

|+|TY101-M01:60000|+|dead|+|APP|+|HDQS|+|HMaster|+|1|+|TY101-M01上HMaster服务故障|+|1382236562|+|xiaoxu|+|13810466464

使用web访问主机IP:60010 显示不能正常打开;例如:http://10.1.20.58:60010; 确认方法:

后台进入系统用户下输入jps显示集群服务状态 标记红色框内的服务不存在

使用BDP平台可以查看到dead掉的hmaster服务

平台首页>管理控制台>集群监控>集群服务监控

排除方法:

第一步:登录到故障节点,查看日志告警记录,命令如下: cd /opt/hbase/logs下//进入日志目录

tail -200f hbase-hadoop-master-TY101-M01.log//查看日志最新200条日志信息 日志显示:

2013-10-20 10:33:15,466 DEBUG

org.apache.hadoop.hbase.client.HTable$ClientScanner: Creating scanner over .META. starting at key ''

2013-10-20 10:33:15,467 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Advancing internal scanner to startKey at ''

2013-10-20 10:33:15,604 INFO org.apache.hadoop.hbase.master.LoadBalancer: Skipping load balancing because balanced cluster; servers=7 regio

ns=2262 average=323.14285 mostloaded=324 leastloaded=323

2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Finished with scanning at {NAME => '.META.,,1', STARTKEY => '', ENDKEY => '', ENCODED => 1028785192,}

2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.master.CatalogJanitor: Scanned 2260 catalog row(s) and gc'd 0 unreferenced parent reg ion(s)

2013年10月20日星期日10:35:31 CST Killing master 第二步:重新启动hmaster服务;命令如下:

/opt/hbase/sbin/ hbase-daemon.sh start master //重启启动hmaster服务

查看日志信息:tail –200f /opt/ hbase /logs/ hbase -hadoop-master-TY102-M02.log 如果没有异常,服务正常启动。

第三步:确认服务是否正常,查看日志状态和使用jps查看服务状态 查看日志显示:

2013-10-20 10:32:33,370 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Adding ZNode for /hbase/backup-masters/TY102-M02,60000,138 2236353080 in backup master directory

2013-10-20 10:32:33,374 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Another master is the active master, TY101-M01,60000,13821 10982913; waiting to become the next active master

如果在上述操作没有在30分钟之内恢复。请启动应急预案中的集群主备切换操作 具体操作方法请参照《HDQS-AM-004历史数据查询系统应急处理手册》

2.4.9、备hmaster服务故障报警

现象描述:syslog日志告警 Syslog报警日志信息:

[2013-10-20 10:40:02 INFO ] [com.cms.web.syslog.SyslogUtil:100] - 发送:

CEB-HDQS|+|CEB-HDQS|+|1001|+|1001|+|NA|+|TY102-M02|+|检测HMaster服状态

|+|TY102-M02:60000|+|dead|+|APP|+|HDQS|+|HMaster|+|1|+|TY101-M01上HMaster服务故障|+|1382236562|+|xiaoxu|+|13810466464

使用web访问主机IP:60010 显示不能正常打开;例如:http://10.1.20.59:60010; 确认方法:

后台进入系统用户下输入jps显示集群服务状态 标记红色框内的服务不存在

使用BDP平台可以查看到dead掉的hmaster服务

平台首页>管理控制台>集群监控>集群服务监控

排除方法:

因为hmaster由主备模式,当发现备用hmaster节点故障时,不会影响整个hbase的服务,我们尽快排查错误日志,重新启动服务即可

第一步:登录到故障节点,查看日志告警记录,命令如下: cd /opt/hbase/logs下//进入日志目录

tail -200f hbase-hadoop-master-TY102-M02.log//查看日志最新200条日志信息 日志显示:

2013-10-20 10:33:15,466 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Creating scanner over .META. starting at key ''

2013-10-20 10:33:15,467 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Advancing internal scanner to startKey at ''

2013-10-20 10:33:15,604 INFO org.apache.hadoop.hbase.master.LoadBalancer: Skipping load balancing because balanced cluster; servers=7 regio

ns=2262 average=323.14285 mostloaded=324 leastloaded=323

2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.client.HTable$ClientScanner: Finished with

scanning at {NAME => '.META.,,1', STARTKEY => '', ENDKEY => '', ENCODED => 1028785192,}

2013-10-20 10:33:16,347 DEBUG org.apache.hadoop.hbase.master.CatalogJanitor: Scanned 2260 catalog row(s) and gc'd 0 unreferenced parent reg ion(s)

2013年10月20日星期日10:35:31 CST Killing master 第二步:重新启动hmaster服务;命令如下:

/opt/hbase/sbin/ hbase-daemon.sh start master //重启启动hmaster服务

查看日志信息:tail –200f /opt/ hbase /logs/ hbase -hadoop-master-TY102-M02.log 如果没有异常,服务正常启动。

第三步:确认服务是否正常,查看日志状态和使用jps查看服务状态 查看日志显示:

2013-10-20 10:32:33,370 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Adding ZNode for /hbase/backup-masters/TY102-M02,60000,138 2236353080 in backup master directory

2013-10-20 10:32:33,374 INFO org.apache.hadoop.hbase.master.ActiveMasterManager: Another master is the active master, TY101-M01,60000,13821 10982913; waiting to become the next standby master

2.4.10、regionserver服务故障报警

现象描述:syslog日志告警

Syslog报警日志信息:例如snode7的regionserver服务down掉

[2013-10-20 10:50:02 INFO ] [com.cms.web.syslog.SyslogUtil:100] - 发送:

CEB-HDQS|+|CEB-HDQS|+|1001|+|1001|+|NA|+|TY101-007|+|检测RegionServer服务状态|+|TY101-007:60020|+|dead|+|APP|+|HDQS|+|RegionServer|+|1|+|TY101-007上RegionServer服务故障|+|1382237162|+|xiaoxu|+|13810466464 后台进入系统用户下输入jps显示集群服务状态 标记红色框内的服务不存在

使用BDP监控平台查看snode7上的regionserver故障信息

平台首页>管理控制台>集群监控>集群服务监控

排除方法:

第一步:登录到监控告警节点,查看日志告警记录,命令如下: cd /opt/hbase/logs //进入日志目录

tail -200f hbase -hadoop-regionserver-TY101-M01.log //查看日志最新200条日志信息 第二步:重新启动regionserver服务;命令如下:

/opt/hbase/sbin/hbase-daemon.sh start regionserver//重启启动regionserver服务

查看日志信息:tail –200f /opt/ hbase /logs/ hbase -hadoop-regionserver-TY101-001.log 如果没有异常,服务正常启动。

第三步:确认服务是否正常,查看日志状态和使用jps查看服务状态 查看日志:

2013-09-29 14:30:13,236 INFO org.apache.hadoop.ipc.HBaseServer: IPC Server handler 9 on 60020: starting

2013-09-29 14:30:13,236 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 0 on 60020: starting

2013-09-29 14:30:13,236 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 1 on 60020: starting

2013-09-29 14:30:13,237 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 2 on 60020: starting

2013-09-29 14:30:13,237 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 3 on 60020: starting

2013-09-29 14:30:13,237 INFO org.apache.hadoop.ipc.HBaseServer: PRI IPC Server handler 4 on 60020: starting


Hadoop大数据环境搭建v1.0(9).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:“十三五”重点项目-单冻水产品项目商业计划书

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: