hbase运维参考手册(项目实战)

2018-12-03 19:43

1 Hbase日常运维

1.1 监控Hbase运行状况

1.1.1 操作系统

1.1.1.1 IO

a. 群集网络IO,磁盘IO,HDFS IO

IO越大说明文件读写操作越多。当IO突然增加时,有可能:1.compact队列较大,集群正在进行大量压缩操作。 2.正在执行mapreduce作业

可以通过CDH前台查看整个集群综合的数据或进入指定机器的前台查看单台机器的数据:

b. Io wait

磁盘IO对集群的影响比较大,如果io wait时间过长需检查系统或磁盘是否有异常。通常IO增加时io wait也会增加,现在FMS

的机器正常情况io wait在50ms以下

跟主机相关的指标可以在CDH前台左上角先点“主机”选项卡然后选要查看的主机:

1.1.1.2 CPU

如果CPU占用过高有可能是异常情况引起集群资源消耗,可

以通过其他指标和日志来查看集群正在做什么。 1.1.1.3 内存

1.1.2 GC 情况

regionserver长时间GC会影响集群性能并且有可能会造成假死

JAVA

的情况

1.1.3 重要的hbase指标

1.1.3.1 region情况

需要检查

1. region的数量(总数和每台regionserver上的region数) 2. region的大小

如果发现异常可以通过手动merge region和手动分配region来调整

从CDH前台和master前台以及regionServer的前台都可以看到region数量,如master前台:

在region server前台可以看到storeFile大小:

1.1.3.2 缓存命中率

缓存命中率对hbase的读有很大的影响,可以观察这个指标来调整blockcache的大小。

从regionserver web页面可以看到block cache的情况:

1.1.3.3 读写请求数

通过读写请求数可以大概看出每台regionServer的压力,如果压力分布不均匀,应该检查regionServer上的region以及其它指标

master web上可以看到所以regionServer的读写请求数

regionServer上可以看到每个region的读写请求数

1.1.3.4 压缩队列

压缩队列存放的是正在压缩的storefile,compact操作对hbase的读写影响较大

通过cdh的hbase图表库可以看到集群总的压缩队列大小:

可以通过CDH的hbase主页查询compact日志:


hbase运维参考手册(项目实战).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:新学期小学各学科教学进度表及检测安排

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: