1 Hbase日常运维
1.1 监控Hbase运行状况
1.1.1 操作系统
1.1.1.1 IO
a. 群集网络IO,磁盘IO,HDFS IO
IO越大说明文件读写操作越多。当IO突然增加时,有可能:1.compact队列较大,集群正在进行大量压缩操作。 2.正在执行mapreduce作业
可以通过CDH前台查看整个集群综合的数据或进入指定机器的前台查看单台机器的数据:
b. Io wait
磁盘IO对集群的影响比较大,如果io wait时间过长需检查系统或磁盘是否有异常。通常IO增加时io wait也会增加,现在FMS
的机器正常情况io wait在50ms以下
跟主机相关的指标可以在CDH前台左上角先点“主机”选项卡然后选要查看的主机:
1.1.1.2 CPU
如果CPU占用过高有可能是异常情况引起集群资源消耗,可
以通过其他指标和日志来查看集群正在做什么。 1.1.1.3 内存
1.1.2 GC 情况
regionserver长时间GC会影响集群性能并且有可能会造成假死
JAVA
的情况
1.1.3 重要的hbase指标
1.1.3.1 region情况
需要检查
1. region的数量(总数和每台regionserver上的region数) 2. region的大小
如果发现异常可以通过手动merge region和手动分配region来调整
从CDH前台和master前台以及regionServer的前台都可以看到region数量,如master前台:
在region server前台可以看到storeFile大小:
1.1.3.2 缓存命中率
缓存命中率对hbase的读有很大的影响,可以观察这个指标来调整blockcache的大小。
从regionserver web页面可以看到block cache的情况:
1.1.3.3 读写请求数
通过读写请求数可以大概看出每台regionServer的压力,如果压力分布不均匀,应该检查regionServer上的region以及其它指标
master web上可以看到所以regionServer的读写请求数
regionServer上可以看到每个region的读写请求数
1.1.3.4 压缩队列
压缩队列存放的是正在压缩的storefile,compact操作对hbase的读写影响较大
通过cdh的hbase图表库可以看到集群总的压缩队列大小:
可以通过CDH的hbase主页查询compact日志: