点击“压缩”进入:
1.1.3.5 刷新队列
单个region的memstore写满(128M)或regionServer上所有region的memstore大小总合达到门限时会进行flush操作,flush操作会产生新的storeFile
同样可以通过CDH的hbase前台查看flush日志:
1.1.3.6 rpc调用队列
没有及时处理的rpc操作会放入rpc操作队列,从rpc队列可以看出服务器处理请求的情况 1.1.3.7 文件块保存在本地的百分比
datanode和regionserver一般都部署在同一台机器上,所以region server管理的region会优先存储在本地,以节省网络开销。如果block locality较低有可能是刚做过balance或刚重启,经过compact之后region的数据都会写到当前机器的datanode,block locality也会慢慢达到接近100:
1.1.3.8 内存使用情况
内存使用情况,主要可以看used Heap和memstore的大小,如果usedHeadp一直超过80-85%以上是比较危险的 memstore很小或很大也不正常 从region Server的前台可以看到:
1.1.3.9 slowHLogAppendCount
写HLog过慢(>1s)的操作次数,这个指标可以作为HDFS状态好坏的判断
在region Server前台查看:
1.1.4 CDH检查日志
CDH有强大的系统事件和日志搜索功能,每一个服务(如:hadoop,hbase)的主页都提供了事件和告警的查询,日常运维除了CDH主页的告警外,需要查看这些事件以发现潜在的问题:
选择“事件搜索”中的标签(“警报”、“严重”)可以进入相关的事件日志,如“严重”:
1.2 检查数据一致性以及修复方法
数据一致性是指: 1.
每个region都被正确的分配到一台regionserver上,并且region的位置信息及状态都是正确的。 2.
每个table都是完整的,每一个可能的rowkey 都可以对应到唯一的一个region. 1.2.1 检查 hbase hbck
注:有时集群正在启动或region正在做split操作,会造成数据不一致
hbase hbck -details
加上–details会列出更详细的检查信息,包括所以正在进行的split任务
hbase hbck Table1 Table2
如果只想检查指定的表,可以在命令后面加上表名,这样可以节省操作时间 CDH