Metrics的英文含义是“度量”,这里可以理解为“监控指标”。关于Hadoop的Metrics,官网直接给出了总结,初学者很难理解,以下以HDFS为例来说明。
度量名称 | 度量含义 | 阀值 |
hadoop.dfs.namenode.SafeModeTime | safemode时间(单位:毫秒) | 120000 |
hadoop.dfs.namenode.BlockReportAvgTime | block report的平均时间(单位:毫秒) | 400 |
hadoop.dfs.namenode.FilesCreated | 每次统计间隔创建文件次数(每20分钟统计一次) | 1200000 |
hadoop.dfs.namenode.FsImageLoadTime | fsimage加载时间(单位:毫秒) | 10000 |
hadoop.dfs.datanode.BlockReportsAvgTime | 向namenode汇报block的平均时间(单位:毫秒) | 500 |
hadoop.dfs.datanode.CopyBlockOpAvgTime | 复制块的平均时间(单位:毫秒) | 5000 |
hadoop.dfs.datanode.ReadBlockOpAvgTime | 读数据块的平均时间(单位:纳秒) | 30,000,000 |
hadoop.dfs.datanode.WriteBlockOpAvgTime | 写数据块的平均时间(单位:纳秒) | 30,000,000 |
hadoop.dfs.datanode.PacketAckRoundTripTimeNanosAvgTime | 包确认平均时间(单位:纳秒) | 17,000,000 |
hadoop.dfs.datanode.FlushNanosAvgTime | 文件系统flush平均时间(单位:纳秒) | 360,000 |
hadoop.dfs.datanode.SendDataPacketBlockedOnNetworkNanosAvgTime | 网络上发送块平均时间(单位:纳秒) | 60,000,000 |
hadoop.dfs.datanode.SendDataPacketTransferNanosAvgTime | 网络上发送包平均时间(单位:纳秒) | 30,000,000 |
hadoop.dfs.FSNamesystem.CapacityRemainingGB | HDFS文件系统剩余的容量(单位:GB) | <4000 |
hadoop.dfs.FSNamesystem.CorruptBlocks | 已损坏的block数量(单位:比例) | 5 |
hadoop.dfs.FSNamesystem.ExcessBlocks | 多余的block(单位:比例) | 5 |
hadoop.dfs.FSNamesystem.ExpiredHeartbeats | 超时的心跳(单位:比例) | 5 |
hadoop.dfs.FSNamesystem.FilesTotal | 文件总数 | 200,000,000 |
hadoop.dfs.FSNamesystem.UnderReplicatedBlocks | 副本个数不够的block(单位:比例) | 5 |
hadoop.dfs.FSNamesystem.PostponedMisreplicatedBlocks | 被推迟处理的错误备份的block个数(单位:比例) | 5 |
hbase.regionserver.regionSplitFailureCount | regionsplit失败个数(单位:个数) | 每分钟变化超过10 |
hadoop.yarn.ClusterMetrics.NumLostNMs | 失去连接的nodemanager个数(单位:个数) | 每分钟变化超过0 |