跳转至

HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。


性能指标

Cloud Insight 采集 HDFS 以下性能指标:

指标 单位 具体含义
hdfs.capacity bytes DFS 的总容量
hdfs.corrupt_blocks blocks 有 corrupt replicas 的 block 数
hdfs.datanode.cache_capacity bytes 缓存容量
hdfs.datanode.cache_used bytes 已使用缓存
hdfs.datanode.dfs_capacity bytes 磁盘容量
hdfs.datanode.dfs_remaining bytes 磁盘剩余空间
hdfs.datanode.dfs_used bytes 已使用磁盘空间
hdfs.datanode.estimated_capacity_lost_total bytes 预估容量损失
hdfs.datanode.last_volume_failure_date milliseconds 最后一次故障时间
hdfs.datanode.num_blocks_cached blocks 缓存 block 数
hdfs.datanode.num_blocks_failed_to_cache blocks 缓存失败 block 数
hdfs.datanode.num_blocks_failed_to_uncache blocks 从缓存中移除失败的 block 数
hdfs.datanode.num_failed_volumes Number of failed volumes 未启用的数据卷个数
hdfs.free bytes DFS 的总空闲空间
hdfs.in_use fractions 应用于 DFS 的磁盘空间百分比
hdfs.missing_blocks blocks 丢失的 block 数
hdfs.namenode.blocks_total blocks block 总数
hdfs.namenode.capacity_remaining bytes 磁盘剩余空间
hdfs.namenode.capacity_total bytes 磁盘容量
hdfs.namenode.capacity_used bytes 已使用磁盘空间
hdfs.namenode.corrupt_blocks blocks corrupt blocks 的数量
hdfs.namenode.estimated_capacity_lost_total bytes 预估容量损失
hdfs.namenode.files_total files 文件总数
hdfs.namenode.fs_lock_queue_length Lock queue length namenode 被锁队列长度
hdfs.namenode.max_objects objects HDFS 支持的最大文件数量
hdfs.namenode.missing_blocks blocks 丢失的 block 数
hdfs.namenode.num_dead_data_nodes nodes dead 数据节点总数
hdfs.namenode.num_decom_dead_data_nodes nodes 退役的 dead 数据节点数量
hdfs.namenode.num_decom_live_data_nodes nodes 退役的 live 数据节点数量
hdfs.namenode.num_decommissioning_data_nodes nodes 退役的数据节点数量
hdfs.namenode.num_live_data_nodes nodes live 数据节点总数
hdfs.namenode.num_stale_data_nodes nodes stale 数据节点数量
hdfs.namenode.num_stale_storages Number of stale storages stale 存储的数量
hdfs.namenode.pending_deletion_blocks blocks 待删除的 block 数量
hdfs.namenode.pending_replication_blocks blocks 待复制的 block 数量
hdfs.namenode.scheduled_replication_blocks blocks 计划要复制的 block 数量
hdfs.namenode.total_load Total load on the file system namenode 总负载(特指 regionserver 个数)
hdfs.namenode.under_replicated_blocks blocks 被复制的 block 数量
hdfs.namenode.volume_failures_total Total volume failures namenode 失效数据卷总数
hdfs.under_replicated blocks 被复制的 block 数量
hdfs.used bytes 用于 DFS 的磁盘空间

配置 HTTP 监控

1.在 NameNode 开启 JMX URI

切换路径至 /etc/CiAgent

cd /etc/CiAgent

开启配置文件 conf.d/hdfs_namenode.yaml

cp conf.d/hdfs_namenode.yaml.example conf.d/hdfs_namenode.yaml

内容如下:

init_config:

instances:
  #
  # The HDFS NameNode check retrieves metrics from the HDFS NameNode's JMX
  # interface. This check must be installed on the NameNode. The HDFS
  # NameNode JMX URI is composed of the NameNode's hostname and port.
  #
  # The hostname and port can be found in the hdfs-site.xml conf file under
  # the property dfs.http.address or dfs.namenode.http-address
  #
  -  hdfs_namenode_jmx_uri: http://localhost:50070

2.重启 Agent

重启 Cloud Insight Agent,使配置生效。

/etc/init.d/CiAgent restart

您也可以通过查看 Agent Info 信息,来验证配置是否成功。

/etc/init.d/CiAgent info

当出现以下信息,则代表安装成功。

Checks
======

 [...]

hdfs_namenode
---------
  - instance #0  [OK]
  - Collected 8 metrics & 0 events

3.在 DataNode 开启 JMX URI

切换路径至 /etc/CiAgent

cd /etc/CiAgent

开启配置文件 conf.d/hdfs_datanode.yaml

cp conf.d/hdfs_datanode.yaml.example conf.d/hdfs_datanode.yaml

内容如下:

init_config:

instances:
  #
  # The HDFS DataNode check retrieves metrics from the HDFS DataNode's JMX
  # interface. This check must be installed on a HDFS DataNode. The HDFS
  # DataNode JMX URI is composed of the DataNode's hostname and port.
  #
  # The hostname and port can be found in the hdfs-site.xml conf file under
  # the property dfs.datanode.http.address
  #
  - hdfs_datanode_jmx_uri: http://localhost:50075

4.重启 Agent

重启 Cloud Insight Agent,使配置生效。

/etc/init.d/CiAgent restart

您也可以通过查看 Agent Info 信息,来验证配置是否成功。

/etc/init.d/CiAgent info

当出现以下信息,则代表安装成功。

Checks
======

 [...]

hdfs_datanode
---------
  - instance #0  [OK]
  - Collected 8 metrics & 0 events

有关 Agent Info 信息的查看,请访问帮助中心,查看 Cloud Insight Agent 常用操作


5分钟,开启你的跨云监控之旅 (`⌄´ )


常见问题