跳转至

Mesos

Mesos 是一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行 Hadoop、MPI、Hypertable、Spark。

Cloud Insight 监控 Mesos 资源,节点,任务的数量,CPU,磁盘数据的可视化。


性能指标

Cloud Insight 采集 Mesos 以下性能指标:

指标 单位 具体含义
mesos.cluster.cpus_percent percent 分配的 CPU 占总量的百分比
mesos.cluster.cpus_total CPU 的总数
mesos.cluster.cpus_used 分配的 CPU 的数量
mesos.cluster.disk_percent percent 分配的磁盘空间占总量的百分比
mesos.cluster.disk_total mebibytes 磁盘空间总量
mesos.cluster.disk_used mebibytes 分配的磁盘空间的大小
mesos.cluster.dropped_messages messages 被丢弃的消息的数量
mesos.cluster.event_queue_dispatches 在事件队列(event queque)中调度的数量
mesos.cluster.event_queue_http_requests requests 在事件队列(event queque)中 http 请求的数量
mesos.cluster.event_queue_messages messages 在事件队列(event queque)中消息的数量
mesos.cluster.frameworks_active 活跃框架(framwork)的数量
mesos.cluster.frameworks_connected 连接中的框架(framwork)数量
mesos.cluster.frameworks_disconnected 断开的框架(framwork)数量
mesos.cluster.frameworks_inactive 不活跃的框架(framwork)数量
mesos.cluster.invalid_framework_to_executor_messages messages 失效的从 framework 传到 executor 的消息的数量
mesos.cluster.invalid_status_update_acknowledgements 无效的状态更新确认消息的数量
mesos.cluster.invalid_status_updates 无效的状态更新数量
mesos.cluster.mem_percent percent 占用内存的百分比
mesos.cluster.mem_total mebibytes 总内存
mesos.cluster.mem_used mebibytes 占用内存
mesos.cluster.outstanding_offers 未处理的资源邀约数量
mesos.cluster.slave_registrations 能够干净地完成与 master 断开然后重联的 slave 的数量
mesos.cluster.slave_removals 由于各种原因(包括维护)删除的 slave 数
mesos.cluster.slave_reregistrations 重新注册的 slave 的数
mesos.cluster.slave_shutdowns_canceled 被取消的删除 slave 操作的数量
mesos.cluster.slave_shutdowns_scheduled 因为健康检查失败而被计划删除的 slave 的数量
mesos.cluster.slaves_active 活跃的 slave 的数量
mesos.cluster.slaves_connected 连接中的 slave 的数量
mesos.cluster.slaves_disconnected 断开的 slave 的数量
mesos.cluster.slaves_inactive 不活跃的 slave 的数量
mesos.cluster.tasks_error tasks 无效任务的数量
mesos.cluster.tasks_failed tasks 失败任务的数量
mesos.cluster.tasks_finished tasks 完成任务的数量
mesos.cluster.tasks_killed tasks 中断的任务的数量
mesos.cluster.tasks_lost tasks 丢失的任务的数量
mesos.cluster.tasks_running tasks 正在运行的任务的数量
mesos.cluster.tasks_staging tasks 待处理的任务的数量
mesos.cluster.tasks_starting tasks 正在开始的任务的数量
mesos.cluster.valid_framework_to_executor_messages messages 有效的从 framework 传到 executor 的消息的数量
mesos.cluster.valid_status_update_acknowledgements 有效的状态更新确认消息的数量
mesos.cluster.valid_status_updates 有效的状态更新数量
mesos.framework.cpu 框架 CPU
mesos.framework.disk mebibytes 框架磁盘
mesos.framework.mem mebibytes 框架内存
mesos.registrar.queued_operations 排队的操作的数量
mesos.registrar.registry_size_bytes bytes 注册表大小
mesos.registrar.state_fetch_ms milliseconds 从注册表读取的延迟时间
mesos.registrar.state_store_ms milliseconds 写入到注册表中的延迟时间
mesos.registrar.state_store_ms.count 注册表写入次数
mesos.registrar.state_store_ms.max milliseconds 写入到注册表的最大延迟时间
mesos.registrar.state_store_ms.min milliseconds 写入到注册表的最小延迟时间
mesos.registrar.state_store_ms.p50 milliseconds 写入到注册表的延迟时间的中值
mesos.registrar.state_store_ms.p90 milliseconds 第 90 百分位的注册表写入延迟时间
mesos.registrar.state_store_ms.p95 milliseconds 第 95 百分位的注册表写入延迟时间
mesos.registrar.state_store_ms.p99 milliseconds 第 99 百分位的注册表写入延迟时间
mesos.registrar.state_store_ms.p999 milliseconds 第 99.9 百分位的注册表写入延迟时间
mesos.registrar.state_store_ms.p9999 milliseconds 第 99.99 百分位的注册表写入延迟时间
mesos.role.cpu Role cpu
mesos.role.disk mebibytes Role disk
mesos.role.mem mebibytes Role mem
mesos.slave.cpus_percent percent 分配的 CPU 占总量的百分比
mesos.slave.cpus_total CPU 的总数
mesos.slave.cpus_used 分配的 CPU 的数量
mesos.slave.disk_percent percent 分配的磁盘空间占总量的百分比
mesos.slave.disk_total mebibytes 磁盘空间总量
mesos.slave.disk_used mebibytes 分配的磁盘空间的大小
mesos.slave.executors_registering 注册中的执行器(executor)的数量
mesos.slave.executors_running 运行中的执行器(executor)的数量
mesos.slave.executors_terminated 已终止的执行器(executor)的数量
mesos.slave.executors_terminating 终止中的执行器(executor)的数量
mesos.slave.frameworks_active 活跃框架(framwork)的数量
mesos.slave.invalid_framework_messages messages 失效的框架消息(framework messages)的数量
mesos.slave.invalid_status_updates 无效的状态更新的数量
mesos.slave.mem_percent percent 占用内存的百分比
mesos.slave.mem_total mebibytes 总内存
mesos.slave.mem_used mebibytes 占用内存
mesos.slave.recovery_errors errors slave 恢复过程中的错误数
mesos.slave.tasks_failed tasks 失败的任务数量
mesos.slave.tasks_finished tasks 完成的任务数量
mesos.slave.tasks_killed tasks 中断的任务数量
mesos.slave.tasks_lost tasks 丢失的任务数量
mesos.slave.tasks_running tasks 运行中的任务数量
mesos.slave.tasks_staging tasks 待处理的任务数量
mesos.slave.tasks_starting tasks 正在开始的任务数量
mesos.slave.valid_framework_messages messages 有效的框架消息(framework messages)的数量
mesos.slave.valid_status_updates 有效的状态更新的数量
mesos.state.task.cpu Task cpu
mesos.state.task.disk mebibytes Task disk
mesos.state.task.mem mebibytes Task memory
mesos.stats.elected 是否是 leading master
mesos.stats.registered 该 slave 是否注册 master
mesos.stats.system.cpus_total 可用的 CPU 的数量
mesos.stats.system.load_15min 过去 15 分钟内的平均负载
mesos.stats.system.load_1min 过去 1 分钟内的平均负载
mesos.stats.system.load_5min 过去 5 分钟内的平均负载
mesos.stats.system.mem_free_bytes bytes 空闲的内存
mesos.stats.system.mem_total_bytes bytes 总内存
mesos.stats.uptime_secs Slave 运行时间(秒)

配置 Mesos

编辑 Master 配置文件

在 Master 节点,编辑配置文件 conf.d/mesos_master.yaml,使 Cloud Insight Agent 可以与 Mesos Master API 通信。

init_config:
  default_timeout: 5
instances:
  # url: the API endpoint of your Mesos
master
  - url: https://server:port

重启 Agent

重启 Cloud Insight Agent,使配置生效。

您也可以通过查看 Agent Info 信息,来验证配置是否成功。当出现以下信息,则代表安装成功。

Checks
======

[...]

mesos_master
------------
  - instance #0 [OK]
  - Collected 8 metrics & 0 events

编辑 Slave 配置文件

在 Master 节点,编辑配置文件 conf.d/mesos_slave.yaml,使 Cloud Insight Agent 可以与 Mesos Slave API 通信。

init_config:
  default_timeout: 5
instances:
  # url: the API endpoint of your Mesos slave
  - url: https://server:port
    # tasks: Task's names to monitor
    tasks:
      - Hello

重启 Agent

重启 Cloud Insight Agent,使配置生效。

您也可以通过查看 Agent Info 信息,来验证配置是否成功。当出现以下信息,则代表安装成功。

Checks
======

[...]

mesos_slave
-----------
  - instance #0 [OK]
  - Collected 8 metrics & 0 events

有关 Agent Info 信息的查看,请访问帮助中心,查看 Cloud Insight Agent 常用操作


5分钟,开启你的跨云监控之旅 (`⌄´ )


常见问题