组件健康状态 | 健康状态说明 | 状态聚合规则 |
绿色:良好 | 服务运行正常。 | 全部角色实例健康状态是良好。 |
橙色:存在隐患 | 服务可用,部分角色实例健康状态为不可用或存在隐患,需关注处理。 | 该组件某角色的部分实例健康状态为不可用或存在隐患。例如,HDFS 有1个 NameNode 角色实例和2个 DataNode 角色实例,其中1个 DataNode 角色实例健康状态为不可用,另1个 DataNode 角色实例和 NameNode 角色实例健康状态为良好,HDFS 健康状态为存在隐患。 |
红色:不可用 | 服务不可用,某角色的全部实例健康状态不可用,请及时处理。 | 该组件某角色的全部实例健康状态不可用。例如,HDFS 有1个 NameNode 角色实例和2个 DataNode 角色实例,其中2个 DataNode 角色实例健康状态为不可用,1个 NameNode 角色实例的健康状态为良好,HDFS 健康状态为不可用。 |
灰色:未知或未探测 | 服务健康状态未知或未探测。无进程组件无健康状态为未探测,有进程组件如进入维护模式或操作状态已停止为未探测;有进程组件如无法正确获取角色实例健康状态信息为未知。如排查业务无问题,无需关注。 | 1. 该组件全部角色实例健康状态非存在隐患或不可用的角色,且至少有一个角色实例健康状态为未知。例如,HDFS 有1个 NameNode 角色实例和2个 DataNode 角色实例,其中1个 DataNode 角色实例健康状态为未知,另1个 DataNode 角色实例和 NameNode 角色实例健康状态为良好,HDFS 健康状态为未知; 2. 该服务全部角色实例健康状态为未探测。当服务全部角色实例进入维护模式或操作状态已停止时,其健康状态不做探测。 3. 该组件无进程,则其健康状态不做探测,如 Iceberg、Hudi、Flink 等。 |
服务操作 | 说明 |
HDFS NameNode 主备切换 | 简称 NN 主备切换,将当前处于 Active 状态的 NameNode 转成 StandBy 状态,并将原先处于 StandBy 状态的 NameNode 转成 Active 状态。 |
HDFS 数据均衡 | 通常需要在有新 DataNode 加入时执行,本操作会使数据分布均匀,避免热点问题,使集群读写负载更均衡。 |
HDFS 管理状态切换 | 仅支持切换 DataNode 维护状态(IN_MAINTENANCE),该功能通常用于 DataNode 短暂下线,但是不需要迁移数据的场景。目前 Hadoop3.x 及以上版本支持该功能。详细操作参见 HDFS DataNode 维护状态切换实践教程。 |
Yarn ResourceManager 主备切换 | 简称 RM 主备切换,将当前处于 Active 状态的 ResourceManager 转成 StandBy 状态,并将原先处于 StandBy 状态的 ResourceManager 转成 Active 状态。 RM 主备切换只有当 yarn.resourcemanager.ha.automatic-failover.enabled 禁用时才允许操作。 若 RM 主备切换未在 Yarn 卡片操作下拉框中显示,请在 Yarn 配置管理-配置文件 yarn-site.xml 中找到 yarn.resourcemanager.ha.automatic-failover.enabled,并对其进行禁用。 |
Yarn 刷新队列 | 当 capacity-scheduler.xml、fair-scheduler.xml 新增或更新内容时,本操作可以使这些内容在 ResourceManager 中生效。 注意,不要去删除 capacity-scheduler.xml、fair-scheduler.xml 中定义的已生效的队列。 |
Ranger 修改元数据库 | 当需要更改 Ranger 底层的数据库时,需要修改 conf/install.properties 文件,然后在本地执行 setup.sh 脚本,本操作提供一键配置元数据库功能,避免用户修改 Ranger 元数据库地址时因改漏配置导致服务异常。 本操作当前仅支持 Mysql 数据库,且测试连接功能仅用于测试管理员用户的连接。本操作将数据库的信息同步到本地的 ranger-admin-site.xml 配置文件中,但是不会同步修改配置管理中 ranger-admin-site.xml 的内容,若用户因为额外的需求在配置管理页修改并下发 ranger-admin-site.xml,会导致数据库信息被覆盖,从而导致异常。 |
组件 | 服务 | 暂停方式 | 描述 | 备注 |
HDFS | NameNode | 快速暂停 | 直接停止服务 | - |
| DataNode | 快速暂停 | 直接停止服务 | - |
| JournalNode | 快速暂停 | 直接停止服务 | - |
| zkfc | 快速暂停 | 直接停止服务 | - |
YARN | ResourceManager | 快速暂停 | 直接停止服务 | - |
| NodeManager | 快速暂停 | 直接停止服务 | - |
| JobHistoryServer | 快速暂停 | 直接停止服务 | - |
| TimeLineServer | 快速暂停 | 直接停止服务 | - |
HBASE | HbaseThrift | 快速暂停 | 直接停止服务 | - |
| HMaster | 快速暂停 | 直接停止服务 | - |
| RegionServer | 快速暂停 | 直接停止服务 | - |
| RegionServer | 安全暂停 | 在停止 RegionServer 之前,会先迁移该 RegionServer 上的 Region | 支持设置线程并发度 |
HIVE | HiveMetaStore | 快速暂停 | 直接停止服务 | - |
| HiveServer2 | 快速暂停 | 直接停止服务 | - |
| HiveWebHcat | 快速暂停 | 直接停止服务 | - |
PRESTO | PrestoCoordinator | 快速暂停 | 直接停止服务 | - |
| PrestoWorker | 快速暂停 | 直接停止服务 | - |
ZOOKEEPER | QuorumPeerMain | 快速暂停 | 直接停止服务 | - |
SPARK | SparkJobHistoryServer | 快速暂停 | 直接停止服务 | - |
HUE | Hue | 快速暂停 | 直接停止服务 | - |
OOZIE | Oozie | 快速暂停 | 直接停止服务 | - |
STORM | Nimbus | 快速暂停 | 直接停止服务 | - |
| Supervisor | 快速暂停 | 直接停止服务 | - |
| Logviewer | 快速暂停 | 直接停止服务 | - |
| Ui | 快速暂停 | 直接停止服务 | - |
RANGER | Ranger | 快速暂停 | 直接停止服务 | - |
ALLUXIO | AlluxioMaster | 快速暂停 | 直接停止服务 | - |
| AlluxioWorker | 快速暂停 | 直接停止服务 | - |
GANGLIA | Httpd | 快速暂停 | 直接停止服务 | - |
| Gmetad | 快速暂停 | 直接停止服务 | - |
| Gmond | 快速暂停 | 直接停止服务 | - |
本页内容是否解决了您的问题?