产品名称 | 告警类型 | 指标/事件名称 | 告警规则 |
云服务器 | 指标告警 | CPU 利用率 | 统计粒度为1分钟;阈值为>95%;持续监控数据点为5个监控数据点 |
| | 内存利用率 | 统计粒度为1分钟;阈值为>95%;持续监控数据点为5个监控数据点 |
| | 磁盘利用率 | 统计粒度为1分钟;阈值为>95%;持续监控数据点为5个监控数据点 |
| | 外网带宽利用率 | 统计粒度为1分钟;阈值为>95%;持续监控数据点为5个监控数据点 |
| 事件告警 | 磁盘只读 | - |
云数据库 Mysql-主机监控 | 指标告警 | 磁盘利用率 | 统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点 |
| | CPU 利用率 | 统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点 |
| 事件告警 | 内存 OOM | - |
云数据库MongoDB | 指标告警 | 磁盘使用率 | 统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点 |
| | 连接使用率 | 统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点 |
云数据库Redis-CKV 版本/社区版 | 指标告警 | 容量使用率 | 统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点 |
云数据库 CynosDB-MySQL | 事件告警 | 内存 OOM | - |
| | | 实例只读(硬盘超限) |
云数据库CynosDB-PostgreSQL | 事件告警 | 内存不足 | - |
| | | 内存 OOM |
消息服务 CKafka-实例 | 指标告警 | 磁盘使用百分比 | 统计粒度为1分钟;阈值为>85%;持续监控数据点为5个监控数据点 |
Elasticsearch 服务 | 指标告警 | 平均磁盘使用率 | 统计粒度为1分钟;阈值为>80%;持续监控数据点为5个监控数据点 |
| | 平均 CPU 使用率 | 统计粒度为1分钟;阈值为>90%;持续监控数据点为5个监控数据点 |
| | 平均 JVM 内存使用率 | 统计粒度为1分钟;阈值为>85%;持续监控数据点为5个监控数据点 |
| | 集群健康状态 | 统计粒度为1分钟;阈值为>=1;持续监控数据点为5个监控数据点 |
数据传输服务 | 事件告警 | 数据迁移任务中断 | - |
| | 数据同步任务中断 | - |
| | 数据订阅任务中断 | - |
弹性 MapReduce-主机监控-磁盘 | 指标告警 | 磁盘空间使用率(used_all) | 统计粒度1分钟,阈值为>80%,连续5次满足条件则只告警一次 |
| | inode 使用率 | 统计粒度1分钟,阈值为>50%,连续5次满足条件则只告警一次 |
弹性 MapReduce-主机监控-CPU | 指标告警 | CPU 使用率(idle) | 统计粒度1分钟,阈值为<2%,连续5次满足条件则只告警一次 |
弹性 MapReduce-主机监控-内存 | 指标告警 | 内存使用占比(used_percent) | 统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次 |
弹性 MapReduce-主机监控-网络 | 事件告警 | 元数据库 Ping 失败 | - |
弹性 MapReduce-集群监控 | 事件告警 | 弹性扩缩容失败 | - |
弹性 MapReduce-HBASE-概览 | 指标告警 | 集群 RS 数量(numDeadRegionServers) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| | 集群处于 RIT Region 个数(ritCountOverThreshold) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
弹性 MapReduce-HBASE-HMaster | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
弹性 MapReduce-HBASE-RegionServer | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
| | Region 个数(regionCount) | 统计粒度1分钟,阈值为>600Count,连续5次满足条件则只告警一次 |
| | 操作队列请求数(compactionQueueLength) | 统计粒度1分钟,阈值为>500Count,连续5次满足条件则只告警一次 |
弹性 MapReduce-HDFS-NameNode | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
| | 缺失块统计(NumberOfMissingBlocks) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| 事件告警 | NameNode 发生主备切换 | - |
弹性 MapReduce-HDFS-DataNode | 指标告警 | XCEIVER 数量(XceiverCount) | 统计粒度1分钟,阈值为>1000Count,连续5次满足条件则只告警一次 |
| | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
弹性 MapReduce-HDFS-概览 | 指标告警 | 磁盘故障 | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| | 集群数据节点(NumDeadDataNodes) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| | 集群数据节点(NumStaleDataNodes) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| | HDFS 存储空间使用率(capacityusedrate) | 统计粒度1分钟,阈值为90%,连续5次满足条件则只告警一次 |
弹性 MapReduce-PRESTO-Presto_Coordinator | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
弹性 MapReduce-PRESTO-Presto_Worker | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
弹性 MapReduce-PRESTO-概览 | 指标告警 | 节点数量(Failed) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
弹性 MapReduce-CLICKHOUSE-Sever | 指标告警 | partitions 中最大的活跃数据块的数量 | 统计粒度1分钟,阈值为>250Count,连续5次满足条件则只告警一次 |
弹性 MapReduce-HIVE-HiveMetaStore | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
| | DaemonThreadCount | 统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次 |
| | ThreadCount | 统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次 |
弹性 MapReduce-HIVE-HiveSever2 | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为:>5s,连续5次满足条件则只告警一次 |
| | DaemonThreadCount | 统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次 |
| | ThreadCount | 统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次 |
弹性 MapReduce-YARN-概览 | 指标告警 | 节点个数(NumUnhealthyNMs) | 统计粒度1分钟,阈值为:>0Count,连续5次满足条件则只告警一次 |
| | 节点个数(NumLostNMs) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
弹性 MapReduce-YARN-NodeManager | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
弹性 MapReduce-YARN-ResourceManger | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
| 事件告警 | ResourceManager 发生主备切换 | - |
弹性 MapReduce-Zookeeper-Zookeeper | 指标告警 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5s,连续5次满足条件则只告警一次 |
| | ZNODE 个数(zk_znode_count) | 统计粒度1分钟,阈值为>100000Count,连续5次满足条件则只告警一次 |
| | 排队请求数(zk_outstanding_requests) | 统计粒度1分钟,阈值为>50Count,连续5次满足条件则只告警一次 |
负载均衡-公网负载均衡实例 | 指标告警 | 丢弃连接数 | 统计粒度1分钟,阈值为>10个,连续3次满足条件则只告警一次 |
| | 丢弃流入数据包 | 统计粒度1分钟,阈值为>10个,连续3次满足条件则只告警一次 |
| | 丢弃入带宽 | 统计粒度1分钟,阈值为>10MB,连续3次满足条件则只告警一次 |
| | 丢弃出带宽 | 统计粒度1分钟,阈值为>10MB,连续3次满足条件则只告警一次 |
| | 入带宽利用率 | 统计粒度1分钟,阈值为>80%,连续3次满足条件则只告警一次 |
| | 出带宽利用率 | 统计粒度1分钟,阈值为>80%,连续3次满足条件则只告警一次 |
本页内容是否解决了您的问题?