事件介绍
Flink 作业的 JobManager 负责整个作业的管理和调度工作,其 CPU 负载过高可能会导致作业出现各类异常。当作业的 JobManager 长期接近满载时,会触发本事件。
说明
该功能目前为 Beta 版,暂不支持规则的自定义,后续该能力会陆续上线。
判定标准
系统每 5 分钟会检测一次 Flink 作业中 JobManager 的 CPU 使用率指标。
当 JobManager 的 CPU 使用率连续 5 个数据点的值都超过 80%,则说明这个 JobManager 处于 CPU 高负载状态。
注意
为了避免频繁告警,每个作业的每个运行实例 ID 每小时最多触发一次该事件的推送。
告警配置
处理建议
造成 JobManager CPU 过高的原因较为复杂,我们建议增加作业的 资源配置,例如调大 JobManager 的规格。 此外,还可以通过 工单 等方式联系我们的技术人员以协助定位。
本页内容是否解决了您的问题?