tencent cloud

文档反馈

作业失败事件

最后更新时间:2023-11-07 16:46:16

    事件介绍

    流计算作业失败事件表示 Flink 作业由运行状态进入了失败或重启等异常状态,该现象可能引起数据处理中断、下游输出延迟等问题。

    判定标准

    事件的触发条件

    1. 当 Flink 作业在运行期间,由于突发情况,从 RUNNING 状态变为 FAILEDRESTARTING 等异常状态时(后续 Flink JobManager 负责自动恢复作业,耗时约 10s,恢复后运行实例 ID 不变)。
    2. 当 Flink 作业由于重启次数过多或过于频繁,超出 重启策略 的限制(该阈值通常由 restart-strategy.fixed-delay.attempts 参数控制,默认为5,实际生产环境下建议调大),导致 JobManager 和 TaskManager 整体退出时(后续会被系统从最近一次成功的快照点尝试恢复,耗时约2分钟,恢复后运行实例 ID 会增加1)。

    事件的恢复条件

    当 Flink 或 Oceanus 将作业重新恢复到 RUNNING 状态时,会发送 “作业失败已恢复” 事件,代表本次告警结束。

    告警配置

    用户可以对该事件 配置告警策略,并实时接收触发和恢复的告警通知。

    处理建议

    首先可以通过我们提供的 日志快捷诊断 功能,检索发生该事件的作业实例 ID 的异常日志。通常而言,from RUNNING to FAILED 关键字前后的报错信息是导致作业失败的直接原因。我们建议结合 JobManager 和 TaskManager 的日志一起分析。
    如果上述诊断仍然未能发现问题所在,则可以通过 查看作业监控信息 来判断是否出现了资源超用等问题。重点可以关注 TaskManager 的 CPU 用量、堆内存用量、Full GC 次数和时间等指标,检查是否存在明显异常。
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持