tencent cloud

文档反馈

快照失败事件

最后更新时间:2023-11-07 16:43:10

    事件介绍

    “流计算快照失败” 事件表示当作业启用了周期快照(Checkpoint)后,某次快照因为超时等各类原因未能完成。 对于长时间运行的作业,偶尔一次的快照失败事件可能并不意味着作业出现了严重异常,只有当快照频繁失败时才需要针对具体情况进行应对。例如在 Flink UI 的 Checkpoints 面板中,某作业的快照 ID 6717发生失败时,显示如下图:
    
    

    判定标准

    事件的触发条件

    作业的某次快照未能完成,快照的最终状态为 FAILED

    事件的恢复条件

    作业后续有一次快照成功完成,快照的最终状态为 COMPLETED

    告警配置

    用户可以对该事件 配置告警策略,并实时接收触发和恢复的告警通知。

    处理建议

    在事件面板,可以查看快照失败事件发生的原因。这里根据 Flink 执行链路的不同,可能显示出快照失败的直接原因,也有可能是一些较为泛化的报错,需要进一步分析。
    我们还可以根据快照失败发生的时间点,通过 日志面板Flink UI 查看作业的 JobManager 和 TaskManager 在该时间点附近的报错日志。
    如果 TaskManager 数量过多或日志量较大,未能在快照失败的时间点找到报错,还可以通过我们提供的 日志快捷诊断 功能,全局检索发生该事件的作业实例 ID 的异常日志。
    如果上述诊断仍然未能发现问题所在,则可以通过 查看作业监控信息 来判断是否出现了资源超用等问题。特别地,可以重点关注 TaskManager 的 CPU 用量、堆内存用量、Full GC 次数和时间等指标,检查是否存在明显异常。
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持