tencent cloud

文档反馈

查看关键事件

最后更新时间:2023-11-07 16:39:56

    功能介绍

    作业的运行期会有各类的事件发生,例如启动事件、作业运行失败事件、快照失败事件,以及其他各类异常事件等。我们在控制台提供了一个综合的事件面板,用户可以查看和订阅这些关键事件。
    在事件面板,用户可以选择希望查看的事件类型,并按运行实例 ID 和时间范围来进一步筛选查看的事件列表。如果希望清除查询条件,可以单击重置筛选条件来恢复默认设置,并再次拉取最新的事件。
    注意
    为了避免返回事件过多,我们限定用于筛选的连续时间段最长为7天,且最多能查看近90天的事件。

    事件分类

    作业启动、停止事件

    当用户在作业操作菜单选择运行,以及单击开发调试页面的发布草稿,或者作业崩溃退出被检测到时,系统会尝试启动该作业,并自动为本次运行创建一个新的实例 ID;随后在事件面板中,可以看到一个新的启动事件。当用户停止、重启作业,或者作业发生了崩溃并退出,则会在本次实例 ID 下,产生一条停止事件。作业启动时间和停止时间指的是内部流程执行完成的时间点,而非用户界面上点击操作的时间点。
    例如,表示用户或系统在 2021-11-10 16:49:30 启动了实例,又在 2021-10-10 16:55:52 终止了本次运行实例。

    作业运行失败、恢复事件

    当作业运行时发生了重启(由运行中 RUNNING 状态变成 重启中 RESTARTING 或 失败 FAILED 等异常状态),则会生成一条“发生作业失败”事件。如果后续作业又进入了 RUNNING 状态,则会生成一条“作业失败已恢复”事件。
    可选择操作 > 解决方案,查看事件的各类成因和解决方案。此外还可以对作业运行失败事件 配置告警

    快照失败、恢复事件

    如果作业启用了周期性快照,且在某次快照过程中发生了失败,则会生成一次“发生快照失败”事件。如果后续快照成功完成,则会生成一条“快照失败已恢复”事件。
    可选择操作 > 解决方案,查看事件的各类成因和解决方案。此外还可以对作业快照失败事件 配置告警

    各类作业异常事件(BETA)

    流计算 Oceanus 后台会持续监测和分析作业的运行状态,当作业遇到严重异常时(例如 TaskManager Full GC 过久、CPU 占用率长期过高、Pod 异常退出等),会推送相应事件以供用户查看和订阅,以此可判断作业的运行健康度。
    注意
    为了避免干扰用户,目前作业异常事件(Pod 异常退出事件除外)每小时最多推送1条。
    该功能当前处于 Beta 预览阶段,仅支持严重问题的检测,且阈值暂不支持调整,后续会逐步升级完善,敬请期待。
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持