tencent cloud
腾讯云
最新优惠
产品
解决方案
价格中心
合作伙伴网络
云市场
探索更多
Prev
Next
腾讯云
注册
登录
最新优惠
产品
解决方案
价格中心
合作伙伴网络
云市场
探索更多
语言
International
Intl - English
Intl - 한국어
Intl - 日本語
Intl - 简体中文
Intl - Português
Intl - Bahasa Indonesia
中国站
简体中文
联系我们
控制台
文档
搜索
文档反馈
请输入关键字
Recent Pages
Cloud Virtual Machine
Auto Scaling
CVM Dedicated Host
Batch Compute
Cloud File Storage
文档
流计算 Oceanus
动态与公告
产品动态
产品简介
产品概述
产品优势
应用场景
购买指南
计费概述
计费模式
退费说明
调整配置费用说明
快速入门
从零开始上手
创建独享集群
创建 SQL 作业
创建 JAR 作业
创建 ETL 作业
创建 Python 作业
操作指南
作业管理
作业概览
作业类型
作业信息
作业操作
作业开发
开发批作业
作业高级参数
作业最大并行度
作业资源配置
版本管理
作业监控
查看作业监控信息
配置作业监控告警(数值指标)
配置作业事件告警(异常事件)
监控指标一览
接入 Prometheus 自定义监控
查看作业 Flink UI
作业日志
配置采集作业运行日志
事件与诊断
日志诊断指南
查看关键事件
各类事件说明
快照失败事件
作业失败事件
TaskManager Pod 异常退出事件
JobManager Pod 异常退出事件
TaskManager Full GC 过久事件
TaskManager CPU 负载过高事件
TaskManager 背压较高/严重事件
JobManager CPU 负载过高事件
JobManager Full GC 过久事件
元数据管理
库表管理
变量管理
使用 Hive Catalog
快照管理
作业调优
作业自动调优
依赖管理
集群管理
查看集群信息
扩容集群
销毁集群
缩容集群
迁移集群
自定义DNS
网络连通性检查
权限管理
权限概述
基础权限配置指引
空间角色权限
SQL 开发指南
开发指南概述
术语和数据类型
术语表
数据类型
DDL 数据定义语句
CREATE TABLE
CREATE VIEW
CREATE FUNCTION
DML 数据操作语句
查询语句
INSERT 语句
MySQL CDC 多 Source 复用
上下游开发指南
消息队列 Kafka
消息队列 Upsert Kafka
消息队列 CMQ
消息队列 TDMQ RabbitMQ
数据库 MySQL CDC
消息队列 Pulsar
数据库 TDSQL-MySQL
数据库 Redis
数据库 MongoDB CDC
数据库 MongoDB
数据库 PostgreSQL CDC
数据库 HBase
数据仓库 Hive
数据仓库 ClickHouse
数据湖计算 DLC
数据仓库 Kudu
云数据仓库 TCHouse-P
数据库连接 JDBC
文件系统 FileSystem
模拟上下游 Datagen Logger Blackhole
自定义 Connector
数据湖 Hudi
数据湖 Iceberg
数据库 SQLServer CDC
数据库 StarRocks
SET 控制语句
Flink 配置项
运算符和内置函数
概览
内置函数差异对比
比较函数
逻辑和位运算函数
算术函数
条件函数
字符串操作函数
类型转换函数
时间相关函数
聚合函数
时间窗口函数
其他函数
标识符与保留字
命名规则
保留字
Python 开发指南
ETL 开发指南
概述
ETL 作业术语表
上下游开发指南
数据源表 MySQL
数据目的表 MySQL
数据目的表 PostgreSQL
数据目的表 ClickHouse
数据目的表 Elasticsearch
常见问题
联系我们
文档
动态与公告
产品动态
产品简介
产品概述
产品优势
应用场景
购买指南
计费概述
计费模式
退费说明
调整配置费用说明
快速入门
从零开始上手
创建独享集群
创建 SQL 作业
创建 JAR 作业
创建 ETL 作业
创建 Python 作业
操作指南
作业管理
作业概览
作业类型
作业信息
作业操作
作业开发
开发批作业
作业高级参数
作业最大并行度
作业资源配置
版本管理
作业监控
查看作业监控信息
配置作业监控告警(数值指标)
配置作业事件告警(异常事件)
监控指标一览
接入 Prometheus 自定义监控
查看作业 Flink UI
作业日志
配置采集作业运行日志
事件与诊断
日志诊断指南
查看关键事件
各类事件说明
快照失败事件
作业失败事件
TaskManager Pod 异常退出事件
JobManager Pod 异常退出事件
TaskManager Full GC 过久事件
TaskManager CPU 负载过高事件
TaskManager 背压较高/严重事件
JobManager CPU 负载过高事件
JobManager Full GC 过久事件
元数据管理
库表管理
变量管理
使用 Hive Catalog
快照管理
作业调优
作业自动调优
依赖管理
集群管理
查看集群信息
扩容集群
销毁集群
缩容集群
迁移集群
自定义DNS
网络连通性检查
权限管理
权限概述
基础权限配置指引
空间角色权限
SQL 开发指南
开发指南概述
术语和数据类型
术语表
数据类型
DDL 数据定义语句
CREATE TABLE
CREATE VIEW
CREATE FUNCTION
DML 数据操作语句
查询语句
INSERT 语句
MySQL CDC 多 Source 复用
上下游开发指南
消息队列 Kafka
消息队列 Upsert Kafka
消息队列 CMQ
消息队列 TDMQ RabbitMQ
数据库 MySQL CDC
消息队列 Pulsar
数据库 TDSQL-MySQL
数据库 Redis
数据库 MongoDB CDC
数据库 MongoDB
数据库 PostgreSQL CDC
数据库 HBase
数据仓库 Hive
数据仓库 ClickHouse
数据湖计算 DLC
数据仓库 Kudu
云数据仓库 TCHouse-P
数据库连接 JDBC
文件系统 FileSystem
模拟上下游 Datagen Logger Blackhole
自定义 Connector
数据湖 Hudi
数据湖 Iceberg
数据库 SQLServer CDC
数据库 StarRocks
SET 控制语句
Flink 配置项
运算符和内置函数
概览
内置函数差异对比
比较函数
逻辑和位运算函数
算术函数
条件函数
字符串操作函数
类型转换函数
时间相关函数
聚合函数
时间窗口函数
其他函数
标识符与保留字
命名规则
保留字
Python 开发指南
ETL 开发指南
概述
ETL 作业术语表
上下游开发指南
数据源表 MySQL
数据目的表 MySQL
数据目的表 PostgreSQL
数据目的表 ClickHouse
数据目的表 Elasticsearch
常见问题
联系我们
快照失败事件
最后更新时间:2023-11-07 16:43:10
事件介绍
“流计算快照失败” 事件表示当作业启用了周期快照(Checkpoint)后,某次快照因为超时等各类原因未能完成。 对于长时间运行的作业,偶尔一次的快照失败事件可能并不意味着作业出现了严重异常,只有当快照频繁失败时才需要针对具体情况进行应对。例如在 Flink UI 的 Checkpoints 面板中,某作业的快照 ID 6717发生失败时,显示如下图:
判定标准
事件的触发条件
作业的某次快照未能完成,快照的最终状态为
FAILED
。
事件的恢复条件
作业后续有一次快照成功完成,快照的最终状态为
COMPLETED
。
告警配置
用户可以对该事件
配置告警策略
,并实时接收触发和恢复的告警通知。
处理建议
在事件面板,可以查看快照失败事件发生的原因。这里根据 Flink 执行链路的不同,可能显示出快照失败的直接原因,也有可能是一些较为泛化的报错,需要进一步分析。
我们还可以根据快照失败发生的时间点,通过
日志面板
或
Flink UI
查看作业的 JobManager 和 TaskManager 在该时间点附近的报错日志。
如果 TaskManager 数量过多或日志量较大,未能在快照失败的时间点找到报错,还可以通过我们提供的
日志快捷诊断
功能,全局检索发生该事件的作业实例 ID 的异常日志。
如果上述诊断仍然未能发现问题所在,则可以通过
查看作业监控信息
来判断是否出现了资源超用等问题。特别地,可以重点关注 TaskManager 的 CPU 用量、堆内存用量、Full GC 次数和时间等指标,检查是否存在明显异常。
本页内容是否解决了您的问题?
是
否
您也可以
联系销售
或
提交工单
以寻求帮助。
本页内容是否解决了您的问题?
是
否
您也可以
联系销售
或
提交工单
以寻求帮助。
联系我们
联系我们,为您的业务提供专属服务。
联系我们
技术支持
如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。
提交工单
7x24 电话支持
本页内容是否解决了您的问题?