tencent cloud

文档反馈

监控指标一览

最后更新时间:2023-11-07 18:17:39
    通过查阅监控指标一览,您可以了解到监控指标中每个指标的指标含义。这有助于您更好的使用 Oceanus 的监控功能。

    监控指标一览

    注意
    您可以在 腾讯云可观测平台控制台 > 流计算 Oceanus 查看以下指标,同时也可以 配置告警
    指标中文名
    指标含义
    示例值
    作业每秒输入的记录数
    作业所有数据源(Source)每秒输入的数据总条数
    22478.14 Record/s
    作业每秒输出的记录数
    作业所有数据目的(Sink)每秒输出的数据总条数
    12017.09 Record/s
    作业每秒输入的数据量
    作业所有数据源(Source)每秒输入的数据总量(仅对 Kafka Source 有效)
    786576 Byte/s
    作业每秒输出的数据量
    作业所有数据目的(Sink)每秒输出的数据总量(仅对 Kafka Sink 有效)
    156872 Byte/s
    算子计算总耗时
    数据流经各个算子时的耗时总和。可能存在采样误差,数值仅供参考
    275 ms
    目的端 Watermark 延时
    当前时间戳与数据目的(Sink)输入侧 Watermark 之间的差值(多个 Sink 则取最大值)
    5432 ms
    TaskManager CPU 使用率
    作业中所有 TaskManager 的平均 CPU 使用率
    23.85%
    TaskManager 堆内存使用率
    作业中所有 TaskManager 的平均堆内存使用率
    57.12%
    TaskManager 堆内存用量
    作业中所有 TaskManager 的当前堆内存用量总和
    830897056.00 Bytes
    TaskManager 已提交的堆内存容量
    作业中所有 TaskManager 已提交(committed)的堆内存容量总和
    4937220096.00 Bytes
    TaskManager 堆内存最大容量
    作业中所有 TaskManager 的堆内存最大(max)容量总和
    4937220096.00 Bytes
    TaskManager 非堆内存用量
    作业中所有 TaskManager 非堆内存(JVM 元空间、代码缓存等)用量总和
    296651064.00 Bytes
    TaskManager 已提交的非堆内存容量
    作业中所有 TaskManager 已提交(committed)的非堆内存(JVM 元空间、代码缓存等)用量总和
    103219200.00 Bytes
    TaskManager 非堆内存最大容量
    作业中所有 TaskManager 非堆内存(JVM 元空间、代码缓存等)最大容量总和
    780140544.00 Bytes
    所有 TaskManager JVM 的物理内存用量的最大值
    作业中所有 TaskManager 所在的 JVM 的物理内存用量(RSS)的最大值,包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警
    3597035110.00 Bytes
    TaskManager 堆外直接内存缓存数
    作业中所有 TaskManager 堆外直接内存(Direct Buffer Pool)中的缓存(Buffer)个数之和
    10993.00 Items
    TaskManager 堆外直接内存用量
    作业中所有 TaskManager 堆外直接内存(Direct Buffer Pool)的用量之和
    360328431.00 Bytes
    TaskManager 堆外直接内存总容量
    作业中所有 TaskManager 堆外直接内存(Direct Buffer Pool)的最大容量之和
    360328431.00 Bytes
    TaskManager 堆外映射内存缓存数
    作业中所有 TaskManager 堆外映射内存(Mapped Buffer Pool)中的缓存(Buffer)个数之和
    4 Items
    TaskManager 堆外映射内存用量
    作业中所有 TaskManager 堆外映射内存(Mapped Buffer Pool)的用量之和
    33554432.00 Bytes
    TaskManager 堆外映射内存总容量
    作业中所有 TaskManager 堆外映射内存(Mapped Buffer Pool)的最大容量之和
    33554432.00 Bytes
    JobManager 老年代 GC 次数
    当前作业 JobManager 老年代 GC 次数
    3.00 Times
    JobManager 老年代 GC 时间
    当前作业 JobManager 老年代 GC 时间
    701.00 ms
    JobManager 年轻代 GC 次数
    当前作业 JobManager 年轻代 GC 次数
    53.00 Times
    JobManager 年轻代 GC 时间
    当前作业 JobManager 年轻代 GC 时间
    4094.00 ms
    最近一次的 Checkpoint 耗时
    当前作业最近一次的 Checkpoint 耗时
    723.00 ms
    最近一次的 Checkpoint 大小
    当前作业最近一次的 Checkpoint 大小
    751321.00 Bytes
    TaskManager 老年代 GC 次数
    作业中所有 TaskManager 老年代 GC 次数之和
    9.00 Times
    TaskManager 老年代 GC 时间
    作业中所有 TaskManager 老年代 GC 时间之和
    2014.00 ms
    TaskManager 年轻代 GC 次数
    作业中所有 TaskManager 年轻代 GC 次数之和
    889.00 Times
    TaskManager 年轻代 GC 时间
    作业中所有 TaskManager 年轻代 GC 时间之和
    15051.00 ms
    Checkpoint 成功完成次数
    当前作业 Checkpoint 成功完成次数
    11.00 Times
    Checkpoint 失败次数
    当前作业 Checkpoint 失败(例如超时、遇到异常等)的次数
    1.00 Times
    正在进行的 Checkpoint 个数
    当前作业进行中(未完成)的 Checkpoint 个数
    1.00 Times
    Checkpoint 总次数
    Checkpoint 总次数(进行中、已完成和失败的总和)
    13.00 Times
    严重异常数据个数
    算子中发生严重异常(例如抛出各种 Exception)的数据个数,如果大于1则会影响 Exactly-Once 语义(试验参数,仅供参考)
    0.00 Times
    当前实例崩溃重启次数
    当前实例 JobManager 记录的任务崩溃重启次数(不含 JobManager 退出后作业重新拉起的场景)
    10.00 Times
    JobManager 堆内存使用率
    当前作业 JobManager 堆内存使用率
    31.34%
    JobManager 堆内存的用量
    当前作业 JobManager 堆内存的用量
    1040001560.00 Bytes
    JobManager 已提交的堆内存容量
    当前作业 JobManager 已提交(committed)的堆内存容量
    3318218752.00 Bytes
    JobManager 堆内存最大容量
    当前作业 JobManager 堆内存最大容量
    3318218752.00 Bytes
    JobManager 非堆内存用量
    当前作业 JobManager 非堆内存(JVM 元空间、代码缓存等)用量
    117362656.00 Bytes
    JobManager 已提交的非堆内存容量
    当前作业已提交(committed)的 JobManager 非堆内存(JVM 元空间、代码缓存等)容量
    122183680.00 Bytes
    JobManager 非堆内存最大容量
    当前作业 JobManager 非堆内存(仅限 JVM 元空间、代码缓存等)的最大容量
    780140544.00 Bytes
    JobManager 所在的 JVM 的物理内存用量
    当前作业 JobManager 所在的 JVM 的物理内存用量(RSS),包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警
    3597035110.00 Bytes
    JobManager CPU 使用率
    当前作业 JobManager 的 CPU 使用率
    7.12%
    JobManager CPU 使用时长
    当前作业 JobManager CPU 使用时长(毫秒)
    834490.00 ms
    作业中断运行时间
    对于失败或恢复等非运行状态的作业,表示本次中断运行的时长。对于正在运行中的作业,值为0
    1088466.00 ms
    作业无中断持续执行的时间
    对于运行中的作业,表示当次作业持续处于运行中的时长
    202305.00 ms
    作业重启耗时
    作业最近一次重启耗时
    197181.00 ms
    作业最近一次恢复的时间戳
    作业最近一次从快照恢复的 Unix 时间戳(以毫秒为单位,如果未恢复过则是-1)
    1621934344137.00 ms
    JobManager 堆外映射内存缓存数
    JobManager 堆外映射内存(Mapped Buffer Pool)中的缓存(Buffer)个数
    4.00 Items
    JobManager 堆外映射内存的使用量
    JobManager 堆外映射内存(Mapped Buffer Pool)的用量
    33554432.00 Bytes
    JobManager 堆外映射内存的总容量
    JobManager 堆外映射内存(Mapped Buffer Pool)的最大用量
    33554432.00 Bytes
    JobManager 堆外直接内存中的缓存数
    JobManager 堆外直接内存(Direct Buffer Pool)中的缓存(Buffer)个数
    22.00 Items
    JobManager 堆外直接内存使用量
    JobManager 堆外直接内存(Direct Buffer Pool)的用量
    575767.00 Bytes
    JobManager 堆外直接内存总容量
    JobManager 堆外直接内存(Direct Buffer Pool)的最大用量
    577814.00 Bytes
    注册的 TaskManager 数
    当前作业已注册的 TaskManager 数,通常等于所有算子并行度的最大值。如果 TaskManager 个数减少,说明存在 TaskManager 失联,作业可能崩溃并尝试恢复
    3.00 TaskManagers
    运行中的作业数
    正在运行中作业数。如果作业正常运行,则值为1。如果作业崩溃,则值为0
    1.00 Jobs
    可用任务槽数量
    如果作业正常运行,则可用的任务槽(Task Slot)数为0。如果不为0,则说明作业可能出现短时间的非运行状态
    0.00 Slots
    任务槽总数
    Oceanus 中一个 TaskManager 只有一个任务槽,因此任务槽总数等于注册的 TaskManager 数
    3.00 Slots
    JobManager 活动线程数
    当前作业 JobManager 中活动的线程数,含 Daemon 和非 Daemon 线程
    77.00 Threads
    TaskManager CPU 使用时长
    作业中所有 TaskManager CPU 使用时长总和(毫秒)
    2029230.00 ms
    TaskManager 可用的 MemorySegment 个数
    作业中所有 TaskManager 的可用 MemorySegment 个数之和
    32890.00 Items
    TaskManager 已分配的 MemorySegment 总数
    作业中所有 TaskManager 已分配的 MemorySegment 个数总和
    32931.00 Items
    TaskManager 活动线程数
    作业中所有 TaskManager 中活动的线程数之和,含 Daemon 和非 Daemon 线程
    207.00 Threads
    上次 Checkpoint 大小
    上个快照存储的大小
    1024字节
    Checkpoint 耗时
    上个快照存储所耗时间
    100ms
    Checkpoint 失败总次数
    保存快照累计失败次数
    1次
    JM CPU Load
    JobManager 维度的 JVM 最近 CPU 利用率
    12%
    JM Heap Memory
    JobManager 维度的堆内存使用情况
    1次
    JM GC Count
    JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count,GC(垃圾回收)次数
    5次
    JM GC Time
    JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time,GC(垃圾回收)时间
    64ms
    TaskManager CPU Load
    选中的 TaskManager 维度的 JVM 最近 CPU 利用率
    70%
    TaskManager Heap Memory
    选中的 TaskManager 维度的堆内存使用情况
    50字节
    TaskManager GC Count
    选中的 TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count,GC(垃圾回收)次数
    5次
    TaskManager GC Time
    选中的 TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time,GC(垃圾回收)时间
    5ms
    Task OutPoolUsage
    输出队列百分比,达到100%时任务达到完全反压状态
    64%
    Task OutputQueueLength
    输出队列个数
    6
    Task InPoolUsage
    输入队列百分比,达到100%时任务达到完全反压状态
    64%
    Task InputQueueLength
    输入队列个数
    6
    Task CurrentInputWatermark
    当前水位
    1623814418
    数据流入耗时(ETL)
    当前作业 Source 拿到数据已经产生的延迟时间
    10 ms
    作业每秒输入的记录条数(ETL)
    当前作业所有 source 的加和速率
    342 条/秒
    批间隔时间(ETL)
    当前作业 Source 处理数据的批间隔,间接反应 source 空闲状态
    24532223 ms
    source 处理延迟(ETL)
    当前作业 Source 拿到数据并处理的延迟时间
    1345 ms
    Binglog/lsn 的位点信息(ETL)
    当前作业 mysql binlog 的 pos 点位/pg 的 lsn 号
    260690147
    算子计算总耗时(ETL)
    当前作业统计 Sink 与 Source算子之间的平均延迟时间
    49 ms
    sink 刷新延迟(ETL)
    当前作业 sink 的延迟 flush 时间+异步回调时间
    30 ms
    作业每秒输出的记录条数(ETL)
    当前作业所有 sink 的加和速率
    234 条/秒
    数据源-存量同步(ETL)
    当前作业存量数据的同步进度
    30%
    数据源-增量同步(ETL)
    针对 mysql 同步延迟指的是当前 souce 处理 binlog 位点和 mysql 实例源最新的 binlog 的最后一次采样的缺口值,针对 postgresql 同步延迟指的是当前 souce 处理 lsn 日志号和 postgresql 实例源最新的 lsn 日志号的最后一次采样缺口值
    205
    Kafka - Records_Lag 最大值
    Taskmanager 上报的 kafka-lag-max 最大值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值)
    100
    Kafka - Records_Lag 最小值
    Taskmanager 上报的 kafka-lag-max 最小值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值)
    50
    Kafka - Records_Lag 均值
    Taskmanager 上报的 kafka-lag-max 均值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值)
    80
    Kafka - Records_Lag 求和值
    各个 Taskmanager 上报的 kafka-lag-max 的求和值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值)
    500
    数据在外部系统的滞留时间 (毫秒)
    指标计算公式:数据被 Source 读取的时间(FetchTime)- 数据事件时间(EventTime)。该指标反映了数据在外部系统的滞留情况
    10
    数据在外部系统和 Source 中的滞留时间 (毫秒)
    指标计算公式:数据离开 Source 的时间(EmitTime)- 数据事件时间(EventTime)。该指标反映了数据在外部系统和 Source 中的滞留情况
    20
    反压指标(%)
    作业所有 SubTask 的反压百分比的最大值
    30%
    数据倾斜程度
    指标为每个作业的 SubTask 的数据输入量的离散系数(=标准差/均值)的最大值,小于 10% 属于弱倾斜
    10%
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持