tencent cloud

文档反馈

YARN 监控指标

最后更新时间:2023-05-30 11:24:00

    YARN-概览

    标题 指标名称 指标单位 指标含义
    节点个数 NumActiveNMs 当前存活的 NodeManager 个数
    NumDecommissionedNMs 当前 Decommissioned 的 NodeManager 个数
    NumLostNMs 当前 Lost 的 NodeManager 个数
    NumUnhealthyNMs 当前 Unhealthy 的 NodeManager 个数
    CPU 核数 AllocatedVCores 当前队列分配的 VCore 个数
    ReservedVCores 当前队列中 reserved 的 VCore 个数
    AvailableVCores 当前队列可用的 VCore 个数
    PendingVCores 当前队列的资源请求中 pending 的 VCore 个数
    应用总数 AppsSubmitted 当前队列历史提交作业个数
    AppsRunning 当前队列正在运行的作业个数
    AppsPending 当前队列 pending 的作业个数
    AppsCompleted 当前队列完成的作业个数
    AppsKilled 当前队列 kill 掉的作业个数
    AppsFailed 当前队列失败的作业个数
    ActiveApplications 当前队列中 active 的作业个数
    running_0 当前队列中运行作业运行时间小于60分钟的作业个数
    running_60 当前队列中运行作业运行时间介于60~300分钟的作业个数
    running_300 当前队列中运行作业运行时间介于300~1440分钟的作业个数
    running_1440 当前队列中运行作业运行时间大于1440分钟的作业个数
    内存大小 AllocatedMB MB 当前队列分配的内存大小
    AvailableMB MB 当前队列可用的内存大小
    PendingMB MB 当前队列的资源请求中 pending 的内存大小
    ReservedMB MB 当前队列中 reserved 内存大小
    容器个数 AllocatedContainers 当前队列分配的 container 个数
    PendingContainers 当前队列的资源请求中 pending 的 container 个数
    ReservedContainers 当前队列中 reserved 的 container 个数
    容器分配释放总数 AggregateContainersAllocated 当前队列分配的 container 总数
    AggregateContainersReleased 当前队列 release 的 container 总数
    用户数 ActiveUsers 当前队列活跃用户数
    Memory allocatedMB MB 集群中已分配的内存资源
    availableMB MB 集群中可使用的内存资源
    reservedMB MB 集群中保留的内存资源
    totalMB MB 集群中全部的内存资源
    Applications completed 采样周期内集群中运行完成的作业数
    failed 采样周期内集群中运行失败的作业数
    killed 采样周期内集群中被杀掉的作业数
    pending 采样周期内集群中等待运行的作业数
    running 采样周期内集群中运行中的作业数
    submitted 采样周期内集群中已提交的作业数
    Containers containersAllocated 集群中已分配的 Container 数目
    containersPending 集群中请求中的 Container 数目
    containersReserved 集群中保留的 Container 数目
    内存使用率 usageRatio % 集群当前内存资源的使用率
    Cores allocatedVirtualCores 集群中已分配的 CPU 资源
    availableVirtualCores 集群中可使用的 CPU 资源
    reservedVirtualCores 集群中保留的 CPU 资源
    totalVirtualCores 集群中全部的 CPU 资源
    CPU 使用率 usageRatio % 集群当前 CPU 资源的使用率
    AM 启动数量 AMLaunchDelayNumOps AM 启动数量
    RM 启动 AM 的平均时间 AMLaunchDelayAvgTime ms RM 启动 AM 的平均时间
    注册的 AM 总数 AMRegisterDelayNumOps 注册的 AM 总数
    AM 注册到 RM 的平均时间 AMRegisterDelayAvgTime ms AM 注册到 RM 的平均时间
    队列 CPU 使用率 YARN.RM.QUEUE.VCORES.RATIO 当前队列分配 CPU 使用率
    队列内存使用率 YARN.RM.QUEUE.MEM.RATIO 当前队列分配内存使用率

    YARN-ResourceManager

    标题 指标名称 指标单位 指标含义
    RPC 认证授权数 RpcAuthenticationFailures RPC authentication 失败个数
    RpcAuthenticationSuccesses RPC authentication 成功个数
    RpcAuthorizationFailures RPC authorization 失败个数
    RpcAuthorizationSuccesses RPC authorization 成功个数
    RPC 接收发送数据量 ReceivedBytes bytes/s RPC 接收数据量
    SentBytes bytes/s RPC 发送数据量
    RPC 连接数 NumOpenConnections 当前打开的连接个数
    RPC 请求次数 RpcProcessingTimeNumOps RPC 请求次数
    RpcQueueTimeNumOps RPC 请求次数
    RPC 队列长度 CallQueueLength 当前 RPC 队列长度
    RPC 平均处理时间 RpcProcessingTimeAvgTime s RPC 请求平均处理时间
    RpcQueueTimeAvgTime s RPC 在 Queue 中平均时间
    GC 次数 YGC Young GC 次数
    FGC Full GC 次数
    GC 时间 FGCT s Full GC 消耗时间
    GCT s 垃圾回收时间消耗
    YGCT s Young GC 消耗时间
    内存区域占比 S0 % Survivor 0区内存使用占比
    E % Eden 区内存使用占比
    CCS % Compressed class space 区内存使用占比
    S1 % Survivor 1区内存使用占比
    O % Old 区内存使用占比
    M % Metaspace 区内存使用占比
    JVM 线程数量 ThreadsNew 处于 NEW 状态的线程数量
    ThreadsRunnable 处于 RUNNABLE 状态的线程数量
    ThreadsBlocked 处于 BLOCKED 状态的线程数量
    ThreadsWaiting 处于 WAITING 状态的线程数量
    ThreadsTimedWaiting 处于 TIMED WAITING 状态的线程数量
    ThreadsTerminated 处于 Terminated 状态的线程数量
    JVM 日志数量 LogFatal Fatal 日志数量
    LogError Error 日志数量
    LogWarn Warn 日志数量
    LogInfo Info 日志数量
    JVM 内存 MemNonHeapUsedM MB 进程使用的非堆内存大小
    MemNonHeapCommittedM MB 进程 commit 的非堆内存大小
    MemHeapUsedM MB 进程使用的堆内存大小
    MemHeapCommittedM MB 进程 commit 的堆内存大小
    MemHeapMaxM MB 进程最大的堆内存大小
    MemMaxM MB 进程最大内存大小
    CPU 利用率 ProcessCpuLoad % CPU 利用率
    CPU 累计使用时间 ProcessCpuTime ms CPU 累计使用时间
    文件描述符数 MaxFileDescriptorCount 最大文件描述符数
    OpenFileDescriptorCount 打开文件描述符数
    进程运行时长 Uptime s 进程运行时长
    工作线程数 DaemonThreadCount 进程的 Daemon 线程个数
    ThreadCount 进程的线程个数
    节点状态 haState 1:Active,0:Standby ResourceManager 主备状态
    主备切换 switchOccurred - ResourceManager 主备切换

    YARN-JobHistoryServer

    标题 指标名称 指标单位 指标含义
    JVM线程数量 ThreadsNew 处于 NEW 状态的线程数量
    ThreadsRunnable 处于 RUNNABLE 状态的线程数量
    ThreadsBlocked 处于 BLOCKED 状态的线程数量
    ThreadsWaiting 处于 WAITING 状态的线程数量
    ThreadsTimedWaiting 处于 TIMED WAITING 状态的线程数量
    ThreadsTerminated 处于 Terminated 状态的线程数量
    JVM 日志数量 LogFatal FATAL 级别日志数量
    LogError ERROR 级别日志数量
    LogWarn WARN 级别日志数量
    LogInfo INFO 级别日志数量
    JVM 内存 MemNonHeapUsedM MB 进程使用的非堆内存大小
    MemNonHeapCommittedM MB 进程 commit 的非堆内存大小
    MemHeapUsedM MB 进程使用的堆内存大小
    MemHeapCommittedM MB 进程 commit 的堆内存大小
    MemHeapMaxM MB 进程最大的堆内存大小
    MemMaxM MB 进程最大内存大小
    GC 次数 YGC Young GC 次数
    FGC Full GC 次数
    GC 时间 FGCT s Full GC 消耗时间
    GCT s 垃圾回收时间消耗
    YGCT s Young GC 消耗时间
    内存区域占比 S0 % Survivor 0区内存使用占比
    E % Eden 区内存使用占比
    CCS % Compressed class space 区内存使用占比
    S1 % Survivor 1区内存使用占比
    O % Old 区内存使用占比
    M % Metaspace 区内存使用占比
    CPU 利用率 ProcessCpuLoad % CPU 利用率
    CPU 累计使用时间 ProcessCpuTime ms CPU 累计使用时间
    文件描述符数 MaxFileDescriptorCount 最大文件描述符数
    OpenFileDescriptorCount 打开文件描述符数
    进程运行时长 Uptime s 进程运行时长
    工作线程数 DaemonThreadCount 进程的 Daemon 线程个数
    ThreadCount 进程的线程个数

    YARN-NodeManager

    标题 指标名称 指标单位 指标含义
    GC 次数 YGC Young GC 次数
    FGC Full GC 次数
    GC 时间 FGCT s Full GC 消耗时间
    GCT s 垃圾回收时间消耗
    YGCT s Young GC 消耗时间
    内存区域占比 S0 % Survivor 0区内存使用占比
    E % Eden 区内存使用占比
    CCS % Compressed class space 区内存使用占比
    S1 % Survivor 1区内存使用占比
    O % Old 区内存使用占比
    M % Metaspace 区内存使用占比
    JVM 线程数量 ThreadsNew 处于 NEW 状态的线程数量
    ThreadsRunnable 处于 RUNNABLE 状态的线程数量
    ThreadsBlocked 处于 BLOCKED 状态的线程数量
    ThreadsWaiting 处于 WAITING 状态的线程数量
    ThreadsTimedWaiting 处于 TIMED WAITING 状态的线程数量
    ThreadsTerminated 当前 TERMINATED 状态线程数量
    JVM 日志数量 LogFatal FATAL 级别日志数量
    LogError ERROR 级别日志数量
    LogWarn WARN 级别日志数量
    LogInfo INFO 级别日志数量
    JVM 内存 MemNonHeapUsedM MB 进程使用的非堆内存大小
    MemNonHeapCommittedM MB 进程 commit 的非堆内存大小
    MemHeapUsedM MB 进程使用的堆内存大小
    MemHeapCommittedM MB 进程 commit 的堆内存大小
    MemHeapMaxM MB 进程最大的堆内存大小
    MemMaxM MB 进程最大内存大小
    容器总数 ContainersLaunched launch 的 container 个数
    ContainersCompleted 运行完成的 container 个数
    ContainersFailed 失败的 container 个数
    ContainersKilled 被 kill 的 container 个数
    ContainersIniting 初始化中的 container 个数
    ContainersRunning 正在运行的 container 个数
    AllocatedContainers NodeManager 分配的 container 数量
    容器启动平均耗时 ContainerLaunchDurationAvgTime ms 容器启动平均耗时
    容器启动操作数 ContainerLaunchDurationNumOps 容器启动操作数
    CPU 核数 AvailableVCores NodeManager 可用的 VCore 个数
    AllocatedVCores NodeManager 分配的 VCore个数
    内存大小 AllocatedGB GB NodeManager 分配的内存大小
    AvailableGB GB NodeManager 可用的内存大小
    CPU 利用率 ProcessCpuLoad % CPU 利用率
    CPU 累计使用时间 ProcessCpuTime ms CPU 累计使用时间
    文件描述符数 MaxFileDescriptorCount 最大文件描述符数
    OpenFileDescriptorCount 打开文件描述符数
    进程运行时长 Uptime s 进程运行时长
    工作线程数 DaemonThreadCount 进程的 Daemon 线程个数
    ThreadCount 进程的线程个数
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持