最后更新时间:2023-05-30 11:24:00
YARN-概览
标题 |
指标名称 |
指标单位 |
指标含义 |
节点个数 |
NumActiveNMs |
个 |
当前存活的 NodeManager 个数 |
NumDecommissionedNMs |
个 |
当前 Decommissioned 的 NodeManager 个数 |
NumLostNMs |
个 |
当前 Lost 的 NodeManager 个数 |
NumUnhealthyNMs |
个 |
当前 Unhealthy 的 NodeManager 个数 |
CPU 核数 |
AllocatedVCores |
核 |
当前队列分配的 VCore 个数 |
ReservedVCores |
核 |
当前队列中 reserved 的 VCore 个数 |
AvailableVCores |
核 |
当前队列可用的 VCore 个数 |
PendingVCores |
核 |
当前队列的资源请求中 pending 的 VCore 个数 |
应用总数 |
AppsSubmitted |
个 |
当前队列历史提交作业个数 |
AppsRunning |
个 |
当前队列正在运行的作业个数 |
AppsPending |
个 |
当前队列 pending 的作业个数 |
AppsCompleted |
个 |
当前队列完成的作业个数 |
AppsKilled |
个 |
当前队列 kill 掉的作业个数 |
AppsFailed |
个 |
当前队列失败的作业个数 |
ActiveApplications |
个 |
当前队列中 active 的作业个数 |
running_0 |
个 |
当前队列中运行作业运行时间小于60分钟的作业个数 |
running_60 |
个 |
当前队列中运行作业运行时间介于60~300分钟的作业个数 |
running_300 |
个 |
当前队列中运行作业运行时间介于300~1440分钟的作业个数 |
running_1440 |
个 |
当前队列中运行作业运行时间大于1440分钟的作业个数 |
内存大小 |
AllocatedMB |
MB |
当前队列分配的内存大小 |
AvailableMB |
MB |
当前队列可用的内存大小 |
PendingMB |
MB |
当前队列的资源请求中 pending 的内存大小 |
ReservedMB |
MB |
当前队列中 reserved 内存大小 |
容器个数 |
AllocatedContainers |
个 |
当前队列分配的 container 个数 |
PendingContainers |
个 |
当前队列的资源请求中 pending 的 container 个数 |
ReservedContainers |
个 |
当前队列中 reserved 的 container 个数 |
容器分配释放总数 |
AggregateContainersAllocated |
个 |
当前队列分配的 container 总数 |
AggregateContainersReleased |
个 |
当前队列 release 的 container 总数 |
用户数 |
ActiveUsers |
个 |
当前队列活跃用户数 |
Memory |
allocatedMB |
MB |
集群中已分配的内存资源 |
availableMB |
MB |
集群中可使用的内存资源 |
reservedMB |
MB |
集群中保留的内存资源 |
totalMB |
MB |
集群中全部的内存资源 |
Applications |
completed |
个 |
采样周期内集群中运行完成的作业数 |
failed |
个 |
采样周期内集群中运行失败的作业数 |
killed |
个 |
采样周期内集群中被杀掉的作业数 |
pending |
个 |
采样周期内集群中等待运行的作业数 |
running |
个 |
采样周期内集群中运行中的作业数 |
submitted |
个 |
采样周期内集群中已提交的作业数 |
Containers |
containersAllocated |
个 |
集群中已分配的 Container 数目 |
containersPending |
个 |
集群中请求中的 Container 数目 |
containersReserved |
个 |
集群中保留的 Container 数目 |
内存使用率 |
usageRatio |
% |
集群当前内存资源的使用率 |
Cores |
allocatedVirtualCores |
个 |
集群中已分配的 CPU 资源 |
availableVirtualCores |
个 |
集群中可使用的 CPU 资源 |
reservedVirtualCores |
个 |
集群中保留的 CPU 资源 |
totalVirtualCores |
个 |
集群中全部的 CPU 资源 |
CPU 使用率 |
usageRatio |
% |
集群当前 CPU 资源的使用率 |
AM 启动数量 |
AMLaunchDelayNumOps |
个 |
AM 启动数量 |
RM 启动 AM 的平均时间 |
AMLaunchDelayAvgTime |
ms |
RM 启动 AM 的平均时间 |
注册的 AM 总数 |
AMRegisterDelayNumOps |
个 |
注册的 AM 总数 |
AM 注册到 RM 的平均时间 |
AMRegisterDelayAvgTime |
ms |
AM 注册到 RM 的平均时间 |
队列 CPU 使用率 |
YARN.RM.QUEUE.VCORES.RATIO |
个 |
当前队列分配 CPU 使用率 |
队列内存使用率 |
YARN.RM.QUEUE.MEM.RATIO |
个 |
当前队列分配内存使用率 |
YARN-ResourceManager
标题 |
指标名称 |
指标单位 |
指标含义 |
---|
RPC 认证授权数 |
RpcAuthenticationFailures |
个 |
RPC authentication 失败个数 |
RpcAuthenticationSuccesses |
个 |
RPC authentication 成功个数 |
RpcAuthorizationFailures |
个 |
RPC authorization 失败个数 |
RpcAuthorizationSuccesses |
个 |
RPC authorization 成功个数 |
RPC 接收发送数据量 |
ReceivedBytes |
bytes/s |
RPC 接收数据量 |
SentBytes |
bytes/s |
RPC 发送数据量 |
RPC 连接数 |
NumOpenConnections |
个 |
当前打开的连接个数 |
RPC 请求次数 |
RpcProcessingTimeNumOps |
次 |
RPC 请求次数 |
RpcQueueTimeNumOps |
次 |
RPC 请求次数 |
RPC 队列长度 |
CallQueueLength |
个 |
当前 RPC 队列长度 |
RPC 平均处理时间 |
RpcProcessingTimeAvgTime |
s |
RPC 请求平均处理时间 |
RpcQueueTimeAvgTime |
s |
RPC 在 Queue 中平均时间 |
GC 次数 |
YGC |
次 |
Young GC 次数 |
FGC |
次 |
Full GC 次数 |
GC 时间 |
FGCT |
s |
Full GC 消耗时间 |
GCT |
s |
垃圾回收时间消耗 |
YGCT |
s |
Young GC 消耗时间 |
内存区域占比 |
S0 |
% |
Survivor 0区内存使用占比 |
E |
% |
Eden 区内存使用占比 |
CCS |
% |
Compressed class space 区内存使用占比 |
S1 |
% |
Survivor 1区内存使用占比 |
O |
% |
Old 区内存使用占比 |
M |
% |
Metaspace 区内存使用占比 |
JVM 线程数量 |
ThreadsNew |
个 |
处于 NEW 状态的线程数量 |
ThreadsRunnable |
个 |
处于 RUNNABLE 状态的线程数量 |
ThreadsBlocked |
个 |
处于 BLOCKED 状态的线程数量 |
ThreadsWaiting |
个 |
处于 WAITING 状态的线程数量 |
ThreadsTimedWaiting |
个 |
处于 TIMED WAITING 状态的线程数量 |
ThreadsTerminated |
个 |
处于 Terminated 状态的线程数量 |
JVM 日志数量 |
LogFatal |
个 |
Fatal 日志数量 |
LogError |
个 |
Error 日志数量 |
LogWarn |
个 |
Warn 日志数量 |
LogInfo |
个 |
Info 日志数量 |
JVM 内存 |
MemNonHeapUsedM |
MB |
进程使用的非堆内存大小 |
MemNonHeapCommittedM |
MB |
进程 commit 的非堆内存大小 |
MemHeapUsedM |
MB |
进程使用的堆内存大小 |
MemHeapCommittedM |
MB |
进程 commit 的堆内存大小 |
MemHeapMaxM |
MB |
进程最大的堆内存大小 |
MemMaxM |
MB |
进程最大内存大小 |
CPU 利用率 |
ProcessCpuLoad |
% |
CPU 利用率 |
CPU 累计使用时间 |
ProcessCpuTime |
ms |
CPU 累计使用时间 |
文件描述符数 |
MaxFileDescriptorCount |
个 |
最大文件描述符数 |
OpenFileDescriptorCount |
个 |
打开文件描述符数 |
进程运行时长 |
Uptime |
s |
进程运行时长 |
工作线程数 |
DaemonThreadCount |
个 |
进程的 Daemon 线程个数 |
ThreadCount |
个 |
进程的线程个数 |
节点状态 |
haState |
1:Active,0:Standby |
ResourceManager 主备状态 |
主备切换 |
switchOccurred |
- |
ResourceManager 主备切换 |
YARN-JobHistoryServer
标题 |
指标名称 |
指标单位 |
指标含义 |
---|
JVM线程数量 |
ThreadsNew |
个 |
处于 NEW 状态的线程数量 |
ThreadsRunnable |
个 |
处于 RUNNABLE 状态的线程数量 |
ThreadsBlocked |
个 |
处于 BLOCKED 状态的线程数量 |
ThreadsWaiting |
个 |
处于 WAITING 状态的线程数量 |
ThreadsTimedWaiting |
个 |
处于 TIMED WAITING 状态的线程数量 |
ThreadsTerminated |
个 |
处于 Terminated 状态的线程数量 |
JVM 日志数量 |
LogFatal |
个 |
FATAL 级别日志数量 |
LogError |
个 |
ERROR 级别日志数量 |
LogWarn |
个 |
WARN 级别日志数量 |
LogInfo |
个 |
INFO 级别日志数量 |
JVM 内存 |
MemNonHeapUsedM |
MB |
进程使用的非堆内存大小 |
MemNonHeapCommittedM |
MB |
进程 commit 的非堆内存大小 |
MemHeapUsedM |
MB |
进程使用的堆内存大小 |
MemHeapCommittedM |
MB |
进程 commit 的堆内存大小 |
MemHeapMaxM |
MB |
进程最大的堆内存大小 |
MemMaxM |
MB |
进程最大内存大小 |
GC 次数 |
YGC |
次 |
Young GC 次数 |
FGC |
次 |
Full GC 次数 |
GC 时间 |
FGCT |
s |
Full GC 消耗时间 |
GCT |
s |
垃圾回收时间消耗 |
YGCT |
s |
Young GC 消耗时间 |
内存区域占比 |
S0 |
% |
Survivor 0区内存使用占比 |
E |
% |
Eden 区内存使用占比 |
CCS |
% |
Compressed class space 区内存使用占比 |
S1 |
% |
Survivor 1区内存使用占比 |
O |
% |
Old 区内存使用占比 |
M |
% |
Metaspace 区内存使用占比 |
CPU 利用率 |
ProcessCpuLoad |
% |
CPU 利用率 |
CPU 累计使用时间 |
ProcessCpuTime |
ms |
CPU 累计使用时间 |
文件描述符数 |
MaxFileDescriptorCount |
个 |
最大文件描述符数 |
OpenFileDescriptorCount |
个 |
打开文件描述符数 |
进程运行时长 |
Uptime |
s |
进程运行时长 |
工作线程数 |
DaemonThreadCount |
个 |
进程的 Daemon 线程个数 |
ThreadCount |
个 |
进程的线程个数 |
YARN-NodeManager
标题 |
指标名称 |
指标单位 |
指标含义 |
GC 次数 |
YGC |
次 |
Young GC 次数 |
FGC |
次 |
Full GC 次数 |
GC 时间 |
FGCT |
s |
Full GC 消耗时间 |
GCT |
s |
垃圾回收时间消耗 |
YGCT |
s |
Young GC 消耗时间 |
内存区域占比 |
S0 |
% |
Survivor 0区内存使用占比 |
E |
% |
Eden 区内存使用占比 |
CCS |
% |
Compressed class space 区内存使用占比 |
S1 |
% |
Survivor 1区内存使用占比 |
O |
% |
Old 区内存使用占比 |
M |
% |
Metaspace 区内存使用占比 |
JVM 线程数量 |
ThreadsNew |
个 |
处于 NEW 状态的线程数量 |
ThreadsRunnable |
个 |
处于 RUNNABLE 状态的线程数量 |
ThreadsBlocked |
个 |
处于 BLOCKED 状态的线程数量 |
ThreadsWaiting |
个 |
处于 WAITING 状态的线程数量 |
ThreadsTimedWaiting |
个 |
处于 TIMED WAITING 状态的线程数量 |
ThreadsTerminated |
个 |
当前 TERMINATED 状态线程数量 |
JVM 日志数量 |
LogFatal |
个 |
FATAL 级别日志数量 |
LogError |
个 |
ERROR 级别日志数量 |
LogWarn |
个 |
WARN 级别日志数量 |
LogInfo |
个 |
INFO 级别日志数量 |
JVM 内存 |
MemNonHeapUsedM |
MB |
进程使用的非堆内存大小 |
MemNonHeapCommittedM |
MB |
进程 commit 的非堆内存大小 |
MemHeapUsedM |
MB |
进程使用的堆内存大小 |
MemHeapCommittedM |
MB |
进程 commit 的堆内存大小 |
MemHeapMaxM |
MB |
进程最大的堆内存大小 |
MemMaxM |
MB |
进程最大内存大小 |
容器总数 |
ContainersLaunched |
个 |
launch 的 container 个数 |
ContainersCompleted |
个 |
运行完成的 container 个数 |
ContainersFailed |
个 |
失败的 container 个数 |
ContainersKilled |
个 |
被 kill 的 container 个数 |
ContainersIniting |
个 |
初始化中的 container 个数 |
ContainersRunning |
个 |
正在运行的 container 个数 |
AllocatedContainers |
个 |
NodeManager 分配的 container 数量 |
容器启动平均耗时 |
ContainerLaunchDurationAvgTime |
ms |
容器启动平均耗时 |
容器启动操作数 |
ContainerLaunchDurationNumOps |
个 |
容器启动操作数 |
CPU 核数 |
AvailableVCores |
核 |
NodeManager 可用的 VCore 个数 |
AllocatedVCores |
核 |
NodeManager 分配的 VCore个数 |
内存大小 |
AllocatedGB |
GB |
NodeManager 分配的内存大小 |
AvailableGB |
GB |
NodeManager 可用的内存大小 |
CPU 利用率 |
ProcessCpuLoad |
% |
CPU 利用率 |
CPU 累计使用时间 |
ProcessCpuTime |
ms |
CPU 累计使用时间 |
文件描述符数 |
MaxFileDescriptorCount |
个 |
最大文件描述符数 |
OpenFileDescriptorCount |
个 |
打开文件描述符数 |
进程运行时长 |
Uptime |
s |
进程运行时长 |
工作线程数 |
DaemonThreadCount |
个 |
进程的 Daemon 线程个数 |
ThreadCount |
个 |
进程的线程个数 |
本页内容是否解决了您的问题?