监控
目前容器服务提供了以下维度的监控指标,所有指标均为统计周期内的平均值。
集群监控指标
监控指标 |
单位 |
说明 |
CPU利用率 |
% |
集群整体的 CPU 利用率 |
内存利用率 |
% |
集群整体的内存利用率 |
Master&Etcd 和普通节点监控指标
监控指标 |
单位 |
说明 |
Pod重启次数 |
次 |
节点内所有 Pod 的重启次数之和 |
异常状态 |
- |
节点的状态,正常或异常 |
CPU利用率 |
% |
节点内所有 Pod 的 CPU 使用量占节点总量之比 |
内存利用率 |
% |
节点内所有 Pod 的内存使用量占节点总量之比 |
内网入带宽 |
bps |
节点内所有 Pod 的内网入方向带宽之和 |
内网出带宽 |
bps |
节点内所有 Pod 的内网出方向带宽之和 |
外网入带宽 |
bps |
节点内所有 Pod 的外网入方向带宽之和 |
外网出带宽 |
bps |
节点内所有 Pod 的外网出方向带宽之和 |
TCP连接数 |
个 |
节点保持的 TCP 连接数 |
集群节点更详细的监控指标请参考 云服务器监控。
集群节点数据盘更详细的监控指标请参考 云硬盘监控。
工作负载监控指标
监控指标 |
单位 |
说明 |
Pod 重启次数 |
次 |
工作负载内所有 Pod 的重启次数之和 |
CPU 使用量 |
核 |
工作负载内所有 Pod 的 CPU 使用量 |
CPU 利用率(占集群) |
% |
工作负载内所有 Pod 的 CPU 使用量占集群总量之比 |
内存使用量 |
B |
工作负载内所有 Pod 的内存使用量 |
内存利用率(占集群) |
% |
工作负载内所有 Pod 的内存使用量占集群总量之比 |
网络入带宽 |
bps |
工作负载内所有 Pod 的入方向带宽之和 |
网络出带宽 |
bps |
工作负载内所有 Pod 的出方向带宽之和 |
网络入流量 |
B |
工作负载内所有 Pod 的入方向流量之和 |
网络出流量 |
B |
工作负载内所有 Pod 的出方向流量之和 |
网络入包量 |
个/s |
工作负载内所有 Pod 的入方向包数之和 |
网络出包量 |
个/s |
工作负载内所有 Pod 的出方向包数之和 |
如果工作负载对集群外部提供服务,绑定的 Service 更详细的网络监控指标请参考 负载均衡监控。
Pod 监控指标
监控指标 |
单位 |
说明 |
异常状态 |
- |
Pod 的状态,正常或异常 |
CPU 使用量 |
核 |
Pod 的 CPU 使用量 |
CPU 利用率(占节点) |
% |
Pod 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) |
% |
Pod 的 CPU 使用量和设置的 Request 值之比 |
CPU 利用率(占 Limit) |
% |
Pod 的 CPU 使用量和设置的 Limit 值之比 |
内存使用量 |
B |
Pod 的内存使用量,含缓存 |
内存使用量(不包含 Cache) |
B |
Pod 内所有 Container 的真实内存使用量(不含缓存) |
内存利用率(占节点) |
% |
Pod 的内存使用量占节点总量之比 |
内存利用率(占节点,不包含 Cache) |
% |
Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比 |
内存利用率(占 Request) |
% |
Pod 的内存使用量和设置的 Request 值之比 |
内存利用率(占 Request,不包含Cache) |
% |
Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Request 值之比 |
内存利用率(占 Limit) |
% |
Pod 的内存使用量和设置的 Limit 值之比 |
内存利用率(占 Limit,不包含 Cache) |
% |
Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
网络入带宽 |
bps |
Pod 的入方向带宽之和 |
网络出带宽 |
bps |
Pod 的出方向带宽之和 |
网络入流量 |
B |
Pod 的入方向流量之和 |
网络出流量 |
B |
Pod 的出方向流量之和 |
网络入包量 |
个/s |
Pod 的入方向包数之和 |
网络出包量 |
个/s |
Pod 的出方向包数之和 |
Container 监控指标
监控指标 |
单位 |
说明 |
CPU 使用量 |
核 |
Container 的 CPU 使用量 |
CPU 利用率(占节点) |
% |
Container 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) |
% |
Container 的 CPU 使用量和设置的 Request 值之比 |
CPU 利用率(占 Limit) |
% |
Container 的 CPU 使用量和设置的 Limit 值之比 |
内存使用量 |
B |
Container 的内存使用量,含缓存 |
内存使用量(不包含 Cache) |
B |
Container 的真实内存使用量(不含缓存) |
内存利用率(占节点) |
% |
Container 的内存使用量占节点总量之比 |
内存利用率(占节点,不包含 Cache) |
% |
Container 的真实内存使用量(不含缓存)占节点总量之比 |
内存利用率(占 Request) |
% |
Container 的内存使用量和设置的 Request 值之比 |
内存利用率(占 Request,不包含 Cache) |
% |
Container 的真实内存使用量(不含缓存)和设置的 Request 值之比 |
内存利用率(占 Limit) |
% |
Container 的内存使用量和设置的 Limit 值之比 |
内存利用率(占 Limit,不包含 Cache) |
% |
Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
块设备读带宽 |
B/s |
Container 从硬盘读取数据的吞吐量 |
块设备写带宽 |
B/s |
Container 把数据写入硬盘的吞吐量 |
块设备读 IOPS |
次/s |
Container 从硬盘读取数据的 IO 次数 |
块设备写 IOPS |
次/s |
Container 把数据写入硬盘的 IO 次数 |
告警
目前容器服务提供了以下维度的告警指标,所有指标均为统计周期内的平均值。
集群告警指标
监控指标 |
单位 |
说明 |
CPU 利用率 |
% |
集群整体的 CPU 利用率 |
内存利用率 |
% |
集群整体的内存利用率 |
CPU 分配率 |
% |
集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比 |
内存分配率 |
% |
集群所有容器设置的内存 Request 之和与集群总可分配内存之比 |
Apiserver 正常 |
- |
Apiserver 状态,默认 False 时告警,仅独立集群支持该指标 |
Etcd 正常 |
- |
Etcd 状态,默认 False 时告警,仅独立集群支持该指标 |
Scheduler 正常 |
- |
Scheduler 状态,默认 False 时告警,仅独立集群支持该指标 |
Controll Manager 正常 |
- |
Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标 |
节点告警指标
监控指标 |
单位 |
说明 |
CPU 利用率 |
% |
节点内所有 Pod 的 CPU 使用量占节点总量之比 |
内存利用率 |
% |
节点内所有 Pod 的内存使用量占节点总量之比 |
节点上 Pod 重启次数 |
次 |
节点内所有 Pod 重启次数之和 |
Node Ready |
- |
节点状态,默认 False 时告警 |
集群节点更详细的指标告警请参考 云服务器监控 和 云监控创建告警策略。
集群节点数据盘更详细的指标告警请参考 云硬盘监控 和 云监控创建告警策略。
Pod 告警指标
监控指标 |
单位 |
说明 |
CPU 利用率(占节点) |
% |
Pod 的 CPU 使用量占节点总量之比 |
内存利用率(占节点) |
% |
Pod 的内存使用量占节点总量之比 |
实际内存利用率(占节点) |
% |
Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比 |
CPU 利用率(占 Limit) |
% |
Pod 的CPU使用量和设置的 Limit 值之比 |
内存利用率(占 Limit) |
% |
Pod 的内存使用量和设置的 Limit 值之比 |
实际内存利用率(占 Limit) |
% |
Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
Pod 重启次数 |
次 |
Pod 的重启次数 |
Pod Ready |
- |
Pod 的状态,默认 False 时告警 |
CPU 使用量 |
核 |
Pod 的 CPU 使用量 |
内存使用量 |
MB |
Pod 的内存使用量,含缓存 |
实际内存使用量 |
MB |
Pod 内所有 Container 的真实内存使用量之和,不含缓存 |
本页内容是否解决了您的问题?