集群健康检查功能是腾讯云容器服务(Tencent Kubernetes Engine,TKE)为集群提供检查各个资源状态及运行情况的服务,检查报告将详细展示组件、节点、工作负载的状态和配置的检查内容。若出现异常项,可进行异常详情描述,并自动分析异常级别、异常原因、异常影响和修复建议等。
注意:在健康检查过程中,您的集群内会自动新建 namespace tke-cluster-inspection,并安装一个 Daemonset 进行节点信息采集,检查结束后均会被自动删除。
检查类别 | 检查项 | 检查内容 | 仅独立集群 |
---|---|---|---|
资源状态 | kube-apiserver 的状态 | 检测组件是否正在运行,如果组件以 Pod 形式运行,则检测其24小时内是否重启过。 | 是 |
kube-scheduler 的状态 | 是 | ||
kube-controller-manager 的状态 | 是 | ||
etcd 的状态 | 是 | ||
kubelet 的状态 | 否 | ||
kube-proxy 的状态 | 否 | ||
dockerd 的状态 | 否 | ||
master 节点的状态 | 检测节点状态是否 Ready 且无其他异常情况,如内存不足,磁盘不足等。 | 是 | |
worker 节点的状态 | 检测节点状态是否 Ready 且无其他异常情况,如内存不足,磁盘不足等。 | 否 | |
各个工作负载的状态 | 检测工作负载当前可用 Pod 数是否符合其期望目标 Pod 数。 | 否 | |
运行情况 | kube-apiserver 的参数配置 | 根据 master 节点配置检测以下参数:
|
是 |
kube-scheduler 的参数配置 | 根据 master 节点配置检测以下参数:
|
是 | |
kube-controller-manager 的参数配置 | 根据 master 节点配置检测以下参数:
|
是 | |
etcd 的参数配置 | 根据 master 节点配置检测以下参数: quota-backend-bytes:存储大小。 |
是 | |
master 节点的配置合理性 | 检测当前 master 节点配置是否足以支撑当前的集群规模。 | 是 | |
node 高可用 | 检测目前集群是否是单节点集群;
检测当前集群节点是否支持多可用区容灾。 即当一个可用区不可用后,其他可用区的资源总和是否足以支撑当前集群业务规模。 |
否 | |
工作负载的 Request 和 Limit 配置 | 检测工作负载是否有未设置资源限制的容器,配置资源限制有益于完善资源规划、Pod 调度、集群可用性等。 | 否 | |
工作负载的反亲和性配置 | 检测工作负载是否配置了亲和性或者反亲和性,配置反亲和性有助于提高业务的高可用性。 | 否 | |
工作负载的 PDB 配置 | 检测工作负载是否配置了 PDB,配置 PDB 可避免您的业务因驱逐操作而不可用。 | 否 | |
工作负载的健康检查配置 | 检测工作负载是否配置了健康检查,配置健康检查有助于发现业务异常。 | 否 | |
HPA-IP 配置 | 当前集群剩余的 Pod IP 数目是否满足 HPA 扩容的最大数。 | 否 |
本页内容是否解决了您的问题?