tencent cloud

文档反馈

基础监控告警

最后更新时间:2024-01-19 16:45:30

    基础监控

    功能介绍

    ClickHouse 提供了46项丰富的业务及性能监控指标,方便您查看和掌握集群的运行状态,配置指标实时获取集群的运行告警信息,以便快速响应。

    集群监控

    登录 云数据仓库 控制台集群列表中选中对应的集群,单击集群 ID/名称进入集群详情页,单击集群监控查看集群的各项性能指标。
    说明:
    可针对具体指标做告警阈值配置及监控数据导出等。监控视图的展示逻辑-指标采集间隔为10秒,视图最小展示粒度为1min,数据点的聚合逻辑为1min内数据采集点的最大值。

    集群告警配置

    1. 进入集群监控页面,选中需要的指标项对其做监控告警的阈值配置。
    2. 在新开的云监控控制台窗口中,筛选需要配置的实例对象(ClickHouse 的集群名称),根据配置模板对已选中的指标做监控阈值配置。配置告警规则,配置项如下:
    设置选项
    说明
    策略名称
    配置相关告警的策略名称
    监控类型
    默认云产品监控
    策略类型
    默认 CDWCH/CK 告警
    告警对象
    默认实例 ID
    下拉选中 ClickHouse 的集群
    触发条件
    默认手动配置
    指标告警中配置指标的相关阈值及告警策略
    通知模板
    选择已有模板或新建通知模板
    说明:
    默认项请勿操作修改。
    3. 配置结束单击完成即提交告警策略,具体云监控的告警策略可参考 云监控-新建告警策略

    监控指标项

    节点指标

    指标名
    释义
    备注
    CPU 使用率
    CPU 的使用情况
    平均值
    文件打开数
    单位时间内的文件打开数
    平均值
    内存使用率
    内存的使用情况
    平均值
    节点一分钟负载
    节点一分钟负载
    平均值
    节点五分钟负载
    节点五分钟负载
    平均值
    节点十五分钟负载
    节点十五分钟负载
    平均值
    数据盘使用率
    数据盘的使用情况
    平均值
    节点接收流量
    单位时间内的节点的接收数据量
    平均值
    节点流出流量
    单位时间内的节点的流出数据量
    平均值

    业务指标

    指标名
    释义
    备注
    存活
    检测节点 CH 进程的存活情况
    瞬时值
    上下文的锁等待
    上下文锁等待的个数
    ClickHouseMetrics_ContextLockWait,瞬时值
    HTTP 连接数
    HTTP 协议链接个数
    ClickHouseMetrics_HTTPConnection,瞬时值
    TCP 连接数
    TCP 协议链接个数
    ClickHouseMetrics_TCPConnection,瞬时值
    单位时间 insert 执行次数
    单位时间内的 insert 个数
    ClickHouseProfileEvents_InsertQuery,均值
    Merge 消耗的时间(速率)
    单位时间内的 merge 消耗时间
    ClickHouseProfileEvents_MergesTimeMilliseconds,均值
    Mysql 方式的连接数
    通过 jdbc 方式的链接个数
    ClickHouseMetrics_MySQLConnection,瞬时值
    包含增删改查的 query 个数
    单位时间内包含增删改查的 query 个数
    ClickHouseProfileEvents_Query,均值
    查询线程数
    当前时间的查询线程数
    ClickHouseMetrics_QueryThread,瞬时值
    单位时间内的副本块合并个数
    单位时间内的副本块合并个数
    ClickHouseProfileEvents_ReplicatedPartMerges,均值
    单位时间内的副本块修改个数
    单位时间内的副本块修改个数
    ClickHouseProfileEvents_ReplicatedPartMutations,均值
    插入失败数
    单位时间内的插入失败数
    ClickHouseProfileEvents_FailedInsertQuery,均值
    查询失败数
    单位时间内的查询失败数
    ClickHouseProfileEvents_FailedSelectQuery,均值
    合并数
    当前产生合并的个数
    ClickHouseMetrics_Merge,瞬时值

    CK 侧 ZK 指标

    指标名
    释义
    备注
    ZK 请求数
    当前时间节点请求 ZK 的请求数
    ClickHouseMetrics_ZooKeeperRequest,瞬时值
    当前 ZK session 个数
    当前时间节点链接 ZK 的 session 个数
    ClickHouseMetrics_ZooKeeperSession,瞬时值
    ZK watch 个数
    当前时间节点链接 ZK watch 个数
    ClickHouseMetrics_ZooKeeperWatch,瞬时值

    ZK 指标

    指标名
    释义
    备注
    发包个数
    单位时间 ZK 节点发送的 packet 个数
    packets_sent,均值
    收包个数
    单位时间 ZK 节点接收的 packet 个数
    packets_received,均值
    ZK 进程存活
    ZK 的进程监控,1标识存活,0代表失活
    瞬时值
    全局 session 个数
    当前时间全局的 session 个数
    global_sessions,瞬时值
    拒绝链接个数
    单位时间内 ZK 拒绝链接的个数
    connection_rejected,均值
    请求提交队列个数
    当前时间请求提交队列个数
    request_commit_queued,均值
    预处理队列等待时间
    单位时间内预处理队列等待时间
    prep_processor_queue_time_ms,均值
    预处理时间
    单位时间内预处理时间
    prep_process_time,均值
    ZK_watch 个数
    当前时间 ZK_watch 个数
    watch_count,瞬时值
    JVM 内存池使用
    JVM 内存池使用大小情况
    jvm_memory_pool_bytes_used,瞬时值
    具体指标的含义可参见 ClickHouse 官网 metrics

    注意事项

    1. ZK 的监控指标在21.3.9.84及以上版本高可用集群支持。
    2. 启用高阶版 Grafana 监控时,基础版监控页内容将更新为高阶版。
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持