tencent cloud

文档反馈

基于 Prometheus 搭建 GooseFS 监控体系

最后更新时间:2024-01-06 11:17:58
    Goosefs 可以通过配置将指标数据输出到不同的监控系统中,Prometheus 是其中之一。Prometheus 是一个开源的监控框架,目前腾讯云可观测平台已集成了 Prometheus,下文将重点介绍 Goosefs 监控指标,以及将监控指标上报到自建的 Prometheus 和云上 Prometheus 的流程。

    准备工作

    通过 Prometheus 构建监控体系需要先做如下准备工作:
    配置 GooseFS 集群
    下载 Prometheus 官方安装包或腾讯云 Prometheus 安装包
    下载和配置 Grafana

    启用 GooseFS 监控指标上报配置

    1. 编辑 GooseFs 配置 conf/goosefs-site.properties, 添加如下配置项,并使用 goosefs copyDir conf/ 拷贝到所有 worker节点,并重启集群 ./bin/goosefs-start.sh all
    goosefs.user.metrics.collection.enabled=true
    goosefs.user.metrics.heartbeat.interval=10s
    2. master 和 worker 的 Prometheus 的监控指标可用如下的命令查看,其中 master 的 metrics 端口为9201,worker 的 metrics 端口为 9204:
    curl <LEADING_MASTER_HOSTNAME>:<MASTER_WEB_PORT>/metrics/prometheus/
    # HELP Master_CreateFileOps Generated from Dropwizard metric import (metric=Master.CreateFileOps, type=com.codahale.metrics.Counter)
    ...
    
    curl <WORKER_IP>:<WOKER_PORT>/metrics/prometheus/
    # HELP pools_Code_Cache_max Generated from Dropwizard metric import (metric=pools.Code-Cache.max, type=com.codahale.metrics.jvm.MemoryUsageGaugeSet$$Lambda$51/137460818)
    ...

    上报监控指标到自建 Prometheus

    1. 下载 Prometheus 安装包并解压,修改 prometheus.yml:
    # prometheus.yml
    global:
    scrape_interval: 10s
    evaluation_interval: 10s
    scrape_configs:
    - job_name: 'goosefs masters'
    metrics_path: /metrics/prometheus
    file_sd_configs:
    - refresh_interval: 1m
    files:
    - "targets/cluster/masters/*.yml"
    - job_name: 'goosefs workers'
    metrics_path: /metrics/prometheus
    file_sd_configs:
    - refresh_interval: 1m
    files:
    - "targets/cluster/workers/*.yml"
    
    
    2. 创建 targets/cluster/masters/masters.yml,添加 master 的 IP 和 port:
    - targets:
    - "&lt;TARGERTS_MASTER_IP>:&lt;TARGERTS_MASTER_PORT>"
    3. 创建 targets/cluster/workers/workers.yml,添加 worker 的 IP 和 port:
    - targets:
    - "&lt;TARGERTS_WORKER_IP>:&lt;TARGERTS_WORKER_PORT>"
    4. 启动 Prometheus,其中 --web.listen-address 指定 Prometheus 监听地址,默认端口号 9090:
    nohup ./prometheus --config.file=prometheus.yml --web.listen-address="<LISTEN_IP>:<LISTEN_PORT>" > prometheus.log 2>&1 &
    5. 查看可视化界面:
    http://<PROMETHEUS_BI_IP>:<PROMETHEUS_BI_PORT>
    6. 查看机器实例:
    http://<PROMETHEUS_BI_IP>:<PROMETHEUS_BI_PORT>/targets

    上报监控指标到腾讯云 Prometheus

    1. 按照安装指南中的指引,在 master 机器上安装 Promethus agent:
    wget https://rig-1258344699.cos.ap-guangzhou.myqcloud.com/prometheus-agent/agent_install && chmod +x agent_install && ./agent_install prom-12kqy0mw agent-grt164ii ap-guangzhou <secret_id> <secret_key>
    2. 配置 master 和 worker 的抓取任务:
    方式一:
    job_name: goosefs-masters
    honor_timestamps: true
    metrics_path: /metrics/prometheus
    scheme: http
    file_sd_configs:
    - files:
    - /usr/local/services/prometheus/targets/cluster/masters/*.yml
    refresh_interval: 1m
    job_name: goosefs-workers
    honor_timestamps: true
    metrics_path: /metrics/prometheus
    scheme: http
    file_sd_configs:
    - files:
    - /usr/local/services/prometheus/targets/cluster/workers/*.yml
    refresh_interval: 1m
    注意
    job_name 中没有空格,而单机的 Prometheus 的 job_name 中可以包含空格。
    方式二:
    job_name: goosefs masters
    honor_timestamps: true
    metrics_path: /metrics/prometheus
    scheme: http
    static_configs:
    - targets:
    - "<TARGERTS_MASTER_IP>:<TARGERTS_MASTER_PORT>"
    refresh_interval: 1m
    
    job_name: goosefs workers
    honor_timestamps: true
    metrics_path: /metrics/prometheus
    scheme: http
    static_configs:
    - targets:
    - "<TARGERTS_WORKER_IP>:<TARGERTS_WORKER_PORT>"
    refresh_interval: 1m
    注意
    抓取任务按方式二配置,则无需在 targets/cluster/masters/ 路径下创建 masters.yml 和 workers.yml 文件。

    使用 Grafana 查看监控指标

    1. 启动 Grafana:
    nohup ./bin/grafana-server web > grafana.log 2>&1 &
    2. 打开登录页面 http://<GRAFANA_IP>:<GRAFANA_PORT>,Grafana 的默认端口为 3000,username 和 password 都是 admin,首次登录后可修改密码。
    3. 进入页面后,添加 Prometheus 的 Datasource:
    <PROMETHEUS_IP>:<PROMETHEUS_PORT>
    4. 导入 Goosefs 的 Grafana 模板,选择 json 导入(点此下载 json),并选择上面创建的 Datasource。
    注意
    云上 Prometheus 购买时需设置密码,云上 Grafana 的可视化监控界面配置和上面类似,注意 job_name 需要配置成一致。
    5. 修改 DashBoard 以后,可以将 DashBoard 导出来。
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持