tencent cloud

文档反馈

云服务器无监控数据

最后更新时间:2024-01-27 17:37:34

    简介

    云服务器指标数据采集依赖于监控Agent。 若您没法正常获取监控指标数据,请参考本文排查故障。 建议您首先根据 安装监控组件 重新安装监控Agent,并等待3分钟查看监控数据是否恢复。若安装遇到问题或监控数据未恢复,请阅读下文详细排查。

    故障原因及处理方法

    无监控数据原因
    处理方法
    未安装监控 Agent 或未启动 Agent
    参考 步骤一 排查并处理故障
    无法解析数据上报域名
    参考 步骤二 排查并处理故障
    Agent获取uuid错误
    参考 步骤三 排查并处理故障
    云服务器重启或关机
    参考 步骤四 排查并处理故障
    云服务器高负载
    参考 步骤五 排查并处理故障

    处理步骤

    步骤一:检查是否安装监控组件 Agent 或是否启动 Agent

    Linux 和 Windows 未安装监控 Agent 或未启动 Agent 的排查步骤不一致,详情请参考下文。
    Linux
    Windows
    1. 执行以下命令,查看 Agent 是否安装成功:
    crontab -l |grep stargate
    若如图所示则表示已安装。
    
    若未安装成功,请参考 安装监控组件 安装 Agent。
    2. 检查 Agent 是否运行正常 执行以下命令,查看 Agent 是否正常运行:
    ps ax | grep sgagent
    ps ax | grep barad_agent
    若如图所示则运行正常(注意barad_agent 进程数为3个):
    
    若无显示或进程数量不符,则说明 Agent 异常,请以 root 账号执行以下命令启动 Agent ,提示stargate agent run succbarad_agent run succ,表示重启成功。
    cd /usr/local/qcloud/stargate/admin
    ./restart.sh
    cd /usr/local/qcloud/monitor/barad/admin
    ./stop.sh
    ./trystart.sh
    说明:
    Agent启动后,等待3分钟后云服务器控制台确认是否已有监控数据。
    运行服务(services.msc),查看 Agent 是否安装成功和是否启动。若 QCloud BaradAgent Monitor 和 QCloud Stargate Manager 服务未显示 “Running” 或“正在运行”,则说明服务未启动。可单击对应的服务名称,启动服务。
    
    
    
    说明:
    若 Agent 已启动,仍无监控数据,可继续查看下面排查思路。
    未安装监控组件会导致无法对您的服务器做更细致的监控,若服务器故障则将无法正常通知,存在高危风险。有关安装监控组件的更多内容,请参见 安装云服务器监控组件 文档。

    步骤二:检查上报域名

    监控 Agent 正常工作依赖下面 4 个域名正常解析:
    update2.agent.tencentyun.com
    receiver.barad.tencentyun.com
    custom.message.tencentyun.com
    metadata.tencentyun.com
    Linux 和 Windows 检查上报域名和修复域名步骤不一致,详情请参考下文。
    Linux
    Windows
    1. 检查上报域名是否可以正常解析 执行下列命令,确认4个域名是否都能正常解析:
    ping -c 1 update2.agent.tencentyun.com
    ping -c 1 receiver.barad.tencentyun.com
    ping -c 1 custom.message.tencentyun.com
    ping -c 1 metadata.tencentyun.com
    正常情况下,在云服务器上可以正常解析以上4个域名,若上面的命令提示 unknown host 则表示域名无法解析,参考下列的方式修复。
    2. 修复域名解析 腾讯云在不同地域均提供了可靠的内网 DNS 服务器,建议不要覆盖默认 DNS 配置。如果需要修改默认 DNS 配置,可以参考以下方式修复上述 4 个域名的解析问题。
    1. 如果使用自建 DNS 服务或第三方 DNS 服务,建议在/etc/resolv.conf中追加腾讯云提供的内网DNS,具体请参见 云服务器内网 DNS列表
    2. 如果使用自建 DNS,也可以把以上4个域名加到自建 DNS 中,域名和对应解析 IP 如下:
    域名
    IP
    update2.agent.tencentyun.com
    169.254.0.15
    receiver.barad.tencentyun.com
    169.254.0.4
    custom.message.tencentyun.com
    169.254.0.5
    metadata.tencentyun.com
    169.254.10.10
    3. 如果以上两个方式不可行,可以在服务器的`/etc/hosts`文件中增加如下配置:
    169.254.0.15 update2.agent.tencentyun.com
    169.254.0.4 receiver.barad.tencentyun.com
    169.254.0.5 custom.message.tencentyun.com
    169.254.10.10 metadata.tencentyun.com
    说明:
    修复后,再次检查域名解析是否正常。域名解析正常后,等待3分钟后到云服务器控制台确认是否已有监控数据。
    1. 检查上报域名是否可以正常解析 执行下列命令,确认4个域名是否都能正常解析:
    ping -n 1 update2.agent.tencentyun.com
    ping -n 1 receiver.barad.tencentyun.com
    ping -n 1 custom.message.tencentyun.com
    ping -n 1 metadata.tencentyun.com
    正常情况下,在云服务器上可以正常解析以上4个域名,若提示“找不到主机”则表示域名无法解析,参考下列的方式修复。
    2. 修复域名解析
    腾讯云在不同地域均提供了可靠的内网 DNS 服务器,建议不要覆盖默认 DNS 配置。如果需要修改默认 DNS 配置,可以参考以下方式修复上述 4 个域名的解析问题。
    1. 登录 Windows 云服务器。
    2. 在操作系统界面,打开控制面板 > 网络和共享中心 > 更改适配器设备
    3. 右键单击以太网,选择属性,打开 “以太网 属性” 窗口。
    4. 在 “以太网 属性” 窗口,双击打开 **Internet 协议版本 4 (TCP/IPv4)**。如下图所示:
    
    
    5. 选择使用下面的 DNS 服务器地址,根据 内网 DNS 列表中对应的不同地域,修改 DNS IP。修改完后单击确定即可。
    
    
    6. 如果上述方式不可行,您进入 C:\\Windows\\System32\\drivers\\etc\\hosts,在 hosts 配置文件增加如下配置:
    169.254.0.15 update2.agent.tencentyun.com
    169.254.0.4 receiver.barad.tencentyun.com
    169.254.0.5 custom.message.tencentyun.com
    169.254.10.10 metadata.tencentyun.com
    7. 运行 services.msc ,按鼠标右键单击重启启动按钮,重启 QCloud BaradAgent Monitor 和 QCloud Stargate Manager 服务即可。
    
    
    说明:
    修复后,等待3分钟,然后到云服务器控制台确认是否已有监控数据。
    若重启后仍无监控数据,请参考 安装云服务器监控组件 卸载并重装 Agent。
    

    步骤三:检查 uuid 是否正确

    目前只有 Linux 会出现 uuid 配置不正确问题,详情请参考下文。
    1. 进入 云服务器控制台 ,进入实例详情查看 uuid 。
    
    
    2. 登录云服务器,执行以下命令查看 uuid 。
    cat /sys/class/dmi/id/product_serial
    若服务器上 uuid 和云服务器控制台展示的 uuid 不一致,以 root 账号执行下列命令修复 uuid 并重启 Agent。
    echo `cat /etc/uuid |awk -F '= ' '{print $NF}'` > /etc/uuid_to_serial; mount --bind /etc/uuid_to_serial /sys/class/dmi/id/product_serial
    cd /usr/local/qcloud/stargate/admin
    ./restart.sh
    cd /usr/local/qcloud/monitor/barad/admin
    ./stop.sh
    ./trystart.sh
    说明:
    修复后,等待3分钟,然后到云服务器控制台确认是否已有监控数据。

    步骤四:检查云服务器操作日志

    云服务器操作关机后处于关机状态,会导致监控组件离线并且没有数据。 用户通过云服务器控制台或者登录云服务器,操作重启,升级云服务器,重装,制作镜像等常见的云服务器运维操作,都会使云服务器监控数据上报超时导致离线。
    问题排查方式: 可以根据当时时间点排查云服务器是否有存在相关的运维操作,操作日志可以进入云服务器详情页面中操作日志中查看。
    
    
    

    步骤五:检查云服务器负载

    云服务器 CPU 高负载,内存使用占满,带宽占用过高都会导致监控组件上报数据异常。
    问题排查方式:
    CPU 高负载:详细排查步骤请查看 云服务器 CPU 或内存占用过高
    内存占用过高:可以登录云服务器或者查看监控图表是否有存在内存 使用达到100%的情况 ,若达到100%,可以根据实际情况来扩容服务。
    带宽占用过高:详细排查步骤请查看 云服务器带宽使用率过高
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持