本文主要介绍动态阈值的使用方法和使用场景。
创建动态阈值告警
2. 进入告警策略管理页,单击【新建】。
3. 在配置告警规则模块中,选择“手动配置”。阈值类型选择为“动态"。所有项目配置完后,单击【保存】即可。
灵敏度
动态阈值的敏感度是从用户对指标检测的业务需求出发,对指标偏离合理区间的相对程度。选项包括:
高:指标偏离合理区间的容忍程度较低,用户接收告警量较多。
中:默认设置,指标偏离合理区间的容忍程度中等,用户接收告警量中等。
低:指标偏离合理区间的容忍程度较高,用户接收告警量较少。
条件设置
动态阈值的告警规则可以使用相同的告警规则,基于指标行为的上限和下限创建定制的阈值。 选项包括:
大于或小于:即指标小于动态阈值下边界或大于动态阈值上边界时检测为异常,例如在一定范围内波动的指标。
大于:即指标大于动态阈值上边界时检测为异常,例如 CPU 使用率一般只关注大于动态阈值上边界。
小于:即指标小于动态阈值下边界时检测为异常,例如业务成功数或成功率一般只关注小于动态阈值下边界。
图表元素解析:
曲线 :用户上报的原始指标的聚合展示。
灰色阴影区域 :动态阈值计算出的合理范围,当指标在此区域内表示正常,超出区域外表示为异常。
蓝色曲线:动态阈值检测为正常的时间段。
红线曲线 :动态阈值检测为异常的时间段。
动态阈值使用场景
以下为您介绍动态阈值常见使用场景:
场景1:指标呈现周期性波动
当指标呈现周期性波动时,设置较高的静态阈值,则无法检测出图中明显异常点;设置较低的静态阈值时,则大量的时间段会被错误检测为异常。该场景适合使用动态阈值检测,既能保证检测的准确性,也能避免重复告警对用户的骚扰。
场景2:指标呈现趋势性增长或下降
当指标呈现合理的增长或下降趋势时,如果使用静态阈值,将会在持续下降的时间内被检测是异常;如果使用动态阈值,合理范围会随着趋势自适应调整,当且仅当指标变化幅度明显过大时会被检测为异常。
场景3:指标呈现突增或突降趋势
当指标呈现突然增长或下降的变化时,如果使用静态阈值,则难以设置合理的恒定阈值,且当指标超出设定的阈值才被检测为异常;如果使用动态阈值,则可自动捕捉不同程度的突增或突降变化,对于指标变化幅度明显过大时会被检测为异常。
设置不同的灵敏度进而自动捕捉不同程度的变化幅度,进而触发告警。
建议使用动态阈值的指标:
|
饱和度 | 成功率、失败率、丢包率、流量命中率、出流使用率、查询拒绝率、带宽使用率 | 指标范围确定,通常位于0 - 100%之间。值具有特殊的场景意义,用户往往只关注阈值。例如磁盘使用率往往超过95%,用户才会真正的关心。该场景适合静态阈值或静态阈值结合动态阈值。 |
网络流量 | | 指标通常随着时间变化而变化,指标范围不确定,一般指标波动幅度较大。该场景适合动态阈值。 |
| | 指标波动幅度通常较小,指标范围不确定。该场景适合动态阈值。 |
| 慢查询数、云数据库的线程数、redis 连接数、tcp 连接数、QPS 硬盘、IO 等待时间、临时表数量、全表扫描数、kafka 未消费信息数 | |
本页内容是否解决了您的问题?