字段 | 详情 |
模板类型 | 当前支持表级、字段级2种模板类型,支持筛选 |
模板名称 | 模板的命名 |
模板描述 | 对该模板规则具体执行逻辑、公式的详细描述 |
维度 | 准确性、唯一性、完整性、一致性、及时性、有效性,支持筛选 |
适用引擎 | 该模板适用的引擎类型,目前支持 Hive、Spark、DLC、TCHouse-D 和 Doris 类型,支持筛选 |
引用数 | 当前模板被引用关联的规则数量,支持筛选 |
监控对象 | 规则维度 | 计算项 | 计算子项 | 描述 | 数值型 | 数值-波动率型 | 数值-标准分型 | 其他 | ||||||||
| | | | | 固定值 | 数值范围 | 上周期 | 1天前 | 7天前 | 30天前 | 7天 | 30天 | 空/唯一/重复 | 格式匹配 | 枚举范围 | 值大小 |
表级 | 准确性 | 表行数 | | 计算数据行数 | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - |
| | 表大小(字节) | | 计算数据表大小(仅支持Hive表) | ✅ | - | - | ✅ | ✅ | - | - | - | - | - | - | - |
| 及时性 | 数据产出及时性 | | 计算数据行数,如果行数=0,则认为没有产出数据 | ✅ = 0 | - | - | - | - | - | - | - | - | - | - | - |
字段级 | 准确性 | 字段数值 | 平均值 | 计算数值平均值 | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - |
| | | 汇总值 | 计算数值汇总值 | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - |
| | | 中位数 | 计算数值中位数 | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - |
| | | 最小值 | 计算数值最小值 | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - |
| | | 最大值 | 计算数值最大值 | ✅ | - | - | ✅ | ✅ | ✅ | ✅ | ✅ | - | - | - | - |
| 唯一性 | 字段唯一值 | 唯一值个数 | 校验唯一值 | - | - | - | - | - | - | - | - | ✅ | - | - | - |
| | | 唯一值个数/总行数 | | - | - | - | - | - | - | - | - | ✅ | - | - | - |
| | 字段重复值 | 重复值个数 | 校验重复值 | - | - | - | - | - | - | - | - | ✅ | - | - | - |
| | | 重复值个数/总行数 | | - | - | - | - | - | - | - | - | ✅ | - | - | - |
| 完整性 | 字段空值 | 空值个数 | 校验控制 | - | - | - | - | - | - | - | - | ✅ | - | - | - |
| | | 空值个数/总行数 | | - | - | - | - | - | - | - | - | ✅ | - | - | - |
| 有效性 | 手机号格式 | 不合法个数 | 正则校验,符合中国大陆手机号格式 | - | - | - | - | - | - | - | - | - | ✅ | - | - |
| | | 不合法个数/总行数 | | - | - | - | - | - | - | - | - | - | ✅ | - | - |
| | 邮箱格式 | 不合法个数 | 正则校验,符合邮箱格式 | - | - | - | - | - | - | - | - | - | ✅ | - | - |
| | | 不合法个数/总行数 | | - | - | - | - | - | - | - | - | - | ✅ | - | - |
| | 身份证格式 | 不合法个数 | 正则校验,符合中国大陆身份证格式 | - | - | - | - | - | - | - | - | - | ✅ | - | - |
| | | 不合法个数/总行数 | | - | - | - | - | - | - | - | - | - | ✅ | - | - |
| 一致性 | 字段数据范围 | 数值范围 | 检测数值是否在数值范围内 | - | ✅ | - | - | - | - | - | - | - | - | - | - |
| | | 枚举范围 | 检测字符值是否在枚举值内 | - | - | - | - | - | - | - | - | - | - | ✅ | - |
| | 字段数据相关性 | | 与另一个库表的某个字段比较大小 | - | - | - | - | - | - | - | - | - | - | - | ✅ |
名词 | 解释 | |
监控对象 | 表级 | 当监控对象为表级时,可以监控表行数、表大小、表数据产出及时性(等同于表行数)。 |
| 字段级 | 当监控队形为字段级时,可以监控字段的数值(包含平均值、最大值、最小值、中位数、汇总值),字段的值格式(手机号、邮箱、身份证号)、字段是否为空。 |
规则维度 | - | 规则维度是为了计算质量分,体现不同类型的规则的质量占比。 在系统中内置了有6个规则维度:准确性、唯一性、完整性、一致性、及时性、有效性。 |
校验方式 | 数值型 | 主要包括数值大小比较,数值范围比较。 |
| 波动率型 | 名词解释: 波动率型用于体现数值的波动浮动,即相比某个时间点,本次上升/下降幅度。 计算公式: 波动率 = 本次扫描结果/某时间点扫描结果 * 100%。 说明: 波动率的计算结果为百分比,使用波动率模板时必须指定分区。 示例1:7天前周期波动 当指定分区后,基准值选择7天前的数据时,如果计算结果为:100%, 则表示本次分区数据,相比7天前那一次的分区数据增加了1倍。 示例2:上周期波动: 当指定分区后,基准值选择上次运行周期,并将规则关联生产调度任务(例如:某个离线开发任务),当计算结果为:100% 则表示本次离线开发任务运行结束后的统计数据,相比上一次运行结束后的统计数据增加了1倍。 实例3:周期波动率+默认周期: 在使用周期波动率模板设置质量规则时,并设置了默认周期,如7天前。如果此规则未关联生产调度任务,当计算结果为:100%。 则表示本次分区数据,相比7天前那一次的分区数据增加了1倍。即:当期数据,与7天前的数据做对比。 |
| 标准分型 (方差波动) | 名词解释: 标准分是一个重要的统计概念,可以体现某个值是否处于可信的区间范围内。 如果计算结果过大或过小,则有极大的概率说明此数据是异常值。 计算公式: 说明: 标准分的计算结果为无单位小数,可体现数据在数据集中是否异常。 一般认为标准分绝对值大于3时,则为异常值,此时正常可能性仅为0.28% [-1,1]:正常可能性:68.26% [-2,2]:正常可能性:95.44% [-3,3]:正常可能性:99.72% 不属于[-3,3]:正常可能性:0.28% |
| 其他 | 不限值校验字段类型。 空/唯一/重复:统计空值/唯一值/重复值的个数或比例; 格式匹配:统计不符合格式的个数或比例; 枚举范围:统计不在枚举值内的个数; 说明: 此处填写的是预期值,当字段不在范围内时,会触发告警。 字段相关性:统计与另一个库表字段值是否相同。 比较关系:大于、小于、等于; 目标数据:库表、字段、过滤条件; 关联条件:两表的关联字段。 说明: 对比表需要与检测表数据一一对应。 |
本页内容是否解决了您的问题?