tencent cloud

文档反馈

新增质量规则

最后更新时间:2024-11-01 15:52:53

    前置说明

    类型
    说明
    数据源类型
    目前 WeData 支持以下数据源类型:
    EMR
    EMR-Hive
    DLC
    TCHouse-P
    TCHouse-D
    Doris
    新增方式
    目前 WeData 支持以下三种新增方式:
    单表新增:针对同一张表创建监控规则。
    一次只可选择一张表。
    一次可添加多个规则。
    多表新增:针对同一个数据源的多张表的多个字段批量创建监控规则。
    一次可选择多张表、多个字段。
    一次只可选择一个监控规则。
    批量上传:上传 excel 模板,批量导入。
    一次只可针对同一种数据源类型。
    只能支持自定义 SQL(不支持内置模板和自定义模板)。
    一次只可上传100条。
    
    
    

    创建监控规则

    单表新增规则

    支持针对单个表,设置监控规则。
    适用场景:一次性为单库单表添加多个监控规则。

    步骤一:进入创建页面

    进入数据质量 > 数据监控 > EMR 界面,单击单表新增规则,开始新增一个质量规则。
    说明:
    目前 WeData 支持以下数据源类型:EMR-Hive、DLC、TCHouse-P、TCHouse-D 和 Doris。
    
    
    

    步骤二:选择监控对象

    进入单表新增规则界面,依次选择数据源、数据库、监控表,单击新增监控规则
    
    
    

    步骤三:新增监控规则

    在弹框新增监控规则页面补充以下信息,单击保存
    
    
    
    解释说明:
    元素
    说明
    规则类型
    此处可选择系统模板、自定义模板、自定义 SQL:
    系统模板:WeData 已经内置了56个规则模板,可免费使用。各个模板的详细介绍说明可参考系统模板说明
    自定义模板:可在规则模板菜单添加适用自己业务的规则,方便复用,详细操作指导可参考自定义模板说明
    选择模板:选择已经添加的自定义模板。
    库表参数:会根据自定义模板填写的 SQL 语句,渲染出页面并让用户选择。
    table_1 表示当前选择的表;table_2...table_n 表示其他库表,需要确定的表(目前仅支持1个)。
    ${table_1.column_1}...${table_1.column_n} 表示表内的字段,需要选择确定的字段。
    where 参数:会根据自定义模板填写的 SQL 语句,渲染出页面并让用户选择。
    ${param_1}...${param_n} 表示 where 条件中的参数,需要填写确定的值。
    
    
    
    自定义 SQL:可直接填写 SQL 语句作为检测规则。
    监控对象:仅支持表(table)。
    自定义维度:需要从六个维度中选择。
    适用引擎:可根据不同数据源选择不同引擎,例如,Hive 表支持 Hive 和 Spark。
    SQL 语句:此处需要填写一段 SQL 语句,要求如下:
    结果必须为一行一列,即一个固定的值。
    仅允许使用分区变量,例如 ${yyyy-MM-dd}。
    不允许使用表名和列名变量。
    
    
    
    监控对象
    以系统模板为例,监控对象可分为:表级和字段级:
    表级,可对表行数,表大小(仅支持 Hive 表)进行监控。
    字段级,可对字段是否为空,是否重复,平均值、最大值、最小值等进行监控。
    选择模板
    此处将根据规则类型、监控对象进行过滤。
    例如,选择系统模板,监控对象选择表级,此处只可选择表行数表大小等。
    检测范围
    此处可选择条件扫描和全表。
    建议选择条件扫描
    可填入分区 where 条件,例如:
    op_date='${yyyy-MM-dd-1d}'
    说明:
    此处一般填写分区字段,避免每次质量任务都进行全表扫描,对计算资源造成浪费。
    SQL 中 ${yyyy-MM-dd-1d} 是日期变量,代表执行日期前一天,在质量任务执行时会被替换为具体的日期。
    例如:当质量任务在2024-05-02 00:00:00执行时,${yyyy-MM-dd-1d} 会被替换为2024-05-01。
    具体时间变量的替换逻辑可参考 时间参数说明
    触发条件
    比较符可选择区间值和大小值。
    示例:表行数小于1,结合检测范围填写的时间变量,即表示:当昨天没有新增数据时,触发告警。
    比较符:选择小于。
    比较值:填入 1。
    针对不同模板触发条件不同,详细配置逻辑可参考系统模板使用说明
    说明:
    此处填写的触发条件为异常值,即触发告警的条件
    触发等级
    选择
    触发等级可分为:高、中、低。
    高:当触发告警时,立即阻断下游任务执行(仅关联生产任务时有效)。
    中:仅触发告警。
    低:不触发告警,仅结果展示异常。

    步骤四:设置执行策略

    单击批量设置执行策略后,进入执行策略设置页面,批量设置执行策略后,单击保存。您可以参考下表完成配置。
    
    
    
    解释说明:
    元素
    说明
    执行方式
    可选择关联生产调度离线周期检测
    关联生产调度:即关联调度。将质量任务与生产任务(数据同步任务或者数据开发任务)进行关联,当生产任务运行结束后,插入运行质量规则任务。如发现异常,会第一时间通知处理人进行处理,并根据任务级别阻塞下游任务执行避免问题数据扩展。
    选择任务:可关联数据同步任务和数据开发任务。
    说明:
    同一个质量检测任务可以关联多个生产任务;同一个生产任务也可以关联多个质量检测任务。
    离线周期检测:即独立调度。对选定的数据库表、核心业务字段按天、按小时、按分钟等自定义频率设置周期性质量检测。质量任务会按设定的周期定时执行,如发现异常,会第一时间通知订阅人。
    调度周期:按月、按周、按天、按小时、按分钟。
    生效日期:选择生效时间范围。
    间隔:当选择按天、按小时时,可选择任务间隔时间。
    指定日期:当选择按月、按周时,需设置指定日期,即每周几、每月几号等。
    执行时间:当选择按月、按周、按天时,需设置指定的运行时间。
    执行引擎
    不同数据源可选择的引擎不同。
    EMR-Hive:可选择 Hive、Spark,一般情况下 Hive 表可直接选择 Hive 引擎。
    DLC:需下拉选择DLC数据引擎(包含标准引擎和SuperSQL引擎)。
    TCHouse-P:只可选择TCHouse-P。
    TCHouse-D:可选择TCHouse-D。
    Doris:只可选择Doris。
    计算资源
    不同数据源可选择的计算资源不同。
    计算引擎为 EMR 时:此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。
    计算引擎为 DLC 时:此处可选择 DLC 中的资源服务。
    TCHouse-P:无需选择
    TCHouse-D:无需选择。
    Doris:无需选择。
    执行资源
    此处的执行资源即项目已经绑定的调度资源组。

    步骤五:设置订阅

    当质量检测任务的运行结果符合触发条件时(即结果非预期,检测结果为失败),以何种方式发送通知,通知给谁。
    进入订阅设置界面,勾选订阅方式,设置接收人,单击保存即可。
    
    
    

    步骤六:生成规则并查看详情

    1. 进入单表新增规则界面,单击生成规则,必须单击生成规则,才会生成质量检测规则。
    2. 您可以在界面右上角,单击详情,即可进入规则列表。
    
    
    

    步骤七:试运行

    1. 进入到表维度的规则列表,单击试运行。
    2. 修改调度时间,并单击开始试运行,试运行结束后,您可单击点击查看运行结果
    说明:
    此处填写的调度时间,将会修改分区时间变量。
    例如,此处填写2024 - 05 - 02,则 ${yyyy-MM-dd}表示2024 - 05 - 02,${yyyy-MM-dd-1d} 表示2024 - 05 - 01。

    
    
    

    步骤八:查看试运行结果

    1. 进入执行实例与结果页面后,可单击左侧下拉三角形,展开规则明细。
    2. 单击某一条规则的执行历史,查看历史运行结果。
    
    
    

    步骤九:开启监控

    如果试运行结果没有问题,可返回到表维度的质量规则列表,开启监控。
    说明:
    只有启用状态的监控规则,才会自动运行。
    
    
    

    批量新增规则

    支持针对多个表,设置监控规则。
    适用场景:一次性为多个库表添加同一个监控规则。

    步骤一:进入创建页面

    进入数据质量 > 数据监控 > EMR 界面,单击多表新增规则,开始新增多个质量规则。
    说明:
    目前 WeData 支持以下数据源类型:EMR-Hive、DLC、TCHouse-P、TCHouse-D 和 Doris。

    
    
    

    步骤二:设置监控范围

    1. 单击批量新增规则,进入批量新增规则界面,您可选择监控多表监控多字段
    多表:添加同一个数据源的多张表,可跨库。
    多字段:添加同一个数据源的多张表,可跨库、跨表。
    
    
    
    2. 单击添加表,添加表/字段:
    手动添加:勾选即可。
    批量上传:需上传 Excel,监控多表和多字段模板不同。
    监控多表:Excel 中包含三列:数据源名、库名、表名。
    监控多字段:Excel 中包含四列:数据源名、库名、表名、字段名。
    
    
    
    3. 单击下一步,进入规则配置页面。

    步骤三:配置监控规则

    1. 选择规则模板:仅支持系统模板自定义模板。
    系统模板:WeData 已经内置了56个规则模板,可免费使用。各个模板的详细介绍说明请参见系统模板说明
    自定义模板:可在规则模板菜单添加适用自己业务的规则,方便复用,详细操作指导请参见自定义模板说明
    库表参数:会根据自定义模板填写的 SQL 语句,渲染出页面并让用户选择。
    table_1 表示当前选择的表;table_2...table_n 表示其他库表,需要确定的表(目前仅支持1个)。
    ${table_1.column_1}...${table_1.column_n} 表示表内的字段,需要选择确定的字段。
    where 参数:会根据自定义模板填写的 SQL 语句,渲染出页面并让用户选择。
    ${param_1}...${param_n} 表示 where 条件中的参数,需要填写确定的值。
    2. 选择模板:此处将根据规则类型、监控对象进行过滤。
    例如,选择系统模板,监控对象选择表级,此处只可选择表行数表大小等。
    3. 触发条件:比较符可选择区间值和大小值。
    示例:表行数小于1,结合检测范围填写的时间变量,即表示:当昨天没有新增数据时,触发告警。
    比较符:选择
    比较值:填入 1。
    针对不同模板触发条件不同,详细配置逻辑可参考系统模板使用说明
    说明:
    此处填写的触发条件为异常值,即:触发告警的条件。
    4. 单击下一步,进入执行策略配置页面。
    
    
    

    步骤四:设置执行策略

    单击批量设置执行策略后,进入执行策略设置页面,批量设置执行策略后,单击保存。您可以参考下表完成配置。
    
    
    
    解释说明:
    元素
    说明
    执行方式
    可选择关联生产调度离线周期检测
    关联生产调度:即关联调度。将质量任务与生产任务(数据同步任务或者数据开发任务)进行关联,当生产任务运行结束后,插入运行质量规则任务。如发现异常,会第一时间通知处理人进行处理,并根据任务级别阻塞下游任务执行避免问题数据扩展。
    选择任务:可关联数据同步任务和数据开发任务。
    说明:
    同一个质量检测任务可以关联多个生产任务;同一个生产任务也可以关联多个质量检测任务。
    离线周期检测:即独立调度。对选定的数据库表、核心业务字段按天、按小时、按分钟等自定义频率设置周期性质量检测。质量任务会按设定的周期定时执行,如发现异常,会第一时间通知订阅人。
    调度周期:按月、按周、按天、按小时、按分钟。
    生效日期:选择生效时间范围。
    间隔:当选择按天、按小时时,可选择任务间隔时间。
    指定日期:当选择按月、按周时,需设置指定日期,即每周几、每月几号等。
    执行时间:当选择按月、按周、按天时,需设置指定的运行时间。
    执行引擎
    不同数据源可选择的引擎不同。
    EMR-Hive:可选择 Hive、Spark,一般情况下 Hive 表可直接选择 Hive 引擎。
    DLC:需下拉选择DLC数据引擎(包含标准引擎和SuperSQL引擎)。
    TCHouse-P:只可选择 TCHouse-P。
    TCHouse-D:只可选择 TCHouse-D。
    Doris:只可选择 Doris。
    计算资源
    不同数据源可选择的计算资源不同。
    计算引擎为 EMR 时:此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。
    计算引擎为 DLC 时:此处可选择 DLC 中的资源服务。
    TCHouse-P:无需选择。
    TCHouse-D:无需选择。
    Doris:无需选择。
    执行资源
    此处的执行资源即项目已经绑定的调度资源组。

    步骤五:设置订阅

    设置订阅通知,当质量检测任务的运行结果符合触发条件时(即结果非预期,检测结果为失败),以何种方式发送通知,通知给谁。
    1. 进入批量设置订阅信息界面,批量设置订阅信息。
    2. 在弹框订阅设置页面,勾选您需要的订阅方式,设置接收人。单击保存。
    
    
    

    步骤六:设置检测范围

    1. 单击批量设置检测范围,进入设置检测范围界面,即可批量设置检测范围。
    2. 在弹框页面补充以下信息:
    此处可选择条件扫描和全表。建议选择条件扫描
    可填入分区 where 条件,例如:
    pt_date='${yyyy-MM-dd-1d}'
    说明:
    此处一般填写分区字段,避免每次质量任务都进行全表扫描,对计算资源造成浪费。
    SQL 中 ${yyyy-MM-dd-1d} 是日期变量,代表执行日期前一天,在质量任务执行时会被替换为具体的日期。
    例如:当质量任务在2024 - 05 - 02 00:00:00执行时,${yyyy-MM-dd-1d} 会被替换为2024 - 05 - 01。
    具体时间变量的替换逻辑可参考时间参数说明
    
    
    

    步骤七:完成配置

    检测配置完整性,单击完成
    
    
    

    步骤八:试运行

    1. 进入到表维度的规则列表,单击试运行。
    2. 修改调度时间,并单击开始试运行,试运行结束后,您可单击点击查看运行结果
    说明:
    此处填写的调度时间,将会修改分区时间变量。
    例如此处填写2024 - 05 - 02,则 ${yyyy-MM-dd} 表示2024-05-02,${yyyy-MM-dd-1d} 表示2024 - 05 - 01。
    
    
    

    步骤九:查看并启用规则

    1. 进入数据质量 > 数据监控 > EMR > 全部规则界面,找到您需要的规则,单击规则名称
    
    
    
    2. 进入表维度的监控规则列表,在监控状态栏,单击启用规则的按钮开关,即可启用规则。
    
    
    

    批量上传规则

    通过上传 Excel 上传附件,新增质量监控规则,支持针对多个表,设置监控规则。
    适用场景:一次性为多个库表添加多个的监控规则。

    步骤一:进入创建页面

    进入数据质量 > 数据监控 > EMR 界面,单击批量上传规则,即可新增多个质量规则。
    说明:
    目前 WeData 支持以下数据源类型:EMR-Hive、DLC、TCHouse-P、TCHouse-D 和 Doris。
    
    
    

    步骤二:上传模板

    1. 进入数据监控 > 批量上传规则界面,在上传模板界面,单击下载模板,本地修改后,单击点击上传,即可上传模板。
    SQL 语句:此处需要填写一段 SQL 语句,要求如下:
    结果必须为一行一列,即一个固定的值。
    仅允许使用分区变量,例如 ${yyyy-MM-dd}。
    不允许使用表名和列名变量。
    触发条件:比较符与比较值,使用英文冒号分隔。
    比较符:填写汉字即可。
    比较值:填写数值即可。
    2. 单击下一步继续配置。
    
    
    
    
    
    

    步骤三:设置执行策略

    单击批量设置执行策略后,进入执行策略设置页面,批量设置执行策略后,单击保存。您可以参考下表完成配置。
    
    
    
    解释说明:
    元素
    说明
    执行方式
    可选择关联生产调度离线周期检测
    关联生产调度:即关联调度。将质量任务与生产任务(数据同步任务或者数据开发任务)进行关联,当生产任务运行结束后,插入运行质量规则任务。如发现异常,会第一时间通知处理人进行处理,并根据任务级别阻塞下游任务执行避免问题数据扩展。
    选择任务:可关联数据同步任务和数据开发任务。
    说明:
    同一个质量检测任务可以关联多个生产任务;同一个生产任务也可以关联多个质量检测任务。
    离线周期检测:即独立调度。对选定的数据库表、核心业务字段按天、按小时、按分钟等自定义频率设置周期性质量检测。质量任务会按设定的周期定时执行,如发现异常,会第一时间通知订阅人。
    调度周期:按月、按周、按天、按小时、按分钟。
    生效日期:选择生效时间范围。
    间隔:当选择按天、按小时时,可选择任务间隔时间。
    指定日期:当选择按月、按周时,需设置指定日期,即每周几、每月几号等。
    执行时间:当选择按月、按周、按天时,需设置指定的运行时间。
    执行引擎
    不同数据源可选择的引擎不同。
    EMR-Hive:可选择 Hive、Spark,一般情况下 Hive 表可直接选择 Hive 引擎。
    DLC:需下拉选择DLC数据引擎()。
    TCHouse-P:只可选择 TCHouse-P。
    TCHouse-D:只可选择 TCHouse-D。
    Doris:只可选择 Doris。
    计算资源
    不同数据源可选择的计算资源不同。
    计算引擎为 EMR 时:此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。
    计算引擎为 DLC 时:此处可选择 DLC 中的资源服务。
    TCHouse-P:无需选择。
    TCHouse-D:无需选择。
    Doris:无需选择。
    执行资源
    此处的执行资源即项目已经绑定的调度资源组。

    步骤五:设置订阅

    设置订阅通知,当质量检测任务的运行结果符合触发条件时(即结果非预期,检测结果为失败),以何种方式发送通知,通知给谁。
    1. 进入批量设置订阅信息界面,批量设置订阅信息。
    2. 在弹框订阅设置页面,勾选您需要的订阅方式,设置接收人。单击保存。
    
    
    

    步骤六:完成配置

    检测配置完整性,单击完成
    
    
    

    步骤七:查看并启用规则

    1. 进入数据质量 > 数据监控 > EMR > 全部规则界面,找到您需要的规则,单击规则名称
    
    
    
    2. 进入表维度的监控规则列表,在监控状态栏,单击启用规则的按钮开关即可启用规则。
    
    
    

    查看监控规则

    规则列表

    WeData 支持三种方式查看监控规则,用户可根据实际场景自行选择。
    全部规则
    展示某个数据源下的所有监控规则。
    可选择数据源、数据库。
    可筛选我订阅的规则。
    按表看规则
    以表维度聚合数据,展示每张表的规则数量。
    可选择数据源、数据库。
    可选择我订阅的规则。
    按模板看规则
    以模板维度聚合数据,展示每张表的规则数量。
    可选择系统模板、自定义模板。
    
    
    

    规则列表 - 单表视图

    1. 单击某个规则,将进入表维度的规则列表页面。
    2. 在表维度规则列表页面,可针对某个规则进行操作:监控状态开启/关闭、试运行、查看日志等。
    
    
    
    
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持