类型 | 说明 |
数据源类型 | 目前 WeData 支持以下数据源类型: EMR EMR-Hive DLC TCHouse-P TCHouse-D Doris |
新增方式 | 目前 WeData 支持以下三种新增方式: 单表新增:针对同一张表创建监控规则。 一次只可选择一张表。 一次可添加多个规则。 多表新增:针对同一个数据源的多张表的多个字段批量创建监控规则。 一次可选择多张表、多个字段。 一次只可选择一个监控规则。 批量上传:上传 excel 模板,批量导入。 一次只可针对同一种数据源类型。 只能支持自定义 SQL(不支持内置模板和自定义模板)。 一次只可上传100条。 |
元素 | 说明 |
规则类型 | 此处可选择系统模板、自定义模板、自定义 SQL: 系统模板:WeData 已经内置了56个规则模板,可免费使用。各个模板的详细介绍说明可参考系统模板说明。 自定义模板:可在规则模板菜单添加适用自己业务的规则,方便复用,详细操作指导可参考自定义模板说明。 选择模板:选择已经添加的自定义模板。 库表参数:会根据自定义模板填写的 SQL 语句,渲染出页面并让用户选择。 table_1 表示当前选择的表;table_2...table_n 表示其他库表,需要确定的表(目前仅支持1个)。 ${table_1.column_1}...${table_1.column_n} 表示表内的字段,需要选择确定的字段。 where 参数:会根据自定义模板填写的 SQL 语句,渲染出页面并让用户选择。 ${param_1}...${param_n} 表示 where 条件中的参数,需要填写确定的值。 自定义 SQL:可直接填写 SQL 语句作为检测规则。 监控对象:仅支持表(table)。 自定义维度:需要从六个维度中选择。 适用引擎:可根据不同数据源选择不同引擎,例如,Hive 表支持 Hive 和 Spark。 SQL 语句:此处需要填写一段 SQL 语句,要求如下: 结果必须为一行一列,即一个固定的值。 仅允许使用分区变量,例如 ${yyyy-MM-dd}。 不允许使用表名和列名变量。 |
监控对象 | 以系统模板为例,监控对象可分为:表级和字段级: 表级,可对表行数,表大小(仅支持 Hive 表)进行监控。 字段级,可对字段是否为空,是否重复,平均值、最大值、最小值等进行监控。 |
选择模板 | 此处将根据规则类型、监控对象进行过滤。 例如,选择系统模板,监控对象选择表级,此处只可选择表行数、表大小等。 |
检测范围 | 此处可选择条件扫描和全表。 建议选择条件扫描。 可填入分区 where 条件,例如:
说明: 此处一般填写分区字段,避免每次质量任务都进行全表扫描,对计算资源造成浪费。 SQL 中 ${yyyy-MM-dd-1d} 是日期变量,代表执行日期前一天,在质量任务执行时会被替换为具体的日期。 例如:当质量任务在2024-05-02 00:00:00执行时,${yyyy-MM-dd-1d} 会被替换为2024-05-01。 |
触发条件 | 比较符可选择区间值和大小值。 示例:表行数小于1,结合检测范围填写的时间变量,即表示:当昨天没有新增数据时,触发告警。 比较符:选择小于。 比较值:填入 1。 说明: 此处填写的触发条件为异常值,即触发告警的条件。 |
触发等级 | 选择中。 触发等级可分为:高、中、低。 高:当触发告警时,立即阻断下游任务执行(仅关联生产任务时有效)。 中:仅触发告警。 低:不触发告警,仅结果展示异常。 |
元素 | 说明 |
执行方式 | 可选择关联生产调度和离线周期检测。 关联生产调度:即关联调度。将质量任务与生产任务(数据同步任务或者数据开发任务)进行关联,当生产任务运行结束后,插入运行质量规则任务。如发现异常,会第一时间通知处理人进行处理,并根据任务级别阻塞下游任务执行避免问题数据扩展。 选择任务:可关联数据同步任务和数据开发任务。 说明: 同一个质量检测任务可以关联多个生产任务;同一个生产任务也可以关联多个质量检测任务。 离线周期检测:即独立调度。对选定的数据库表、核心业务字段按天、按小时、按分钟等自定义频率设置周期性质量检测。质量任务会按设定的周期定时执行,如发现异常,会第一时间通知订阅人。 调度周期:按月、按周、按天、按小时、按分钟。 生效日期:选择生效时间范围。 间隔:当选择按天、按小时时,可选择任务间隔时间。 指定日期:当选择按月、按周时,需设置指定日期,即每周几、每月几号等。 执行时间:当选择按月、按周、按天时,需设置指定的运行时间。 |
执行引擎 | 不同数据源可选择的引擎不同。 EMR-Hive:可选择 Hive、Spark,一般情况下 Hive 表可直接选择 Hive 引擎。 DLC:需下拉选择DLC数据引擎(包含标准引擎和SuperSQL引擎)。 TCHouse-P:只可选择TCHouse-P。 TCHouse-D:可选择TCHouse-D。 Doris:只可选择Doris。 |
计算资源 | 不同数据源可选择的计算资源不同。 计算引擎为 EMR 时:此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。 计算引擎为 DLC 时:此处可选择 DLC 中的资源服务。 TCHouse-P:无需选择 TCHouse-D:无需选择。 Doris:无需选择。 |
执行资源 | 此处的执行资源即项目已经绑定的调度资源组。 |
;
元素 | 说明 |
执行方式 | 可选择关联生产调度和离线周期检测。 关联生产调度:即关联调度。将质量任务与生产任务(数据同步任务或者数据开发任务)进行关联,当生产任务运行结束后,插入运行质量规则任务。如发现异常,会第一时间通知处理人进行处理,并根据任务级别阻塞下游任务执行避免问题数据扩展。 选择任务:可关联数据同步任务和数据开发任务。 说明: 同一个质量检测任务可以关联多个生产任务;同一个生产任务也可以关联多个质量检测任务。 离线周期检测:即独立调度。对选定的数据库表、核心业务字段按天、按小时、按分钟等自定义频率设置周期性质量检测。质量任务会按设定的周期定时执行,如发现异常,会第一时间通知订阅人。 调度周期:按月、按周、按天、按小时、按分钟。 生效日期:选择生效时间范围。 间隔:当选择按天、按小时时,可选择任务间隔时间。 指定日期:当选择按月、按周时,需设置指定日期,即每周几、每月几号等。 执行时间:当选择按月、按周、按天时,需设置指定的运行时间。 |
执行引擎 | 不同数据源可选择的引擎不同。 EMR-Hive:可选择 Hive、Spark,一般情况下 Hive 表可直接选择 Hive 引擎。 DLC:需下拉选择DLC数据引擎(包含标准引擎和SuperSQL引擎)。 TCHouse-P:只可选择 TCHouse-P。 TCHouse-D:只可选择 TCHouse-D。 Doris:只可选择 Doris。 |
计算资源 | 不同数据源可选择的计算资源不同。 计算引擎为 EMR 时:此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。 计算引擎为 DLC 时:此处可选择 DLC 中的资源服务。 TCHouse-P:无需选择。 TCHouse-D:无需选择。 Doris:无需选择。 |
执行资源 | 此处的执行资源即项目已经绑定的调度资源组。 |
pt_date='${yyyy-MM-dd-1d}'
元素 | 说明 |
执行方式 | 可选择关联生产调度和离线周期检测。 关联生产调度:即关联调度。将质量任务与生产任务(数据同步任务或者数据开发任务)进行关联,当生产任务运行结束后,插入运行质量规则任务。如发现异常,会第一时间通知处理人进行处理,并根据任务级别阻塞下游任务执行避免问题数据扩展。 选择任务:可关联数据同步任务和数据开发任务。 说明: 同一个质量检测任务可以关联多个生产任务;同一个生产任务也可以关联多个质量检测任务。 离线周期检测:即独立调度。对选定的数据库表、核心业务字段按天、按小时、按分钟等自定义频率设置周期性质量检测。质量任务会按设定的周期定时执行,如发现异常,会第一时间通知订阅人。 调度周期:按月、按周、按天、按小时、按分钟。 生效日期:选择生效时间范围。 间隔:当选择按天、按小时时,可选择任务间隔时间。 指定日期:当选择按月、按周时,需设置指定日期,即每周几、每月几号等。 执行时间:当选择按月、按周、按天时,需设置指定的运行时间。 |
执行引擎 | 不同数据源可选择的引擎不同。 EMR-Hive:可选择 Hive、Spark,一般情况下 Hive 表可直接选择 Hive 引擎。 DLC:需下拉选择DLC数据引擎()。 TCHouse-P:只可选择 TCHouse-P。 TCHouse-D:只可选择 TCHouse-D。 Doris:只可选择 Doris。 |
计算资源 | 不同数据源可选择的计算资源不同。 计算引擎为 EMR 时:此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。 计算引擎为 DLC 时:此处可选择 DLC 中的资源服务。 TCHouse-P:无需选择。 TCHouse-D:无需选择。 Doris:无需选择。 |
执行资源 | 此处的执行资源即项目已经绑定的调度资源组。 |
本页内容是否解决了您的问题?