操作场景
DataHub 提供简单的数据处理功能,通过传入数据和配置项,可以实现对数据格式化处理,然后返回处理完成的结构化数据,分发给离线/在线处理平台,构建数据源和数据处理系统间的桥梁。
操作步骤
创建规则
2. 在左侧导航栏单击数据处理,选择好地域后,单击新建任务。
3. 填写任务基本信息。
任务名称:只能包含字母、数字、下划线、“-”、“.”。
源 Topic:源数据 CKafka Topic。
目标 Topic:目标数据 CKafka Topic。
起始位置:选择转储时历史消息的处理方式,topic offset 设置。
底层引擎使用事件总线(Event Bridge):用户可以选择底层引擎使用EB。
角色授权:使用事件总线(EventBridge)作为底层引擎,您需要授予一个第三方角色代替您执行访问相关产品权限。
4. 单击下一步,设置数据处理规则。
原始数据:支持从源 Topic 拉取或者自定义。
解析格式:支持 JSON,分隔符和正则提取三种解析方式。
JSON。
分隔符:支持 空格
、制表符
、,
、;
、|
、自定义
。
正则提取:需填写正则表达式。
5. 选择好解析模式后,单击确认,开始解析数据。
6. 解析完成后,设置好过滤器规则和数据处理方式。
过滤器:仅输出符合过滤器规则的数据。过滤器的匹配模式支持前缀匹配、后缀匹配、包含匹配(contains)、除外匹配(except)、数值匹配和IP匹配。详情参见 过滤器规则说明。 数据处理:TYPE 有默认、系统预设、映射、自定义和 JSONPATH 五种。
TYPE = 默认:VALUE 从解析结果中映射,不可编辑。
TYPE = 系统预设:可以选择系统预设的 VALUE ,目前支持 DATE(时间戳)。
TYPE = 映射:可以选择已有的 KEY,最终输出的 VALUE 值由指定的 KEY 映射而来。
TYPE = 自定义:可以输入自定义 VALUE。
TYPE = JSONPATH:解析多层嵌套的 JSON 数据,用$
符号开头,.
符号定位到多层 JSON 的具体字段。
7. 单击测试,查看测试结果。
8. 设置失败处理规则。
重试间隔:处理失败重试间隔时间,重试间隔时间的取值范围为60s~1h。
重试次数:处理失败最大重试次数,超过最大次数后将作为失败消息处理。重试次数 * 时间间隔 <= 6h。
失败消息处理:处理失败消息的处理方式,支持丢弃、保留和投递到死信队列(需指定死信队列 Topic)。
9. 单击提交,完成数据处理规则创建。
编辑规则
1. 在 数据处理 任务列表页面,单击目标任务的 ID,进入任务基本信息页面。 2. 单击处理规则模块右上角的编辑规则,可修改数据处理规则。
更改配置
1. 在 数据处理 任务列表页面,单击目标任务的 ID,进入任务基本信息页面。 2. 单击配置信息模块右上角的更改配置,修改数据处理规则配置。
查看监控
1. 在 数据处理 任务列表页面,单击目标任务的 ID,进入任务基本信息页面。 2. 进入任务基本信息页面。
3. 在任务详情页顶部,单击监控,选择要查看资源,设置好时间范围,可以查看对应的监控数据。
暂停任务
在 数据处理 页面,单击目标任务的操作栏的暂停,可暂停任务。 说明:
该操作是异步任务,有延迟,任务状态可能不会立刻改变。
恢复任务
在 数据处理 页面,单击目标任务的操作栏的恢复,可将暂停任务恢复。 说明:
处于暂停状态的任务可以重新启动,并继续处理数据。
删除任务
在 数据处理 页面,单击目标任务的操作栏的删除,在二次确认弹窗中单击确认,可删除任务。 说明:
删除任务表示停止数据处理并删除任务记录,不会影响到已经处理的数据和相关的 CKafka 实例。
任务一旦删除不可恢复,请您谨慎操作。
本页内容是否解决了您的问题?