Regular Expression Extraction

TDMQ for CKafka

Release Notes and Announcements

Release Notes

Broker Release Notes

Connector Release Notes

DataHub Release Notes

Announcement

TDMQ for CKafka Advanced Edition Launch Announcement

Product Introduction

Comparison with Apache Kafka

Use Limits

Regions and AZs

Purchase Guide

Product Specifications

Professional Edition - Elastic Storage

Billing Overview

Purchasing pay-as-you-go instances

Getting Started

Obtaining Access Permission

Getting Access Authorization

Granting Operation-Level Permissions to Sub-Accounts

Granting Resource-Level Permissions to Sub-Accounts

Granting Tag-Level Permissions to Sub-Accounts

VPC Access

Step 1. Create an Instance

Step 2. Create a Topic

Step 3. Add a VPC Route

Step 4. Send/Receive Messages

Using SDK to Receive/Send Message (Recommended)

Running Kafka Client (Optional)

Access via Public Domain Name

Step 1. Create an Instance

Step 2. Add a Public Route

Step 3. Create a Topic

Step 4. Configure an ACL Policy

Step 5. Send/Receive Messages

Using SDK to Receive/Send Message (Recommended)

Running Kafka Client (Optional)

Operation Guide

Instance Management

Creating Instance

Naming with Consecutive Numeric Suffixes or Designated Pattern String

Viewing Instance

Upgrading Instance

Downgrading Instance Configuration

Terminating/Returning Instances

Change from Pay-as-You-Go to Monthly Subscription

Upgrading Instance Version

Adding Routing Policy

Connecting to Prometheus

AZ Migration

Setting Maintenance Time

Setting Message Size

Topic Management

Instance Topic

Setting Topic Traffic Throttling Rule

Elastic Topic

Topic Management

Subscription Management

Consumer Group

Consumer Group Overview

Creating Consumer Group

Querying Consumer Group

Deleting Consumer Group

Setting Offset

Automatically Resetting Offset

Monitoring and Alarms

Viewing Monitoring Data

Querying Advanced Monitoring (Pro Edition)

Configuring Alarms

Suggestions for Alarm Configuration

Viewing Advanced Ops Features (Pro Edition)

Smart Ops

Elastic Scaling

Disk Utilization Policy

Dynamic Partition Processing

Elastic Bandwidth

Permission Management

Configuring ACL Policy

Tag Management

Migration to Cloud

Migration Scheme Overview

Step 1. Purchasing CKafka Instance

Step 2. Migrating Topic to Cloud

Step 3. Migrating Data to Cloud

Scheme 1: Single-Producer Dual-Consumer Migration

Scheme 2: Single-Producer Single-Consumer Migration

Scheme 3: Migration with MirrorMaker

Scheme 4: Migrating Unconsumed Data

Data Compression

CKafka Connector

Introduction

Connection Management

Task Management

Creating Data Access Task

Creating Data Distribution Task

Data Target

Data Distribution to TDW

Simple Data Processing

Data Conversion

Filter Rule Description

Task Management

Schema Management

Event Center

Practical Tutorial

Troubleshooting

Topic Failures

Topic Creation Failure

No Topic Monitoring Data

Linkage Failure of Other Tencent Cloud Services Caused by Topic ACL Policy Configuration

Existence of Partition Message Heap

Consumer Group Failures

No Consumer Group Details Displayed

Consumer Group Constantly in PreparingRebalance Status

Client Failures

Common Client Errors and Solutions

Blockage of Messages Produced by Client

Client’s Failure to Consume Messages

Sarama Client

Message Failures

Consumption Data Exception

Failure to Delete Expired Messages Promptly

Slow Consumption Speed

Warning Displayed for Message Heap

Error Persistence After a Period of Production

API Documentation

Making API Requests

DataHub APIs

DescribeDatahubTopics

ACL APIs

Topic APIs

Instance APIs

CreatePostPaidInstance

DescribeInstanceAttributes

DescribeInstancesDetail

InquireCkafkaPrice

ModifyGroupOffsets

ModifyInstanceAttributes

Route APIs

Other APIs

DeleteRouteTriggerTime

DescribeAppInfo

DescribeCkafkaZone

DescribeConsumerGroup

SDK Documentation

SDK for Java

VPC Access Through SASL_SCRAM

Public Network Access Through SASL_PLAINTEXT

Access Through SASL_SSL

SDK for Python

VPC Access

Public Network Access Through SASL_PLAINTEXT

Public Network Access Through SASL_SSL

SDK for Go

VPC Access

Public Network Access Through SASL_PLAINTEXT

SDK for PHP

VPC Access

Public Network Access Through SASL_PLAINTEXT

SDK for C++

VPC Access

Public Network Access Through SASL_PLAINTEXT

SDK for Node.js

VPC Access

Public Network Access Through SASL_PLAINTEXT

SDK for Connector

Data Reporting SDK

Elastic Topic Message Sending and Receiving

Connecting Filebeats to CKafka

Connecting Logstash to CKafka

General References

Conducting Production and Consumption Pressure Testing on CKafka

Configuration Guide for Common Parameters in CKafka

Connecting to Legacy Self-Built Kafka

Suggestions for CKafka Version Selection

CKafka Data Reliability Description

Connector

Database Change Subscription

MongoDB Data Subscription

MySQL Data Subscription

PostgreSQL Data Subscription

Official Format Description for MySQL Subscription Messages

Canal Format of MySQL Subscription Message

User Permission Settings Reference for PostgreSQL Subscription by Connector

Data Processing

Data Processing Rule Description

Regular Expression Extraction

JSONPath Description

Self-Built Cluster Connection Instructions (CLB Method)

Authorization Instructions for Access to CLS and COS Services Through Connectors

What Is a Signaling Table

FAQs

Connector

Data Reporting Issues

Data Processing Issues

Data Dump

Data Subscription Issues

Service Level Agreement

Glossary

DocumentationTDMQ for CKafkaGeneral ReferencesConnectorData ProcessingRegular Expression Extraction

Regular Expression Extraction

Download PDF

Last updated: 2024-11-07 11:40:11

Regular Expression Extraction

Last updated: 2024-11-07 11:40:11

Download PDF

The data processing feature of CKafka Connector provides the capability to extract message content based on regular expressions. Regular expression extraction uses the open-source regular expression package re2.
Java's standard regular expression package java.util.regex and other widely used regular expression packages, such as PCRE, Perlre, and Python(re), use the backtracking policy. That is, when two options a|b are available for a pattern, the engine will first try to match a. If the match fails, it will reset the input stream and try to match b.
If the matching pattern is deeply nested, the policy requires exponential nested parsing of the input data. If the input string is very long, the matching time can be infinitely long
In contrast, the RE2J algorithm uses a nondeterministic finite automaton (NFA) to check all matches in a single parse of the input data, achieving regular expression matching in linear time.
Regular expression extraction of data processing applies to the extraction of specific fields from messages of long array types. Some common extraction patterns are described below.
Example 1: Extracting the Phone Number Field
Input message:
{"message":
    [
        {"email":123456@qq.com,"phoneNumber":"13890000000","IDNumber":"130423199301067425"},
        {"email":123456789@163.com,"phoneNumber":"15920000000","IDNumber":"610630199109235723"},
        {"email":usr333@gmail.com,"phoneNumber":"18830000000","IDNumber":"42060219880213301X"}
    ]
}
Output message:
{
    "0": "\\"phoneNumber\\":\\"13890000000\\"",
    "1": "\\"phoneNumber\\":\\"15920000000\\"",
    "2": "\\"phoneNumber\\":\\"18830000000\\""
}
The regular expression used is:
"phoneNumber":"(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}"
﻿
Example 2: Extracting the Email Field
Input message:
{"message":
    [
        {"email":123456@qq.com,"phoneNumber":"13890000000","IDNumber":"130423199301067425"},
        {"email":123456789@163.com,"phoneNumber":"15920000000","IDNumber":"610630199109235723"},
        {"email":usr333@gmail.com,"phoneNumber":"18830000000","IDNumber":"42060219880213301X"}
    ]
}
Output message:
{
    "0": "\\"email\\":\\"123456@qq.com\\"",
    "1": "\\"email\\":\\"123456789@163.com\\"",
    "2": "\\"email\\":\\"usr333@gmail.com\\""
}
The regular expression used is:
"email":"\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*"
﻿
Example 3: Extracting the ID Number Field
Input message:
{
    "@timestamp": "2022-02-26T22:25:33.210Z",
    "input_type": "log",
    "operation": "INSERT",
    "operator": "admin",
    "message": "{\\"email\\":\\"123456@qq.com\\",\\"phoneNumber\\":\\"13890000000\\",\\"IDNumber\\":\\"130423199301067425\\"},{\\"email\\":\\"123456789@163.com\\",\\"phoneNumber\\":\\"15920000000\\",\\"IDNumber\\":\\"610630199109235723\\"},{\\"email\\":\\"usr333@gmail.com\\",\\"phoneNumber\\":\\"18830000000\\",\\"IDNumber\\":\\"42060219880213301X\\"}"
}
Output message. Retain other fields and extract N IDNumber fields from the message separately:
{
    "@timestamp": "2022-02-26T22:25:33.210Z",
    "input_type": "log",
    "operation": "INSERT",
    "operator": "admin",
    "message.0": "130423199301067425",
    "message.1": "610630199109235723",
    "message.2": "42060219880213301X"
}
The used regular expression is:
[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(1[0-2]))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx]
Multiple processing chains are used, and the result of the first processing chain is as follows:
﻿
The message field needs to be further processed, and the result of the second processing chain is as follows:
﻿
﻿
Processing result:
{
    "@timestamp": "2022-02-26T22:25:33.210Z",
    "input_type": "log",
    "operation": "INSERT",
    "operator": "admin",
    "message.0": "130423199301067425",
    "message.1": "610630199109235723",
    "message.2": "42060219880213301X"
}
The required N IDNumber fields are extracted, the original message field is deleted, and other fields such as operation are retained.
﻿

Was this page helpful?

You can also Contact Sales or Submit a Ticket for help.

Yes

tencent cloud

New User Offers

Next-Generation CDN：EdgeOne

Elasticsearch Service Special Offers

Free Tier

Tencent Cloud Startup Program

Special Offers

Lighthouse Special Offers

Cloud Object Storage Special Offers

Featured Products

New Products

Education

Tencent Cloud Online Education Solutions

Gaming

Gaming Solution

Game Media Solutions

Financial Services

Financial Services Solution

Audio & Video

Audio/Video Solution

LVB Recording Solution

Interactive Classroom Solution

Interactive Live Streaming Solution

Audio Chat Social Networking Solution

Real Estate

Tencent Cloud LinkBase(Weiling)

E-commerce

E-commerce retail solutions

Compute

Cloud Virtual Machine

Auto Scaling

Batch Compute

CVM Dedicated Host

Database

TencentDB for MySQL

TencentDB for Redis®

TencentDB for CTSDB

TDSQL for MySQL

Data Transfer Service

TencentDB for MongoDB

TencentDB for PostgreSQL

TencentDB for SQL Server

TencentDB for TcaplusDB

Video Service

Cloud Streaming Services

Video on Demand

Media Processing Service

Cloud Application Rendering

Cloud Contact Center

Game Multimedia Engine

Chat

Real-time Communication

Tencent Effect SDK

AI and Machine Learning

Image Creation Large Model

Face Fusion

eKYC

Optical Character Recognition

Video Creation Large Model

Industry Applications

Tencent HealthCare Omics Platform

Container and Middleware

TDMQ for CKafka

Serverless Cloud Function

Tencent Kubernetes Engine

Tencent Kubernetes Engine for Serverless

Networking

Cloud Load Balancer

Virtual Private Cloud

Direct Connect

Cloud Connect Network

NAT Gateway

VPN Connection

Bandwidth Package

Anycast Internet Acceleration

Elastic Network Interface

Flow Logs

Global Application Acceleration Platform

Security

Captcha