操作场景
JSON 目前是互联网信息传递中最通用的格式协议之一。目前数据处理也主要围绕 JSON 数据格式进行解析处理。
JSONPath 是针对 JSON 格式推出的消息查询语法规范。在数据处理中,不仅能够使用简单的 JSONPath 语法,快速获取复杂嵌套 JSON 结构体的某一成员的值;还能使用 JayWay 库的扩展函数,聚合或操作某一类型的成员字段。 基础功能
基础语法
$
根结点操作符,表示当前 JSON 结构体的根结点。
.<childName>
点操作符或 ['<childName>']
方括号操作符,表示选取当前作用对象名为 childName
的子成员。
..
递归操作符,表示 递归 获取当前作用对象的所有子成员。
[<index>]
片选操作符,表示获取当前可迭代对象的第 index
个子成员。
获取嵌套 JSON 特定成员变量
下图为 TKE 采集的容器标准输出日志结构:
{
"@timestamp": 1648803500.63659,
"@filepath": "/var/log/tke-log-agent/test7/xxxxxxxx-adfe-4617-8cf3-9997aea90ded/c_tke-es-xxxxxxxx57-n29jr_default_nginx-xxxxxxxx49626ef42d5615a636aae74d6380996043cf6f6560d8131f21a4d8ba/jgw_INFO_2022-02-10_15_4.log",
"log": "15:00:00.000[4349811564226374227] [http-nio-8081-exec-64] INFO com.qcloud.jgw.gateway.server.topic.TopicService",
"kubernetes": {
"pod_name": "tke-es-xxxxxxxxxx-n29jr",
"namespace_name": "default",
"pod_id": "xxxxxxxx-adfe-4617-8cf3-9997aea90ded",
"labels": {
"k8s-app": "tke-es",
"pod-template-hash": "xxxx95d557",
"qcloud-app": "tke-es"
},
"annotations": {
"qcloud-redeploy-timestamp": "1648016531476",
"tke.cloud.tencent.com/networks-status": "[{\\n \\"name\\": \\"tke-bridge\\",\\n \\"interface\\": \\"eth0\\",\\n \\"ips\\": [\\n \\"172.16.x.xx\\"\\n ],\\n \\"mac\\": \\"xx:xx:xx:4a:c2:ba\\",\\n \\"default\\": true,\\n \\"dns\\": {}\\n}]"
},
"host": "10.0.xx.xx",
"container_name": "nginx",
"docker_id": "xxxxxxxx49626ef42d5615a636aae74d6380996043cf6f6560d8131f21a4d8ba",
"container_hash": "nginx@sha256:xxxxxxxx7b29b585ed1aee166a17fad63d344bc973bc63849d74c6452d549b3e",
"container_image": "nginx"
}
}
当用户需要获取当前 pod 名称,即获取 qcloud-app
成员字段时,可以在数据处理中使用 $.kubernetes.labels.qcloud-app
,或 $.['kubernetes'].['labels'].['qcloud-app']
JSONPath 语法获取。
运行结果如下所示,可以看出在测试结果中已经成功读取到 JSONPath 对应的日志:
说明
在使用 JSONPath 处理参数时,当 JSON 变量名称本身带有英文句号 .
等特殊符号时,就只能使用方括号操作符进行包装。
例如 {"key1.key2":"value1"}
的 JSON 结构体,要想取得对应成员字段,则需要使用 $.['key1.key2']
进行获取。
进阶功能
进阶语法
*
通配操作符,表示获取当前作用对象的 所有 子成员。
*~
内置函数,表示获取当前可迭代对象所有子对象的名称。
min()
内置函数,表示获取当前可迭代对象子对象的最小值。
max()
内置函数,表示获取当前可迭代对象子对象的最大值。
sum()
内置函数,表示获取当前可迭代对象子对象之和。
concat()
内置函数,表示连接多个对象并生成字符串。
聚合特定字段数据
当 JSON 结构体中存在对象列表时,通常列表为变长形式,以下图中的请求返回日志为例:
{
"data": {
"Response": {
"Result": {
"Routers": [
{
"AccessType": 0,
"RouteId": 81111,
"VpcId": "vpc-xxxxxxxx",
"VipType": 3,
"VipList": [
{
"Vip": "10.0.0.189",
"Vport": "9xxx"
}
]
},
{
"AccessType": 0,
"RouteId": 81112,
"VpcId": "vpc-r5sbavzp",
"VipType": 3,
"VipList": [
{
"Vip": "10.0.0.248",
"Vport": "9xxx"
}
]
},
{
"AccessType": 0,
"RouteId": 81113,
"VpcId": "vpc-xxxxxxxx",
"VipType": 3,
"VipList": [
{
"Vip": "10.0.0.210",
"Vport": "9xxx"
}
]
}
]
},
"RequestId": "20e74750-ca40-403d-9ea9-d3f63b5415d2"
}
},
"code": 0
}
当需要聚合变长列表的成员属性时,此时无法使用处理链形式聚合处理。此时可以使用 JSONPath 中的 *
语法匹配列表中所有元素。
例如当需要得到所有的 VipList 中的 Vip 时,可以使用 $.data.Response.Result.Routers[*].VipList[0].Vip
的 JSONPath 语法获取。
运行结果如下所示,可以看出在测试结果中已经成功获取到了所有结构体中的 Vip:
合并修改结构体成员
在某些场景下,需要在数据处理中对 JSON 结构体的多个对象进行合并整合处理,以便投递到下游进行下一步操作。考虑如下格式:
{
"data": {
"Response": {
"SubnetSet": [
{
"VpcId": "vpc-xxxxxxxx",
"SubnetId": "subnet-xxxxxxxx",
"SubnetName": "ckafka_cloud_subnet-1",
"CidrBlock": "10.0.0.0/19",
"Ipv6CidrBlock": "",
"IsDefault": false,
"IsRemoteVpcSnat": false,
"EnableBroadcast": false,
"Zone": "ap-changsha-ec-1",
"RouteTableId": "rtb-xxxxxxxx",
"NetworkAclId": "",
"TotalIpAddressCount": 8189,
"AvailableIpAddressCount": 8033,
"CreatedTime": "2021-01-25 17:31:00",
"TagSet": [],
"CdcId": "",
"IsCdcSubnet": 0,
"LocalZone": false,
"IsShare": false
}
],
"TotalCount": 1,
"RequestId": "705c4955-0cd9-48b2-9132-79eadae2e3e6"
}
},
"code": 0
}
当下游不具有计算功能,需要在数据处理中聚合 Vpc 以及子网属性时,可以使用 JSONPath 中的 concat()
函数进行多个字段的聚合,并且在此基础上对字符串进行修改。
例如可以使用 $.concat($.data.Response.SubnetSet[0].VpcId,"#",$.data.Response.SubnetSet[0].SubnetId,"#",$.data.Response.SubnetSet[0].CidrBlock))
语法拼接 VPC 和子网的属性,并且通过 #
字符加以分割。
运行结果如下所示,可以看出在测试结果中已经成功获取整合了 VPC 相关的资源信息:
本页内容是否解决了您的问题?