POST /template HTTP/1.1Host: <BucketName-APPID>.ci.<Region>.myqcloud.comDate: <GMT Date>Authorization: <Auth String>Content-Length: <length>Content-Type: application/xml<body>
<Request><Tag>SpeechRecognition</Tag><Name>TemplateName</Name><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ResTextFormat>1</ResTextFormat><FilterDirty>0</FilterDirty><FilterModal>1</FilterModal><ConvertNumMode>0</ConvertNumMode><SpeakerDiarization>1</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><OutputFileType>txt</OutputFileType></SpeechRecognition></Request>
节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 |
Request | 无 | 保存请求的容器。 | Container | 是 |
节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 | 限制 |
Tag | Request | 模板类型:SpeechRecognition。 | String | 是 | 无 |
Name | Request | 模板名称 仅支持中文、英文、数字、_、-和*。 | String | 是 | 无 |
SpeechRecognition | Request | 语音识别参数。 | Container | 是 | 无 |
节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 |
EngineModelType | Request.SpeechRecognition | 引擎模型类型,分为电话场景和非电话场景。 电话场景: 8k_zh:电话 8k 中文普通话通用(可用于双声道音频)。 8k_zh_s:电话 8k 中文普通话话者分离(仅适用于单声道音频)。 8k_en:电话 8k 英语。 非电话场景: 16k_zh:16k 中文普通话通用。 16k_zh_video:16k 音视频领域。 16k_en:16k 英语。 16k_ca:16k 粤语。 16k_ja:16k 日语。 16k_zh_edu:中文教育。 16k_en_edu:英文教育。 16k_zh_medical:医疗。 16k_th:泰语。 16k_zh_dialect:多方言,支持23种方言。 | String | 是 |
ChannelNum | Request.SpeechRecognition | 语音声道数: 1表示单声道.EngineModelType为非电话场景仅支持单声道。 2表示双声道(仅支持 8k_zh 引擎模型双声道应分别对应通话双方)。 | Integer | 是 |
ResTextFormat | Request.SpeechRecognition |
识别结果返回形式: 0表示识别结果文本(含分段时间戳)。 1词级别粒度的详细识别结果,不含标点,含语速值(词时间戳列表,一般用于生成字幕场景)。 2词级别粒度的详细识别结果(包含标点、语速值)。
| Integer | 是 |
FilterDirty | Request.SpeechRecognition | 是否过滤脏词(目前支持中文普通话引擎): 0表示不过滤脏词。 1表示过滤脏词。 2表示将脏词替换为*。 默认值为0。 | Integer | 否 |
FilterModal | Request.SpeechRecognition | 是否过语气词(目前支持中文普通话引擎): 0表示不过滤语气词。 1表示部分过滤。 2表示严格过滤 。 默认值为0。 | Integer | 否 |
ConvertNumMode | Request.SpeechRecognition | 是否进行阿拉伯数字智能转换(目前支持中文普通话引擎): 0 表示不转换,直接输出中文数字。 1表示根据场景智能转换为阿拉伯数字。 3表示打开数学相关数字转换。 默认值为0。 | Integer | 否 |
SpeakerDiarization | Request.SpeechRecognition | 是否开启说话人分离: 0表示不开启。 1表示开启(仅支持8k_zh,16k_zh,16k_zh_video,单声道音频)。 默认值为0。 注意:8k电话场景建议使用双声道来区分通话双方,设置ChannelNum=2即可,不用开启说话人分离。 | Integer | 否 |
SpeakerNumber | Request.SpeechRecognition | 说话人分离人数(需配合开启说话人分离使用),取值范围:0-10。 0代表自动分离(目前仅支持≤6个人),1-10代表指定说话人数分离。默认值为 0。 | Integer | 否 |
FilterPunc | Request.SpeechRecognition | 是否过滤标点符号(目前支持中文普通话引擎): 0 表示不过滤。 1 表示过滤句末标点。 2 表示过滤所有标点。 默认值为 0。 | Integer | 否 |
OutputFileType | Request.SpeechRecognition | 输出文件类型,可选 txt、srt。默认为 txt。 | String | 否 |
<Response><Template><Tag>SpeechRecognition</Tag><Name>TemplateName</Name><State>Normal</State><Tag>SpeechRecognition</Tag><CreateTime></CreateTime><UpdateTime></UpdateTime><BucketId></BucketId><Category>Custom</Category><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ResTextFormat>1</ResTextFormat><FilterDirty>0</FilterDirty><FilterModal>1</FilterModal><ConvertNumMode>0</ConvertNumMode><SpeakerDiarization>1</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><OutputFileType>txt</OutputFileType></SpeechRecognition></Template></Response>
节点名称(关键字) | 父节点 | 描述 | 类型 |
Response | 无 | 保存结果的容器 | Container |
节点名称(关键字) | 父节点 | 描述 | 类型 |
TemplateId | Response.Template | 模板 ID。 | String |
Name | Response.Template | 模板名称。 | String |
BucketId | Response.Template | 模板所属存储桶。 | String |
Category | Response.Template | 模板属性,Custom 或者 Official。 | String |
Tag | Response.Template | 模板类型,SpeechRecognition。 | String |
UpdateTime | Response.Template | 更新时间。 | String |
CreateTime | Response.Template | 创建时间。 | String |
SpeechRecognition | Response.Template | 同请求体中的 Request.SpeechRecognition。 | Container |
POST /template HTTP/1.1Authorization: q-sign-algorithm=sha1&q-ak=AKIDZfbOAo7cllgPvF9cXFrJD0a1ICvR****&q-sign-time=1497530202;1497610202&q-key-time=1497530202;1497610202&q-header-list=&q-url-param-list=&q-signature=28e9a4986df11bed0255e97ff90500557e0e****Host: test-1234567890.ci.ap-chongqing.myqcloud.comContent-Length: 1666Content-Type: application/xml<Request><Tag>SpeechRecognition</Tag><Name>TemplateName</Name><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ResTextFormat>1</ResTextFormat><FilterDirty>0</FilterDirty><FilterModal>1</FilterModal><ConvertNumMode>0</ConvertNumMode><SpeakerDiarization>1</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><OutputFileType>txt</OutputFileType></SpeechRecognition></Request>
HTTP/1.1 200 OKContent-Type: application/xmlContent-Length: 100Connection: keep-aliveDate: Thu, 14 Jul 2022 12:37:29 GMTServer: tencent-cix-ci-request-id: NTk0MjdmODlfMjQ4OGY3XzYzYzhf****<Response><Template><TemplateId>t1460606b9752148c4ab182f55163ba7cd</TemplateId><Name>TemplateName</Name><State>Normal</State><Tag>SpeechRecognition</Tag><CreateTime>2020-08-05T11:35:24+0800</CreateTime><UpdateTime>2020-08-31T16:15:20+0800</UpdateTime><BucketId>test-1234567890</BucketId><Category>Custom</Category><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ChannelNum>1</ChannelNum><ResTextFormat>0</ResTextFormat><FilterDirty>1</FilterDirty><FilterModal>0</FilterModal><ConvertNumMode>1</ConvertNumMode><SpeakerDiarization>0</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc></SpeechRecognition></Template></Response>
本页内容是否解决了您的问题?