POST /template HTTP/1.1Host: <BucketName-APPID>.ci.<Region>.myqcloud.comDate: <GMT Date>Authorization: <Auth String>Content-Length: <length>Content-Type: application/xml<body>
<Request><Tag>SpeechRecognition</Tag><Name>TemplateName</Name><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ResTextFormat>1</ResTextFormat><FilterDirty>0</FilterDirty><FilterModal>1</FilterModal><ConvertNumMode>0</ConvertNumMode><SpeakerDiarization>1</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><OutputFileType>txt</OutputFileType></SpeechRecognition></Request>
节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 |
Request | 无 | 保存请求的容器 | Container | 是 |
节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 | 限制 |
Tag | Request | 模板类型:SpeechRecognition | String | 是 | 无 |
Name | Request | 模板名称 仅支持中文、英文、数字、_、-和* | String | 是 | 无 |
SpeechRecognition | Request | 语音识别参数 | Container | 是 | 无 |
节点名称(关键字) | 父节点 | 描述 | 类型 | 是否必选 |
EngineModelType | Request.SpeechRecognition | 引擎模型类型,分为电话场景和非电话场景。 电话场景: 8k_zh:电话 8k 中文普通话通用(可用于双声道音频); 8k_zh_s:电话 8k 中文普通话话者分离(仅适用于单声道音频); 8k_en:电话 8k 英语; 非电话场景: 16k_zh:16k 中文普通话通用; 16k_zh_video:16k 音视频领域; 16k_en:16k 英语; 16k_ca:16k 粤语; 16k_ja:16k 日语; 16k_zh_edu:中文教育; 16k_en_edu:英文教育; 16k_zh_medical:医疗; 16k_th:泰语; 16k_zh_dialect:多方言,支持23种方言。 极速 ASR 仅支持8k_zh、16k_zh、16k_en、16k_zh_video | String | 是 |
ChannelNum | Request.SpeechRecognition | 仅支持非极速 ASR 语音声道数: 1 表示单声道.EngineModelType 为非电话场景仅支持单声道; 2 表示双声道(仅支持 8k_zh 引擎模型 双声道应分别对应通话双方)。 | Integer | 是 |
ResTextFormat | Request.SpeechRecognition | 仅支持非极速 ASR 识别结果返回形式: 0 表示识别结果文本(含分段时间戳); 1 词级别粒度的详细识别结果,不含标点,含语速值.(词时间戳列表,一般用于生成字幕场景) 2 词级别粒度的详细识别结果(包含标点、语速值)。 | Integer | 是 |
FilterDirty | Request.SpeechRecognition | 是否过滤脏词(目前支持中文普通话引擎): 0 表示不过滤脏词; 1 表示过滤脏词; 2 表示将脏词替换为 *。 默认值为 0。 | Integer | 否 |
FilterModal | Request.SpeechRecognition | 是否过语气词(目前支持中文普通话引擎): 0 表示不过滤语气词; 1 表示部分过滤; 2 表示严格过滤 。 默认值为 0。 | Integer | 否 |
ConvertNumMode | Request.SpeechRecognition | 是否进行阿拉伯数字智能转换(目前支持中文普通话引擎): 0 表示不转换,直接输出中文数字; 1 表示根据场景智能转换为阿拉伯数字。 3 表示打开数学相关数字转换。仅非极速 ASR 支持 默认值为 0。 | Integer | 否 |
SpeakerDiarization | Request.SpeechRecognition | 是否开启说话人分离: 0 表示不开启; 1 表示开启(仅支持8k_zh,16k_zh,16k_zh_video,单声道音频)。 默认值为 0。 注意:8k电话场景建议使用双声道来区分通话双方,设置ChannelNum=2即可,不用开启说话人分离。 | Integer | 否 |
SpeakerNumber | Request.SpeechRecognition | 仅支持非极速ASR 说话人分离人数(需配合开启说话人分离使用),取值范围:0-10。 0代表自动分离(目前仅支持≤6个人),1-10代表指定说话人数分离。默认值为 0。 | Integer | 否 |
FilterPunc | Request.SpeechRecognition | 是否过滤标点符号(目前支持中文普通话引擎): 0 表示不过滤。 1 表示过滤句末标点。 2 表示过滤所有标点。 默认值为 0。 | Integer | 否 |
OutputFileType | Request.SpeechRecognition | 输出文件类型,可选txt、srt。默认为txt 极速ASR仅支持txt | String | 否 |
FlashAsr | Request.SpeechRecognition | 是否开启极速 ASR,可选 true、false。默认为 false | String | 否 |
Format | Request.SpeechRecognition | 极速 ASR 音频格式。支持 wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac。 | String | 当 FlashAsr 为 true 时必选 |
FirstChannelOnly | Request.SpeechRecognition | 极速 ASR 参数。表示是否只识别首个声道,默认为1。0:识别所有声道;1:识别首个声道。 | Integer | 否 |
WordInfo | Request.SpeechRecognition | 极速 ASR 参数。表示是否显示词级别时间戳,默认为0。0:不显示;1:显示,不包含标点时间戳,2:显示,包含标点时间戳。 | Integer | 否 |
<Response><Template><Tag>SpeechRecognition</Tag><Name>TemplateName</Name><State>Normal</State><Tag>SpeechRecognition</Tag><CreateTime></CreateTime><UpdateTime></UpdateTime><BucketId></BucketId><Category>Custom</Category><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ResTextFormat>1</ResTextFormat><FilterDirty>0</FilterDirty><FilterModal>1</FilterModal><ConvertNumMode>0</ConvertNumMode><SpeakerDiarization>1</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><OutputFileType>txt</OutputFileType></SpeechRecognition></Template></Response>
节点名称(关键字) | 父节点 | 描述 | 类型 |
Response | 无 | 保存结果的容器 | Container |
节点名称(关键字) | 父节点 | 描述 | 类型 |
TemplateId | Response.Template | 模板 ID | String |
Name | Response.Template | 模板名称 | String |
BucketId | Response.Template | 模板所属存储桶 | String |
Category | Response.Template | 模板属性,Custom 或者 Official | String |
Tag | Response.Template | 模板类型,SpeechRecognition | String |
UpdateTime | Response.Template | 更新时间 | String |
CreateTime | Response.Template | 创建时间 | String |
SpeechRecognition | Response.Template | 同请求体中的 Request.SpeechRecognition | Container |
POST /template HTTP/1.1Authorization: q-sign-algorithm=sha1&q-ak=AKIDZfbOAo7cllgPvF9cXFrJD0a1ICvR****&q-sign-time=1497530202;1497610202&q-key-time=1497530202;1497610202&q-header-list=&q-url-param-list=&q-signature=28e9a4986df11bed0255e97ff90500557e0e****Host: test-1234567890.ci.ap-chongqing.myqcloud.comContent-Length: 1666Content-Type: application/xml<Request><Tag>SpeechRecognition</Tag><Name>TemplateName</Name><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ResTextFormat>1</ResTextFormat><FilterDirty>0</FilterDirty><FilterModal>1</FilterModal><ConvertNumMode>0</ConvertNumMode><SpeakerDiarization>1</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc><OutputFileType>txt</OutputFileType></SpeechRecognition></Request>
HTTP/1.1 200 OKContent-Type: application/xmlContent-Length: 100Connection: keep-aliveDate: Thu, 14 Jul 2022 12:37:29 GMTServer: tencent-cix-ci-request-id: NTk0MjdmODlfMjQ4OGY3XzYzYzhf****<Response><Template><TemplateId>t1460606b9752148c4ab182f55163ba7cd</TemplateId><Name>TemplateName</Name><State>Normal</State><Tag>SpeechRecognition</Tag><CreateTime>2020-08-05T11:35:24+0800</CreateTime><UpdateTime>2020-08-31T16:15:20+0800</UpdateTime><BucketId>test-1234567890</BucketId><Category>Custom</Category><SpeechRecognition><EngineModelType>16k_zh</EngineModelType><ChannelNum>1</ChannelNum><ResTextFormat>0</ResTextFormat><FilterDirty>1</FilterDirty><FilterModal>0</FilterModal><ConvertNumMode>1</ConvertNumMode><SpeakerDiarization>0</SpeakerDiarization><SpeakerNumber>0</SpeakerNumber><FilterPunc>0</FilterPunc></SpeechRecognition></Template></Response>
本页内容是否解决了您的问题?