tencent cloud

文档反馈

创建语音识别模板

最后更新时间:2024-03-01 17:30:47

    功能描述

    创建语音识别模板。
    

    请求

    请求示例

    POST /template HTTP/1.1
    Host: <BucketName-APPID>.ci.<Region>.myqcloud.com
    Date: <GMT Date>
    Authorization: <Auth String>
    Content-Length: <length>
    Content-Type: application/xml
    
    <body>
    说明:
    Authorization: Auth String(详情请参见 请求签名 文档)。
    通过子账号使用时,需要授予相关的权限,详情请参见 授权粒度详情 文档。

    请求头

    此接口仅使用公共请求头部,详情请参见 公共请求头部 文档。

    请求体

    该请求操作的实现需要有如下请求体。
    <Request>
    <Tag>SpeechRecognition</Tag>
    <Name>TemplateName</Name>
    <SpeechRecognition>
    <EngineModelType>16k_zh</EngineModelType>
    <ResTextFormat>1</ResTextFormat>
    <FilterDirty>0</FilterDirty>
    <FilterModal>1</FilterModal>
    <ConvertNumMode>0</ConvertNumMode>
    <SpeakerDiarization>1</SpeakerDiarization>
    <SpeakerNumber>0</SpeakerNumber>
    <FilterPunc>0</FilterPunc>
    <OutputFileType>txt</OutputFileType>
    </SpeechRecognition>
    </Request>
    具体数据描述如下:
    节点名称(关键字)
    父节点
    描述
    类型
    是否必选
    Request
    保存请求的容器
    Container
    Container 类型 Request 的具体数据描述如下:
    节点名称(关键字)
    父节点
    描述
    类型
    是否必选
    限制
    Tag
    Request
    模板类型:SpeechRecognition
    String
    Name
    Request
    模板名称 仅支持中文、英文、数字、_-*
    String
    SpeechRecognition
    Request
    语音识别参数
    Container
    
    Container 类型 SpeechRecognition 的具体数据描述如下:
    节点名称(关键字)
    父节点
    描述
    类型
    是否必选
    EngineModelType
    Request.SpeechRecognition
    引擎模型类型,分为电话场景和非电话场景。
    电话场景:
    8k_zh:电话 8k 中文普通话通用(可用于双声道音频);
    8k_zh_s:电话 8k 中文普通话话者分离(仅适用于单声道音频);
    8k_en:电话 8k 英语;
    非电话场景:
    16k_zh:16k 中文普通话通用;
    16k_zh_video:16k 音视频领域;
    16k_en:16k 英语;
    16k_ca:16k 粤语;
    16k_ja:16k 日语;
    16k_zh_edu:中文教育;
    16k_en_edu:英文教育;
    16k_zh_medical:医疗;
    16k_th:泰语;
    16k_zh_dialect:多方言,支持23种方言。
    极速 ASR 仅支持8k_zh、16k_zh、16k_en、16k_zh_video
    String
    ChannelNum
    Request.SpeechRecognition
    仅支持非极速 ASR
    语音声道数:
    1 表示单声道.EngineModelType 为非电话场景仅支持单声道;
    2 表示双声道(仅支持 8k_zh 引擎模型 双声道应分别对应通话双方)。
    Integer
    ResTextFormat
    Request.SpeechRecognition
    仅支持非极速 ASR
    识别结果返回形式:
    0 表示识别结果文本(含分段时间戳);
    1 词级别粒度的详细识别结果,不含标点,含语速值.(词时间戳列表,一般用于生成字幕场景)
    2 词级别粒度的详细识别结果(包含标点、语速值)。
    Integer
    FilterDirty
    Request.SpeechRecognition
    是否过滤脏词(目前支持中文普通话引擎):
    0 表示不过滤脏词;
    1 表示过滤脏词;
    2 表示将脏词替换为 *。
    默认值为 0。
    Integer
    FilterModal
    Request.SpeechRecognition
    是否过语气词(目前支持中文普通话引擎):
    0 表示不过滤语气词;
    1 表示部分过滤;
    2 表示严格过滤 。
    默认值为 0。
    Integer
    ConvertNumMode
    Request.SpeechRecognition
    是否进行阿拉伯数字智能转换(目前支持中文普通话引擎):
    0 表示不转换,直接输出中文数字;
    1 表示根据场景智能转换为阿拉伯数字。
    3 表示打开数学相关数字转换。仅非极速 ASR 支持
    默认值为 0。
    Integer
    SpeakerDiarization
    Request.SpeechRecognition
    是否开启说话人分离:
    0 表示不开启;
    1 表示开启(仅支持8k_zh,16k_zh,16k_zh_video,单声道音频)。
    默认值为 0。
    注意:8k电话场景建议使用双声道来区分通话双方,设置ChannelNum=2即可,不用开启说话人分离。
    Integer
    SpeakerNumber
    Request.SpeechRecognition
    仅支持非极速ASR
    说话人分离人数(需配合开启说话人分离使用),取值范围:0-10。
    0代表自动分离(目前仅支持≤6个人),1-10代表指定说话人数分离。默认值为 0。
    Integer
    FilterPunc
    Request.SpeechRecognition
    是否过滤标点符号(目前支持中文普通话引擎):
    0 表示不过滤。
    1 表示过滤句末标点。
    2 表示过滤所有标点。
    默认值为 0。
    Integer
    OutputFileType
    Request.SpeechRecognition
    输出文件类型,可选txt、srt。默认为txt
    极速ASR仅支持txt
    String
    FlashAsr
    Request.SpeechRecognition
    是否开启极速 ASR,可选 true、false。默认为 false
    String
    Format
    Request.SpeechRecognition
    极速 ASR 音频格式。支持 wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac。
    String
    当 FlashAsr 为 true 时必选
    FirstChannelOnly
    Request.SpeechRecognition
    极速 ASR 参数。表示是否只识别首个声道,默认为1。0:识别所有声道;1:识别首个声道。
    Integer
    WordInfo
    Request.SpeechRecognition
    极速 ASR 参数。表示是否显示词级别时间戳,默认为0。0:不显示;1:显示,不包含标点时间戳,2:显示,包含标点时间戳。
    Integer
    

    响应

    响应头

    此接口仅返回公共响应头部,详情请参见 公共响应头部 文档。

    响应体

    该响应体返回为 application/xml 数据,包含完整节点数据的内容展示如下:
    <Response>
    <Template>
    <Tag>SpeechRecognition</Tag>
    <Name>TemplateName</Name>
    <State>Normal</State>
    <Tag>SpeechRecognition</Tag>
    <CreateTime></CreateTime>
    <UpdateTime></UpdateTime>
    <BucketId></BucketId>
    <Category>Custom</Category>
    <SpeechRecognition>
    <EngineModelType>16k_zh</EngineModelType>
    <ResTextFormat>1</ResTextFormat>
    <FilterDirty>0</FilterDirty>
    <FilterModal>1</FilterModal>
    <ConvertNumMode>0</ConvertNumMode>
    <SpeakerDiarization>1</SpeakerDiarization>
    <SpeakerNumber>0</SpeakerNumber>
    <FilterPunc>0</FilterPunc>
    <OutputFileType>txt</OutputFileType>
    </SpeechRecognition>
    </Template>
    </Response>
    具体的数据内容如下:
    节点名称(关键字)
    父节点
    描述
    类型
    Response
    保存结果的容器
    Container
    Container 节点 Response 的内容:
    节点名称(关键字)
    父节点
    描述
    类型
    TemplateId
    Response.Template
    模板 ID
    String
    Name
    Response.Template
    模板名称
    String
    BucketId
    Response.Template
    模板所属存储桶
    String
    Category
    Response.Template
    模板属性,Custom 或者 Official
    String
    Tag
    Response.Template
    模板类型,SpeechRecognition
    String
    UpdateTime
    Response.Template
    更新时间
    String
    CreateTime
    Response.Template
    创建时间
    String
    SpeechRecognition
    Response.Template
    同请求体中的 Request.SpeechRecognition
    Container

    错误码

    该请求操作无特殊错误信息,常见的错误信息请参见 错误码 文档。

    实际案例

    请求

    POST /template HTTP/1.1
    Authorization: q-sign-algorithm=sha1&q-ak=AKIDZfbOAo7cllgPvF9cXFrJD0a1ICvR****&q-sign-time=1497530202;1497610202&q-key-time=1497530202;1497610202&q-header-list=&q-url-param-list=&q-signature=28e9a4986df11bed0255e97ff90500557e0e****
    Host: test-1234567890.ci.ap-chongqing.myqcloud.com
    Content-Length: 1666
    Content-Type: application/xml
    
    <Request>
    <Tag>SpeechRecognition</Tag>
    <Name>TemplateName</Name>
    <SpeechRecognition>
    <EngineModelType>16k_zh</EngineModelType>
    <ResTextFormat>1</ResTextFormat>
    <FilterDirty>0</FilterDirty>
    <FilterModal>1</FilterModal>
    <ConvertNumMode>0</ConvertNumMode>
    <SpeakerDiarization>1</SpeakerDiarization>
    <SpeakerNumber>0</SpeakerNumber>
    <FilterPunc>0</FilterPunc>
    <OutputFileType>txt</OutputFileType>
    </SpeechRecognition>
    </Request>

    响应

    HTTP/1.1 200 OK
    Content-Type: application/xml
    Content-Length: 100
    Connection: keep-alive
    Date: Thu, 14 Jul 2022 12:37:29 GMT
    Server: tencent-ci
    x-ci-request-id: NTk0MjdmODlfMjQ4OGY3XzYzYzhf****
    
    <Response>
    <Template>
    <TemplateId>t1460606b9752148c4ab182f55163ba7cd</TemplateId>
    <Name>TemplateName</Name>
    <State>Normal</State>
    <Tag>SpeechRecognition</Tag>
    <CreateTime>2020-08-05T11:35:24+0800</CreateTime>
    <UpdateTime>2020-08-31T16:15:20+0800</UpdateTime>
    <BucketId>test-1234567890</BucketId>
    <Category>Custom</Category>
    <SpeechRecognition>
    <EngineModelType>16k_zh</EngineModelType>
    <ChannelNum>1</ChannelNum>
    <ResTextFormat>0</ResTextFormat>
    <FilterDirty>1</FilterDirty>
    <FilterModal>0</FilterModal>
    <ConvertNumMode>1</ConvertNumMode>
    <SpeakerDiarization>0</SpeakerDiarization>
    <SpeakerNumber>0</SpeakerNumber>
    <FilterPunc>0</FilterPunc>
    </SpeechRecognition>
    </Template>
    </Response>
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持