tencent cloud

文档反馈

播报数智人视频生成与管理

最后更新时间:2024-10-31 16:57:47
    播报数智人适用于培训、媒体等多种内容生产场景,面向传媒、资管、教育等行业提供服务,支持定制专属的播报内容。通过使用数智人播报,可以提高人效,降低成本,迁移和复制成本低,受人为的情绪和自然条件影响小,可实现无误差播报。
    
    平台播报数智人模块能力概述:
    支持2D真人视频制作,可对文本内容、主播设置、视频设置等进行编辑,可对完成制作的视频、音频进行下载。2D真人视频制作区分2D精品形象及2D小样本形象两种形象类型。
    支持3D数智人视频制作,可对文本内容、主播设置、视频设置等进行编辑,可对完成制作的视频、音频进行下载。
    
    播报音视频模块访问路径:首页 > 场景应用 > 音视频播报,即可在此管理您已制作的音频、视频内容,或是新建音视频播报项目。

    一、新建音视频

    单击第一个空白加号卡片,选择需要创建音视频播报形象类型,单击新建音视频,即可开始新内容的编辑制作。
    
    选择要新建的音视频类型

    
    
    

    二、管理音视频

    对已创建的音视频内容,鼠标悬停在相应封面上,即可对该内容进行管理。
    注意:
    主账号创建的内容,子账号不可见,且子账号不可操作编辑和删除。
    子账号创建的内容,主账号可以查看,但不可操作编辑和删除。
    视频内容包括以下操作:
    二次编辑:支持对已经编辑好的内容进行修改,二次编辑不改变原视频,会重新生成一份内容。
    下载视频:支持下载 mp4 格式、webm 格式(仅抠绿形象支持,可输出带透明通道格式)。
    下载字幕:支持下载 srt 文件。
    删除视频:从平台移除,不再存储。
    修改标题:重命名视频标题。
    复制标题:复制视频标题。
    
    
    
    
    音频内容包括以下操作:
    二次编辑:二次编辑不改变原视频,会重新生成一份内容。
    下载音频:默认下载 mp3 格式。
    删除音频:从平台移除,不再存储。
    修改标题:重命名音频标题。
    复制标题:复制音频标题。
    
    
    

    三、音视频制作

    驱动能力分为文本驱动、原声驱动、变声驱动三种。播报音视频模块支持通过文本驱动、原声驱动两种驱动方式,来制作数智人音频和视频。
    驱动方式
    能力描述
    文本驱动
    通过输入文本即可生成口型自动匹配的数智人音视频内容。在文本中插入动作/表情标签,数智人可在对应的位置做出相应的表情和动作。
    原声驱动
    通过输入音频即可生成口型自动匹配的数智人音视频内容,数智人声音与输入的音频保持一致。
    变声驱动
    通过输入音频即可生成口型自动匹配的数智人音视频内容,数智人声音与形象设置环节所选声音保持一致。
    

    3.1. 文本驱动

    选择文本驱动,需要您在选择好数智人的形象、造型、声音、输出设置后,自行输入文本并在文本中按照您的需要插入动作/表情标签、检查多音字读法等,即可根据您的要求合成相应的数智人播报视频,视频将包含根据文本合成的数智人语音。
    
    制作完成后,单击生成视频,编辑视频内容名称、选择视频格式,即可开始生成。生成过程一般需要1-10分钟(具体时长视您制作的视频长度及您账号所购的播报并发数而定),待内容封面不再提示等待、正常展示内容后,即可单击下载。
    
    
    
    
    
    
    

    3.2. 音频驱动

    选择语音驱动,生成的视频将直接使用上传音频文件来合成视频,无需选择数智人声音。选择语音驱动方式,即可上传用于驱动数智人的音频文件,支持 wav、mp3、wma、m4a、aac等5种格式。
    其余数智人的造型配置、输出设置,与文本驱动一致。
    
    
    
    
    
    
    
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持