如您在使用语音识别时,发现转写的结果与您预期有一些差距,可根据本篇文档进行问题排查。
分为如下几种常见情况:
通过 cooledit、Adobe Audition 或者 FFmpeg 查看音频的详细信息,包括采样率、声道数和位深。语音识别服务目前仅支持8000Hz或者16000Hz采样率、16bits位深,实时语音识别仅支持单声道。注:如果您使用的是实时语音识别,音频属性必须严格符合上述要求。
查看音频的波形和频谱(Adobe Audition 在视图选项中)来判断实际音频真实的采样率,建议真实采样率要满足语音识别的要求(8k电话引擎模型对应8000kHz采样率,16k非电话引擎模型对应16000kHz采样率)。
真实16000Hz(真实采样率 = 框出来的右侧数值的最高值 × 2,即8kHz × 2=16kHz)音频的波形和频谱如下:
非真正16000Hz(实际为4.6kHz × 2 = 9.2kHz)音频的波形和频谱如下,可以看到在音频在4.6k频段到8k频段信息完全缺失。
本页内容是否解决了您的问题?