识别效果问题排查

如您在使用语音识别时，发现转写的结果与您预期有一些差距，可根据本篇文档进行问题排查。
问题排查步骤
分为如下几种常见情况：
1. 本身音频内容靠正常的人耳听不清楚或者听不懂，这类情况建议对于前端的采音环境进行改造，如采音距离由远场改为近场，采音环境的噪音尽量控制和减少，口音、方言尽量控制在带口音的普通话（即非本地人可听懂）以及改善语速过快造成的吞音。
2. 本身音频内容可以听懂，但识别结果与听到的内容相差很大。这类情况一般是音频信息不满足语音识别服务要求导致的。
通过 cooledit、Adobe Audition 或者 FFmpeg 查看音频的详细信息，包括采样率、声道数和位深。语音识别服务目前仅支持8000Hz或者16000Hz采样率、16bits位深，实时语音识别仅支持单声道。注：如果您使用的是实时语音识别，音频属性必须严格符合上述要求。
查看音频的波形和频谱（Adobe Audition 在视图选项中）来判断实际音频真实的采样率，建议真实采样率要满足语音识别的要求（8k电话引擎模型对应8000kHz采样率，16k非电话引擎模型对应16000kHz采样率）。
 真实16000Hz（真实采样率 = 框出来的右侧数值的最高值 × 2，即8kHz × 2=16kHz）音频的波形和频谱如下：
﻿

非真正16000Hz（实际为4.6kHz × 2 = 9.2kHz）音频的波形和频谱如下，可以看到在音频在4.6k频段到8k频段信息完全缺失。
﻿
3. 本身音频内容可以听懂，并且识别结果与听到的内容相差不大，但有一些特有的名词或者句子识别不好，可通过如下步骤提升识别效果：
4. 本身音频内容可以听懂，并且识别结果与听到的内容相差不大，但会多出来一些识别结果。这类一般是因为噪声造成的，噪声分为两种，一种是非人声的噪音，一种是人声的噪音。本身 ASR 算法对于第一类噪音做过一定的适配和优化，这一类可以提供具体的 badcase 给到腾讯来分析优化，但对于第二类人声噪音较难解决，因为会对于真正需要识别出来的人声的造成误伤。

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

是

否

tencent cloud

注册

登录

计算

微服务

数据迁移

数据库 SaaS 工具

数据安全

应用安全

大数据

图像创作

物联网

流媒体服务

实时云渲染

管理与审计

边缘计算

Serverless

关系型数据库

网络

业务安全

域名与网站

人脸识别

人工智能平台服务

中间件

媒体点播

游戏服务

开发者工具

容器

基础存储服务

企业级分布式数据库

CDN与加速

安全服务

企业应用

语音技术

自然语言处理

通信服务

媒体处理服务

教育服务

监控与运维

分布式云

数据处理与分析

NoSQL 数据库

网络安全

云安全

办公协同

腾讯大模型

文字识别

互动视频服务

视频终端SDK

云资源管理

其他文档

问题排查步骤