中国AI力量之智能语音行业研究报告（40页）

行业报告下载 2019年01月18日 06:31 管理员

人机语音交互涉及多项技术任务。首先需要将人声或声音转换为计算机可以分析的数字信号。下一步，将数字信号转换为词语。第三步是分析，这其中包括理解句子的结构、语法、语境等。

随着深度学习，机器学习芯片和算法取得突破，ASR、NLP 和 TTS 在过去 5 年中迅速进步。语音识别的单词错误率大幅降低，这主要是由于使用了更高效的声学模型，运用深度神经网络（DNN）取代高斯混合模型（GMM，之前多年以来的首选方法）等统计技术。Nuance的研究主管 Nils Lenke 展示数据显示，在将深度神经网络算法成功纳入语音识别系统后，单词错误率从 2010 年左右开始急剧下降，每年降低约 18%。

语音识别和自然语言处理是两个不同的领域。语音识别主要是分析句子、句法（名词、动词、形容词、副词等）以及结构，即语法（主语动词、宾语），以便进行转录或翻译。而自然语言处理的重点在于上下文语境和句子的意图，比如“我想给信用卡还款”，“我如何给信用卡还款”，这两个句子的分析主要在于理解对象（信用卡）和行动（还款）。但它们最开始的过程是类似的，都要识别声音模拟频率，消除背景噪音或多个对话，然后将音频模拟转换为数字格式。