中国智能语音行业研究报告（48页）

行业报告下载 2020年03月05日 05:59 管理员

2011年，微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型在大词汇量连续语音识别任务上获得了显著的性能提升，从此大量研究人员开始转向深度学习在智能语音领域的研究，2016年，机器语音识别准确率第一次达到人类水平，意味着智能语音技术的落地期到来。近年，研究方向主要是端到端神经网络及针对实际应用中的算法优化。随着智能语音算法基础性能不断提升，识别准确率、时延问题已不再是交互体验的核心痛点，人们希望让智能设备具备更多的基本能力，例如能够感知环境，当同一个房间里有多个智能交互设备或多台智能交互设备分布在不同的房间时能准确唤醒，过去通过设备间蓝牙通信可以解决由哪台设备被唤醒与人对话，但无法解决相关的家居控制执行问题。2019年，业内玩家开始重视将声学感知空间的能力与交互系统结合起来，实现多智能交互设备的就近唤醒应答，避免多设备重复响应和执行指令，在这种情形下并不存在某个中心交互设备，因此也被称为分布式场景。未来，设备之间的隔阂可能被进一步打破，如使任何形态、任何配置的终端设备通过连接协议实现AI能力共享、算力共享（而不仅限于目前用一个设备通过连接协议对其他设备语音控制），就可能使场景内适宜拾音的设备与人交互、适宜功放的设备配合放音，使多设备的协同达到效率最优。

鉴于目前机器的智能语音交互能力是基于分类任务实现的，其智能程度的提升有赖于技能一项一项地填充补足，最终使交互体验得到质变。上文介绍了人机对话和语音识别（ASR）的基本实现过程，相比于普通以语音消息作为交互的人机对话，全双工则是处理语音流，能够实时预测人类即将说出的内容，实时生成回应，并控制对话节奏。多家厂商在持续投入全双工的研发，全双工、多轮对话、单轮对话对比如下：全双工——只需一次唤醒，保持进行连续的语音流分析（机器保持听 +想的状态，即使在它回话的时候也同步在听和想）；多轮对话——只需一次唤醒，听、想、说分离，机器会在它的本句回话完成后才再次开始听用户说话、听完再分析；单轮对话——每一次用户说话前都需要先唤醒设备。除了基本的对话IQ 与EQ外，让机器实现跨情景流畅切换的全双工（如内容、导航、查询、设备控制的跨情景切换）也是重要研究方向，目前市场上绝大部分机器都只支持单轮对话或多轮对话，真正搭载了完整、成熟全双工语音能力的产品还很少。

对话引擎是支撑人机交互中问答和对话内容实现的核心，广泛应用于智能客服、智能交互设备、智能车载系统等领域，核心功能包括语言理解力、对话管理、知识库和帮助开发者定制开发扩展应用的工具。知识的指导对对话引擎十分重要，其中知识图谱及图谱知识库构建工具能够直接从业务文档抽取知识、建立规则，而不局限于整理好的问答对，这不仅可以帮助机器找到直接的答案来源，还可以使机器依据元素的属性与关系理解语义、形成话题推荐等对话策略。

中国智能语音行业研究报告（48页）