知识科普：全面梳理语音交互知识：从原理、场景到走向

发布时间：2021-10-08 13:26:55 所属栏目：交互来源：互联网

导读：1. 什么是语音交互？语音交互（VUI）指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASRNLPSkillTTS的流程： VUI081301 （1）ASR 用于将声学语音进行分析，并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段：训

1. 什么是语音交互？

语音交互（VUI）指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程：

VUI081301

（1）ASR

用于将声学语音进行分析，并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段：

训练即通过大量标注的语音数据训练数学模型，通过大量标注的文本数据训练语言模型；

解码，即通过声学和语言模型将语音数据识别成文字。

声学模型可以理解为是对发生的建模，它能够把语音输入转换成声学表示的输入，更准确的说是给出语音属于某个声学符号的概率。语言模型的作用可以简单理解为消解多音字问题，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列。

（2）NLP

用于将用户的指令转换为结构化的、机器可以理解的语言。NLP的工作逻辑是：将用户的指令进行Domain（领域）→Intent（意图）→Slot（词槽）三级拆分。

以“帮我设置一个明天早上8点的闹钟”为例：该指令命中的领域是“闹钟”，意图是“新建闹钟”，词槽是“明天8点”。这样，就将用户的意图拆分成机器可以处理的语言。

（3）Skill

也即AI时代的APP。Skill的作用就是：处理NLP界定的用户意图，做出符合用户预期的反馈。

（4）TTS

即语音合成，从文本转换成语音，让机器说话。TTS业内普遍使用两种做法：一种是拼接法，一种是参数法。

拼接法即从事先录制的大量语音中，选择所需的基本发音单位拼接而成。优点是语音的自然度很好，缺点是成本太高，费用成本要上百万。参数法指使用统计模型来产生语音参数并转化成波形。优点是成本低，一般价格在20万~60万不等，缺点是发音的自然度没有拼接法好。但是随着模型的不断优化，现在参数法的效果已经非常好了，因此业内使用参数法的越来越多。

2. 语音交互有哪些优劣势？

PART 1: 语音交互的优势

优势1：信息传递效率高

百度语音开放平台的研究结果显示，相比于传统的键盘输入，语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍，信息传递效率进一步可拆分为4类：

检索高效：针对复杂的输入词，尤其是在输入方式不便的场景下，语音交互更高效。例如电视场景下进行电影搜索。

跨空间便捷：远场语音交互可以跨3~5米进行交流，针对需要跨空间的操作，语音交互更高效，例如：智能家居控制。

跨场景便捷：语音交互的潜在好处时可以根据说话内容自动判断意图场景，在需要频繁跨场景交互的场景下语音交互更高效。

支持组合指令：语音交互可以一次性下达多条指令，然后分别执行，在需要支持多意图同时传递的场景下语音交互更高效。假设你今晚想要看一部电影，你可以选择说：“播放刘德华的电影电影要四星以上并且是免费观看的。”

优势2：解放双手和双眼

通过语言交互可以将手和眼睛空起来处理其他事情，在需要多感官协同的场景下效率更高。例如：车载场景通过语音点播音乐，医疗场景医生在沟通病情的同时记录病历，工业场景在双手占用的同时下达指令。

优势3：使用门槛低

非文字使用者友好：人类是先有语音再有文字，每个人都会说话但有一部分人不会写字，针对老人、小孩、失明的人群，无法使用文字交互，语音交互会为其带来极大的便利。

学习成本低：语音交互更自然，在非复杂场景下，语音交互比界面交互更自然，上手成本更低。

优势4：传递声学信息

声纹识人：通过声纹可以进行身份判断，并且可以在下达指令的同时进行身份判断，效率更高。同时声音还可以判断性别、年龄层、情绪等信息。

声音传递情感：声音交互可以传递情感，因此在有情感诉求的场景下，声音是一个很好的选择。

PART 2：语音交互的劣势

劣势1：信息接收效率低

语音输出是线性的，当别人说话时，你可能得等全部说完后才能理解，无法像文字一样可以跳过阅读；语音交互也会增加用户的记忆负担，尤其是面临多项选择并且选项内容较长时。

因此它无法同时输出很多内容，在接受信息和多选择交互时，视觉具有更大的优势，声音的效率不高。总结来讲，语音交互针对单向指令是更有效的，而双向交互不是很有效。

劣势2：嘈杂环境下语音识别精度降低

语音识别需要清晰的识别出人声，包括将人声和环境声进行分离，将人声和人声进行分离。嘈杂环境使得人声的提取变得非常困难，尤其是针对远场语音交互，噪音的问题更加突出。

目前业内普遍使用麦克风阵列硬件和相关算法来优化该问题，但是无法完全解决，例如远场安静环境下语音识别准确率能达到95%，但是在嘈杂环境下仅能达到80%出头。但是随着技术的进度，嘈杂环境下的远场语音识别准确度也肯定会逐步完提升。

劣势3：公开环境下语音交互具有心理负担

语音交互的心理障碍是用户不能预设和预先判断。在同一情况下，不同的人可能会产生完全不同的行为和期望。这给设计者带来了很大的麻烦，也给用户带来了不确定性。从心理体验来看，没有多少人愿意对着机器说话，因为有可能会得到毫无感情甚至是错误的反应

3. 语音交互适合什么场景和设备？

我们判断什么场景和设备适合增加语音交互，根据语音交互的优劣势分析，得出以下加分项和减分项，为了简单起见，每个得分享赋予相同的权重，然后计算综合得分，将适用程度划分为高、中、低3档，分别记2、1、0分。

原则1：每个设备类型仅考虑起本身的功能，不考虑因为入口性质附加的额外功能，例如智能音箱，现在除了音箱属性，被赋予了天气、智能家居等其他属性。未来形态下家庭语音入口会分布式的，智能音箱被赋予的生活助手的角色也会被剥离。

原则2：设备的功能考量时会考虑现在还不具备但是以后会延展的相关功能，例如冰箱，支持查询冰箱内的物品情况。

加分项：

需要复杂的信息输入：输入指令不能被穷举，则得分最高，如果仅简单的输入指令，则得分低；

使用对象双手或双眼被占用；

使用对象为非文字使用者：如果使用人群里老人、小孩和失明人群较多，则得分高，反之得分低；

需要跨短距离空间的操作：如果有实体按键，则得分高，如果可远程遥控则得分次之，而且皆无，则不得分；

原信息输入的工具比较受限：输入方式的便利程度触屏>遥控>按钮；

需要跨意图指令输入：如果需要同时或者相继发出不同意图的指令则得分高，反之得分低；

使用频次：基本每天都要使用得分最高，每周3次左右次之，低于每周一次不得分；

设备与声音的关联度：如果设备本身就是播放多媒体内容的得分高，其他的不得分；

需要声音传递额外信息：例如声纹、发音评测。

减分项：

环境私密程度低：例如办公场景；

环境嘈杂：例如商场场景；

涉及到多层次交互（触屏可弥补）：例如点外卖；

涉及到多条目选择（触屏可弥补）：例如购物；

涉及到重要/隐私信息传达（屏幕可弥补）：例如取款机。

（编辑：应用网_丽江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!