加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_丽江站长网 (http://www.0888zz.com/)- 科技、建站、数据工具、云上网络、机器学习!
当前位置: 首页 > 运营中心 > 交互 > 正文

知识科普:全面梳理语音交互知识:从原理、场景到走向

发布时间:2021-10-08 13:26:55 所属栏目:交互 来源:互联网
导读:1. 什么是语音交互? 语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASRNLPSkillTTS的流程: VUI081301 (1)ASR 用于将声学语音进行分析,并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段: 训
1. 什么是语音交互?
 
语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程:
 
VUI081301
 
(1)ASR
 
用于将声学语音进行分析,并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段:
 
训练即通过大量标注的语音数据训练数学模型,通过大量标注的文本数据训练语言模型;
 
解码,即通过声学和语言模型将语音数据识别成文字。
 
声学模型可以理解为是对发生的建模,它能够把语音输入转换成声学表示的输入,更准确的说是给出语音属于某个声学符号的概率。语言模型的作用可以简单理解为消解多音字问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。
 
(2)NLP
 
用于将用户的指令转换为结构化的、机器可以理解的语言。NLP的工作逻辑是:将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。
 
以“帮我设置一个明天早上8点的闹钟”为例:该指令命中的领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点”。这样,就将用户的意图拆分成机器可以处理的语言。
 
(3)Skill
 
也即AI时代的APP。Skill的作用就是:处理NLP界定的用户意图,做出符合用户预期的反馈。
 
(4)TTS
 
即语音合成,从文本转换成语音,让机器说话。TTS业内普遍使用两种做法:一种是拼接法,一种是参数法。
 
拼接法即从事先录制的大量语音中,选择所需的基本发音单位拼接而成。优点是语音的自然度很好,缺点是成本太高,费用成本要上百万。参数法指使用统计模型来产生语音参数并转化成波形。优点是成本低,一般价格在20万~60万不等,缺点是发音的自然度没有拼接法好。但是随着模型的不断优化,现在参数法的效果已经非常好了,因此业内使用参数法的越来越多。
 
2. 语音交互有哪些优劣势?
 
PART 1: 语音交互的优势
 
优势1:信息传递效率高
 
百度语音开放平台的研究结果显示,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍,信息传递效率进一步可拆分为4类:
 
检索高效:针对复杂的输入词,尤其是在输入方式不便的场景下,语音交互更高效。例如电视场景下进行电影搜索。
跨空间便捷:远场语音交互可以跨3~5米进行交流,针对需要跨空间的操作,语音交互更高效,例如:智能家居控制。
跨场景便捷:语音交互的潜在好处时可以根据说话内容自动判断意图场景,在需要频繁跨场景交互的场景下语音交互更高效。
 
支持组合指令:语音交互可以一次性下达多条指令,然后分别执行,在需要支持多意图同时传递的场景下语音交互更高效。假设你今晚想要看一部电影,你可以选择说:“播放刘德华的电影电影要四星以上并且是免费观看的。”
 
优势2:解放双手和双眼
 
通过语言交互可以将手和眼睛空起来处理其他事情,在需要多感官协同的场景下效率更高。例如:车载场景通过语音点播音乐,医疗场景医生在沟通病情的同时记录病历,工业场景在双手占用的同时下达指令。
 
优势3:使用门槛低
 
非文字使用者友好:人类是先有语音再有文字,每个人都会说话但有一部分人不会写字,针对老人、小孩、失明的人群,无法使用文字交互,语音交互会为其带来极大的便利。
 
学习成本低:语音交互更自然,在非复杂场景下,语音交互比界面交互更自然,上手成本更低。
 
优势4:传递声学信息
 
声纹识人:通过声纹可以进行身份判断,并且可以在下达指令的同时进行身份判断,效率更高。同时声音还可以判断性别、年龄层、情绪等信息。
 
声音传递情感:声音交互可以传递情感,因此在有情感诉求的场景下,声音是一个很好的选择。
 
PART 2:语音交互的劣势
 
劣势1:信息接收效率低
 
语音输出是线性的,当别人说话时,你可能得等全部说完后才能理解,无法像文字一样可以跳过阅读;语音交互也会增加用户的记忆负担,尤其是面临多项选择并且选项内容较长时。
 
因此它无法同时输出很多内容,在接受信息和多选择交互时,视觉具有更大的优势,声音的效率不高。总结来讲,语音交互针对单向指令是更有效的,而双向交互不是很有效。
 
劣势2:嘈杂环境下语音识别精度降低
 
语音识别需要清晰的识别出人声,包括将人声和环境声进行分离,将人声和人声进行分离。嘈杂环境使得人声的提取变得非常困难,尤其是针对远场语音交互,噪音的问题更加突出。
 
目前业内普遍使用麦克风阵列硬件和相关算法来优化该问题,但是无法完全解决,例如远场安静环境下语音识别准确率能达到95%,但是在嘈杂环境下仅能达到80%出头。但是随着技术的进度,嘈杂环境下的远场语音识别准确度也肯定会逐步完提升。
 
劣势3:公开环境下语音交互具有心理负担
 
语音交互的心理障碍是用户不能预设和预先判断。在同一情况下,不同的人可能会产生完全不同的行为和期望。这给设计者带来了很大的麻烦,也给用户带来了不确定性。从心理体验来看,没有多少人愿意对着机器说话,因为有可能会得到毫无感情甚至是错误的反应
 
3. 语音交互适合什么场景和设备?
 
我们判断什么场景和设备适合增加语音交互,根据语音交互的优劣势分析,得出以下加分项和减分项,为了简单起见,每个得分享赋予相同的权重,然后计算综合得分,将适用程度划分为高、中、低3档,分别记2、1、0分。
 
原则1:每个设备类型仅考虑起本身的功能,不考虑因为入口性质附加的额外功能,例如智能音箱,现在除了音箱属性,被赋予了天气、智能家居等其他属性。未来形态下家庭语音入口会分布式的,智能音箱被赋予的生活助手的角色也会被剥离。
 
原则2:设备的功能考量时会考虑现在还不具备但是以后会延展的相关功能,例如冰箱,支持查询冰箱内的物品情况。
 
加分项:
 
需要复杂的信息输入:输入指令不能被穷举,则得分最高,如果仅简单的输入指令,则得分低;
 
使用对象双手或双眼被占用;
 
使用对象为非文字使用者:如果使用人群里老人、小孩和失明人群较多,则得分高,反之得分低;
 
需要跨短距离空间的操作:如果有实体按键,则得分高,如果可远程遥控则得分次之,而且皆无,则不得分;
 
原信息输入的工具比较受限:输入方式的便利程度触屏>遥控>按钮;
 
需要跨意图指令输入:如果需要同时或者相继发出不同意图的指令则得分高,反之得分低;
 
使用频次:基本每天都要使用得分最高,每周3次左右次之,低于每周一次不得分;
 
设备与声音的关联度:如果设备本身就是播放多媒体内容的得分高,其他的不得分;
 
需要声音传递额外信息:例如声纹、发音评测。
 
减分项:
 
环境私密程度低:例如办公场景;
 
环境嘈杂:例如商场场景;
 
涉及到多层次交互(触屏可弥补):例如点外卖;
 
涉及到多条目选择(触屏可弥补):例如购物;
 
涉及到重要/隐私信息传达(屏幕可弥补):例如取款机。

(编辑:应用网_丽江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读