加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_丽江站长网 (http://www.0888zz.com/)- 科技、建站、数据工具、云上网络、机器学习!
当前位置: 首页 > 综合聚焦 > 移动互联 > 通讯 > 正文

语音接口 我们已站到下一个交互时代的边缘

发布时间:2016-07-04 04:51:50 所属栏目:通讯 来源:网络整理
导读:近日美国《连线》杂志撰文指出,随着计算机处理、语音识别、移动通信、云计算、神经网络等技术的发展日趋成熟,语音接口技术迎来了飞跃,虚拟语音助理业务的发展迎来了变革时期。你或许听过这样一个故事。1979年,年轻的史蒂夫乔布斯造访了位于位于加利福

近日美国《连线》杂志撰文指出,随着计算机处理、语音识别、移动通信、云计算、神经网络等技术的发展日趋成熟,语音接口技术迎来了飞跃,虚拟语音助理业务的发展迎来了变革时期。你或许听过这样一个故事。1979年,年轻的史蒂夫乔布斯造访了位于位于加利福尼亚州帕洛阿图市的施乐帕克研究中心(Xerox PARC),并见证了帕克研发的计算机图形用户界面。

undefined

一位PARC的工程师使用鼠标原型对计算机进行了相关操作,下拉菜单、点击互相重叠的计算机窗口。在整个演示过程中,乔布斯所看到的操作方式与以前完全不同。乔布斯后来说,“不到十分钟,我就清楚有一天所有计算机都会以这种方式运行。”

传说中乔布斯带领苹果的团队复制了PARC的用户图形界面。在随后的近四十年内,个人计算机技术开始以前所未有的速度向前发展,从第一台Macintosh一路发展至最新的iPhone手机。计算机的用户图形界面克服了命令行以及文字界面的缺点,将更多的普通人带进计算机世界,使更多的人能够使用计算机,他们所需要的技能仅仅是操作鼠标指向、单击或拖动。

在并不遥远的未来,我们依旧会因PARC创造的用户图形界面和其因决策失误而导致错过个人电脑发展黄金时期而唏嘘不已。但在乔布斯造访PARC的时候,而另外一个独立团队正在研究关于人机交互的全新模式,也就是今天所说的会话用户界面。这些科学家设想了这样一个世界,在几十年后的电脑功能时如此强大,需要用户记住关于计算机操作的每一个命令是完全不切实际的。科学家想到用户会倒退回来,用一种蜕变的方式与计算机协同工作,而这种方式的接口就是普通人类语言。

在研究会话用户界面的团队中,有一位名为罗恩·卡普兰(Ron Kaplan)的科学家。他长相粗壮,说话却细声细语,留着山羊胡子,但有头发稀疏。卡普兰是一位语言学家,同时也是一位心理学家和计算机专家,其将著名语言学家诺姆·乔姆斯基的理论用于人机交互语言的重构。卡普兰指出,在上世纪70年代,他的团队所开发的会话用户界面离实际应用还有相当的距离。他们勉强开发出一个会话用户系统,用户可以使用标准英语来预定机票。但是这种技术无法用于大规模的系统性工作,因此也就无法普及。卡普兰表示,“当时这种技术的成本过高,大概要达到每个用户一百万美元。”事实上,这种技术需要更快处理速度,更为智能、更高效的分布式处理电脑。卡普兰当时估计需要15年的时间。

卡普兰现在称,“四十年后,我们终于准备好了。”

现在,卡普兰是语音识别软件公司Nuance Communications的首席科学家以及副总裁。该公司是世界上最大的语音接口业务公司之一。该公司为福特开发了车内语音系统Sync system,对苹果Siri的开发也至关重要,其与各行业均有良好的合作关系。但最近,Nuance发现很多公司都在涌入语音接口市场。从亚马逊、Intel到微软谷歌,几乎每一个大科技公司都在研发会话用户接口,此外还有数十个初创企业也在从事相关研究。我们正处于语音接口技术的变革之中。这些公司相信,不久之后,用户能够跟自己的设备如同和朋友谈话一样交互。用户的设备能够听到用户在说什么、表达什么意思。

你或许以及过惊叹于现在社会的技术发展,但这些新的工具和接口将进一步拓展你的数字生活,克服图形用户界面在安全、友好、易用性方面的缺点。更贴近自然语言的会话接口将会进一步拉近你和技术之间的关系,更贴心,更友好,更富于个性化。

这种技术的重大转变不仅有利于硅谷,更使得普罗大众受益。史蒂夫·乔布斯在1979年就看到了图形用户界面的重要性,清楚其是拓展计算机市场的重要方式。但即便是图形用户界面,依旧把大量受众拒在赛博空间的大门之外。它依旧需要用户去学习计算机语言。而现在,随着语音技术的发展,电脑最终将学会如何直接与人类对话。在不断学习和完善中,人类将打通通向科技世界的通天塔。

但我们也要清楚,虽然语音技术已经存在多年,但迄今为止依旧不够成熟。当然,你可以举例说现在的电话自动应答系统还算不错(打进电话付款,说“支付”便可调用相应功能)。事实上,现在的语音接口都依赖于固定化的语言,而在某些情况下还不具备自然语言的功能。譬如你可以问Google Now纽约市人口数量,它对答如流;你问帝国大厦的位置,它也能应对。但倘若你问其包括帝国大厦在内的纽约市人口数量,它就会不知所云。同样,苹果语音助手Siri也一贯如此,其最主要的本领就是帮你调用谷歌搜索。现在的语音接口,与电影中描述的场景差距还很明显。

然而,当你徜徉在硅谷,和人们谈及关于语音接口的相关技术,他们的回答如出一辙:现在不同了。

在六月初的一天,语音识别技术公司SoundHound首席执行官凯文·莫哈耶尔(Keyvan Mohajer)向我展示了公司耗费近十年时间研发出的应用程序原型。SoundHound此前曾发布了一款应用,可以通过语音识别并搜索流行音乐。当用户对着手机哼唱一首曲子时,该应用可以识别并搜索出所哼唱的曲子名称。事实证明,该应用仅仅是莫哈耶尔梦想的一部分:开发世界上最先进的、基于语音的人工智能技术。

莫哈耶尔向我展示的这款应用原型名为Hound。莫哈耶尔手持一款智能手机Nexus 5,点击了一个麦克风图标打开程序,开始向Hound提问。开始只是一些简单的问题,诸如柏林当地时间或是日本的人口,应用程序都给出了正确的答案。随即莫哈耶尔话峰一转,问“那么它们之间的距离是多少?” Hound通过理解之前的对话,很快给出了答案——“大约5536英里”。

这种问题开始接二连三出现,但Hound都对答如流。莫哈耶尔要求Hound根据要求的利率及条件计算出贷款一百万美元的情况下每月所还按揭,Hound也很快计算出是4270.84美元。

莫哈耶尔又问,“Space Needle所在国首都人口是多少?” Hound指出莫哈耶尔所问的就是华盛顿的人口,并随即给出了答案。“日本和中国人口都有多少?首都在哪里?它们的国土面积有多少平方英里?有多少平方公里?有多少人住在印度?还有德国、意大利以及法国的区号是多少?”莫哈耶尔问出了一连串的问题,但Hound都作出了正确的回答。

Hound目前还处于测试阶段,但它可能是迄今为止识别速度最快,功能最为强大的语音识别系统。它可以同时进行语音识别以及自然语言处理,符合现在的技术以及市场需求。事实上,各种语音识别系统的飞速发展只是时间问题。

(编辑:应用网_丽江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读