加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_丽江站长网 (http://www.0888zz.com/)- 科技、建站、数据工具、云上网络、机器学习!
当前位置: 首页 > 站长资讯 > 动态 > 正文

拟脑吴义坚 : 机器人这个行业还很初级,AlphaGo还只是弱人工智能

发布时间:2016-03-19 04:56:56 所属栏目:动态 来源:雷锋网
导读:机器人是一个筐,什么东西都可以往里装。幼教拟脑机器人是如何找到市场点的?

儿童机器人是有刚需的,看你是不是真的能很好地满足用户的刚需。做成多功能型的,还是主打一个功能?还有最大的问题就是小孩子的新鲜感与长期使用的黏性问题,小孩子到底愿意使用它多长时间?最后一点就是这个儿童机要同时做到小孩子喜欢和家长放心,屏幕可能伤眼睛,游戏可能造成沉迷,就像平板电脑小孩子都喜欢玩但是家长不放心,这个市场是家长掏钱给小孩子使用,因此两个方面都要满足到。

关于屏幕伤眼睛这个问题,我自己做这个产品的时候也会涉及到这个问题,稍微澄清一下,理论上讲所有的屏幕都会伤眼睛,不管是大还是小,甚至你长时间看书也会伤眼睛。对于保护眼睛,其实主要是两点,一是距离多远,二是看多长时间,这才是最关键的。

整个机器人行业的发展目前还是很初级的一个阶段,机器人的功能和定位没有一个标准,业内人士和用户也有不同的期望值。我觉得短期之内的突破点一个是细分市场痛点的需求。一个是在细分市场上做非常深度的定制优化。当然长期趋势来看机器人行业还是非常清晰的,就像人手一个手机一样,未来肯定是每个人都会有机器人,但是这个机器人是满足单一的需求还是满足多样化的需求,满足特定一个人的需求还是满足一个家庭的需求,这个地方目前来说还不是特别的清晰。

| 如何定义人工智能?

我讲一下第二大块的人工智能部分。

人工智能的基本定义就是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术的应用。基本上就是模拟人的思考问题和反应方式。

我把人工智能分成三个阶段:弱人工智能,强人工智能和超人工智能。

比如谷歌的AlphaGo,从人工智能角度来讲属于弱人工智能,它只是擅长某一个方面,某一个特定领域的某一小点,利用机器擅长的运算能力做到了极致甚至超过了人类,但是在某一个领域真正的理解方面,它的人工智能还是属于非常弱的。

强人工智能是什么呢?它不是单一功能,而是能做很多像人一样的智能水平的事情,就是人类能干的脑力活它应该大部分能干,甚至跟人相当于同一个水平。

最后是超人工智能,人工智能跨过强人工智能往超人工智能转化,可能就是一瞬间的事情,从理论上讲确实是有这种可能性的。因为人类进化就是一个缓慢的过程,而机器的特点是运算比人强,存储比人强,进化速度比人强。

AlphaGO可以在几天之内运行几千万盘棋谱,但人也有擅长的地方,比如概念认知是人类天生的,这个东西目前为止现在还没有任何的基础理论能让机器自己认知一个概念,更别说一些自动推理、规划、决策,机器只能在人定义的范围之内做规划和决策。

认知上面比如说语音识别,现在机器做得还不错,通用的语言理解基本上现在都做不到。现在真正的人工智能涉及的主要领域就是这些地方:类人智能感知、听觉、视觉、嗅觉这些基本上都能做到了,当然机器擅长和不擅长的地方跟人不一样。比如说触觉,现在机器还不能像人一样感知那么细腻,但是在听觉和视觉方面,机器在某些方面甚至比人还要强,比如说在基础视觉方面机器在黑暗的环境下看的比人要清楚,但是涉及到一些抽象视觉感知现在机器还是接近于0。另外在信息反馈方面机器在性格、感情表达方面还做不到。

1、语音技术的发展

我本人做语音交互做了十几年,接下来我会侧重讲这个方面,涉及一些基础的东西包括深入学习,也会顺带讲一下计算机视觉。

语音技术研究从五十年代就开始了,一直到九十年代都是在做很多基础的研发,深度学习大概在距今10年左右得到了非常大的突破。整个语音技术的发展是这样的:基础研究从简单的任务开始,比如一开始是识别十个数字,到后面的孤立词,然后到连续语流,从最早的特定说话人到现在的所有的说话人,从早期的安静环境、受限环境到现在的复杂环境,这是整个语音技术发展的历史。现在很多场景下大家都能够看到一些语音识别的成熟应用了。

所有的语音识别和模式识别都是一样的,首先要把一个语音信号做特征提取,然后再做一个模型匹配。我们这里有两个模型,一个是声学模型,还有一个语言模型,声学模型就是人的声音是怎么发出来,语言模型有点像拼音输入法,把听出来的声音对应到某一个字。

2、深度学习如何应用到语音中?

深度网络学习算法DNN是怎么应用到语音的?其实用的就是在声学模型里面的。在过去的十年之内,任何一个语音的单项技术能做到10%准确率的提升,都是很了不得的,但是DNN能做到30%以上提升,是非常大的一个突破。DNN是替代了以前的HMM或者GMM,大家稍微有点基础的就知道概率分布, GMM就是高斯分布,就是你最有可能出现在什么地方可以算一个概率,这个是传统的概率论。DNN不是这样的,其实神经网络在七十年代就已经出现了,但是它为什么一直没有很大规模使用呢?就是因为以前传统的神经网络虽然理论都有很多层,但是实际上应用只有一层,一个原因是那时候没有很好的训练算法,第二个是运算量巨大,当时的计算机根本没有办法算。大家都知道AlphaGO的机器配了很多的GPU,这个也是近这几年GPU运算能力的扩张才使得这个算法得以实现。

传统单层的神经网络就很简单,左边这个是输入的信号,比如语音信号提取的数据输入到这个里面去,所有的连接都是一些参数,需要提前训练好,然后输入就是说这个参数对应到这个模型是什么。现在DNN发展到十层甚至到十几层,而且每一层有一千个甚至几千个节点,这里面参数有几百万甚至上千万,传统的训练算法根本做不了这个事情。

拟脑吴义坚 : 机器人这个行业还很初级,AlphaGo还只是弱人工智能

我们现在用的声学模型基本上有四五层以上,每一层都有1024×1024个节点,输出的音有几千个,甚至上万个。这么多的参数怎么在系统中做好,我通过这个图讲一下基本的原理:你看我输了这个语音数,输入这些参数之后它自动往后扩张,所有的参数乘以这个系数,然后在这里得出一个得分,然后这地方就算出一系列的值来,这一系列的值再往后扩张,一直到最后这个就是我们的声音的得分。比如这个节点是a,你这一组节点进去得到a的概率是多少。我们再说一下人脸识别,人脸图像也是一组参数输入进来,通过这个网络往后走,在一千个或者一万个人脸库中,每个人脸匹配的概率值中找一个最大的。DNN训练就是你已经有大量的数据,你已经知道输入是什么,输出是什么,通过这里面所有的样本去调这几百万个参数。具体算法就不讲了,是非常非常复杂、运算量非常大的,这就是为什么要靠GPU来计算,如果要靠CPU,上万台服务器可能都不够。

3、谷歌的AlphaGO强在哪里?

(编辑:应用网_丽江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读