拟脑吴义坚 : 机器人这个行业还很初级,AlphaGo还只是弱人工智能
目前的语义理解技术分为两大块,一个是在通用领域,它基于一个海量知识库去匹配的回答出来。比如说查今天的天气,这种任务他是理解的,但是如果真的聊天调侃,表面上好像理解了,但是其实从技术层面上它并不存在理解,这只是一个知识库的匹配,或者统计的分类。在特定领域这种语音技术虽然说还不够好,但是其实只要做到足够多的深度定制,基本上是可以达到实用的。比如IBM的Watson,它对一般的医疗问题甚至可以给出比普通医生还要好的建议。 再简单介绍一下计算机视觉。 它从人工智能或者机器学习的角度上和语音识别原理是一样的,因为语音信号是一个一维的模型,图像是一个二维的,而视频相当于一个二维图像的时间序列。刚才已经给大家看过了语音的识别过程,深度学习的框架是一样的,唯独不同的是特征提取,你要把特定领域的东西找到一定的信号输入进去。 现在计算机视觉在人脸识别,包括一些物体的检测都可以号称在国际上有一个专门的测试上面可以做到99%了,但是实验室的测试和实际环境是不一样的,化妆、光线、角度等因素对人类识别能力影响不大,但是对机器而言就很难了,因为它学习的这套机制跟人脑的机制理解是完全不一样的。 人工智能的产业格局跟机器人不一样,因为机器人这个行业里面还没有什么巨头,市场还没有起来。人工智能基本上都是国际、国内的巨头在做—— 谷歌、facebook、苹果、微软、Amazon,可以看到全球互联网、终端类大公司基本上都在做。 国内最强的应该是百度,也是以技术擅长的一家公司,百度拥有语音图像、深度学习实验室,在AI上面的投入水平确实在国际上是排得上的。阿里、腾讯相对弱一些。阿里做了一些语音技术和人工智能的布局,也投资了Pepper。腾讯这方面更多的是应用,他们目前的技术储备还是不够的。科大讯飞本身是做人工智能出身,包括传统的语音识别和合成,还有现在的超脑计划,讯飞也联合了很多国内外的研发机构,我认为现在国内在整个人工智能行业布局上除了百度、科大讯飞是排在前面的,这包括技术水平还有整个未来的发展前景。 人工智能产业还可以大致分为三块: 首先是通用平台,像谷歌、BAT,除了提供技术还提供产品和服务。 其次是技术平台,科大讯飞是国内最全面的,facc++也是比较热的技术平台。 第三块细分产品就比较多了,包括我前面提到的拟脑机器人,还有Jibo等。 人工智能的技术还是处在一个相对比较早期的阶段,大规模的应用或者达到或者接近用户的期望值还有很长的路要走,所以在短期之内细分产品也是有蛮大的市场的。 编者注:以下是活动现场的交流问答,为不影响阅读,雷锋网节选其中几个精彩问题与读者分享—— (按:高宏博系华泰证券计算机行业首席) 1、围棋的下法里面是否已经开始体现出个性? 吴义坚:那并不是个性,只是我们觉得它有个性。比如说新的下法,是因为人类没有那样尝试过。或者说所有的高手一开始学的时候,他认为那种下法是不可能赢的。而机器会在跟自己博弈,它后来发现这样也能赢,这不叫个性,它就是在预设目标和规律下通过增强学习发现了一些新的可行路径。因为人类也一样,围棋早期的下法也是不一样的,但是有一些人通过实践和总结演变新的布局和招法甚至围棋理论,只是机器演变的速度比人类快,这个是它强的地方。 其实个人觉得人类后天学习的一些东西,而且是能单一化的东西真的会被机器取代,机器慢慢都能做到。但是人所谓的天生就会的一些能力,就像人只要看过一次猫后面就可以自己定义并识别猫,这种天生的能力人类自己也搞不清楚原理和逻辑,就没办法告诉机器怎么做。现在机器就是人要告诉它怎么做之后,它会做得比人类更好。 高宏博:其实围棋还是一个有单一目标固定规则的任务。工网络算法分很多层,其实它也是模拟人脑的神经源之间的相互原理,我们现在只是简单的,其实他的基础也是数学,这块原来我跟讯飞的龚总提过这个问题,其实他有两种算法:一个是计算机算法模拟,这个到最后一些简单的可以处理,但是到最后高级的一些情感化模拟是不是能完全做到,像吴总这种科学家级别的也还在探索;另外一个从完全的生物学的角度去研究,现在还完全摸不到什么门道,现在一些生物公司,也是在碰,如果正好碰到一个疗效就可以开发这个药了。它还不如计算机有用,计算机至少还有一定的逻辑,而生物完全就是在碰了。但是能不能靠模拟能达到生物学的效果,这个确实还需再探索。 2、基于语音,基于视频和基于图象的这三种不同的深度识别,哪一种技术门槛会高一点? 吴义坚:通用的技术大家其实是差不多的,这里面有几个东西不一样: 一个就是特征提取,当然也是有技巧的,就是基于哪些特征更有效的描述你的目标; 而深度学习里面,不一样的地方就是语音现在可能我们做到五层八层足够了,而可能对于图象,它可能要做到十层二十层,甚至几十层,还是不一样的。这不是哪一个门槛高的问题,是大家的侧重点不一样; 语音可能要解决的问题跟其他也不一样,图象有它的难点,比如它是孤立的,但是它对于图象的理解,它更多的像是一个固定序列,并没有真正理解,并不涉及到语言或者概念理解,它只是检测里面的某一个东西。而这个语音识别加理解,其实更多的是要理解里面的概念。视频理解,现在的视频理解,现在的视频理解更多的是基于图象的技术,检测好这些东西再把它做一个序列化之后然后抽取一些关键之后就叫理解。视频理解应该建立在图象的理解基础之上,视频理解并没有单独的一个,更多的是在图象基础之上做的。 3、是否做语音的深度学习技术门槛更高一点? 吴义坚:不是的,语音现在它的难度其实要比图象低,但是现在图象的任务要比语音简单。就像我语音识别只做十个数字的汉语识别,早就做到很高了。你看现在的人脸识别,并不是你做图象识别的时候,你要识别你看到的所有的东西,现在就是这样的,如果你要识别所有的东西肯定是图象识别难,但是你如果只做人脸识别,这个比语音识别要容易,所以它可以做到99%,甚至更高。因为大家的任务难度不一样的。 (编辑:应用网_丽江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |