加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_丽江站长网 (http://www.0888zz.com/)- 科技、建站、数据工具、云上网络、机器学习!
当前位置: 首页 > 站长资讯 > 动态 > 正文

深度学习进入芯片领域,揭秘寒武纪神经网络处理器

发布时间:2016-03-17 09:39:16 所属栏目:动态 来源:雷锋网
导读:中科院提出的深度学习处理器指令集被顶级会议接收,采用寒武纪深度学习处理器相对于x86指令集的CPU有。两个数量级的性能提升。

就在全世界媒体的焦点锁定于谷歌AlphaGo连续3盘战胜李世石的同时,中国科学院计算技术研究所陈云霁、陈天石课题组提出的深度学习处理器指令集DianNaoYu被计算机体系结构领域顶级国际会议ISCA2016(InternationalSymposiumonComputerArchitecture)所接收,其评分排名所有近300篇投稿的第一名。模拟实验表明,采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升。

深度学习进入芯片领域,揭秘寒武纪神经网络处理器

(寒武纪处理器)

寒武纪处理器是长期技术积累的成果

陈天石和陈云霁研究员在2014年5月刊发的《中国计算机学会通讯》(第10卷第5期)写道:

“从2008年到现在,我们已经在体系结构和人工智能的交叉研究方向上工作了6年。作为国际上为数不多的几个长期开展此方向研究的团队之一,我们在不被认可中坚持了下来,并尝试通过自己的努力来改善这个领域的环境(当然近年来环境的改善也得益于深度学习的兴起),最终得到了学术界一定程度的肯定。

回想起来,如果我们紧紧跟随国际学术圈的热点走,我们是很难拿到ASPLOS最佳论文奖的。原因有两个方面:第一,当我们看到别人的“热点”论文发表后再去跟着做,可能已经比别人晚了若干年。尤其是体系结构领域,论文的工作周期非常长(ASPLOS2014上发表的论文,我们在2012年就启动相关工作了),要跟上热点很困难。第二,当跟随热点时,我们的工作不可避免地会被视为对某个过往论文的改进。这种改进效果必须非常显著,机理必须非常清晰,才能打动顶级会议挑剔的审稿人。这对于论文写作提出了很高的要求,而中国大陆研究者往往在英文论文写作上不占优势。但这里存在一个矛盾:紧跟多变的国际学术圈热点,论文不容易在顶级会议上发表;而探讨的问题若不是国际学术圈热点,论文同样很难在顶级会议上发表。

面对这个矛盾,我们的看法是:研究者应该坚持自己的学术理想,重视论文但不为论文发表所左右;同时尽力宣传自己的研究方向,推动这个方向被国际学术圈的主流认可。经过长期的等待和努力,也许有一天,自己的研究方向就会成为热点。到那时,过去的一切坎坷都会被证明是值得的。”

截至目前,陈天石博士和陈云霁研究员就光寒武纪系列的技术成果,已经斩获两篇ASPLOS,两篇ISCA,一篇MICRO,一篇HPCA,这些是计算机体系结构方面国际四大顶级会议,只不过只有科研圈子里关注,普通人还不明白其中的意义。

因此,寒武纪处理器并非借着借着阿法狗对决李世石的热点横空出世,而是长期技术积累的结果,并在数年前就于高端国际会议中荣获殊荣。事实上,中国在智能芯片上是引领世界的——以寒武纪芯片为例,美国的哈佛、斯坦福、MIT、哥伦比亚等高校都跟在我们后面做。铁流认为,寒武纪之所以过去一直不见于主流媒体,仅仅是国内很多媒体人缺乏专业知识和辨识能力,而导致了更愿意鼓吹国外所谓“高科技”,却对真正非常具有含金量的自主技术选择性失明。

深度学习进入芯片领域,揭秘寒武纪神经网络处理器

陈云霁(左)和陈天石(右)兄弟

寒武纪神经网络处理器庐山真面目

目前,寒武纪系列已包含三种原型处理器结构:

寒武纪1号(英文名DianNao,面向神经网络的原型处理器结构);

寒武纪2号(英文名DaDianNao,面向大规模神经网络);

寒武纪3号(英文名PuDianNao,面向多种机器学习算法)。

DianNao是寒武纪系列的第一个原型处理器结构,包含一个处理器核,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02mm2。在若干代表性神经网络上的实验结果表明,DianNao的平均性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提升可达三个数量级;DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU百分之一量级。

DianNao的核心问题是如何让有限的内存带宽喂饱运算功能部件,使得运算和访存平衡,从而达到高效能比。难点在于选取运算功能部件的数量、组织策略以及片上RAM的结构参数。由于整个结构参数空间有上千万种选择,模拟器运行速度不及真实芯片的十万分之一,不可能蛮力尝试各种可能的设计参数。为解决此问题,使用了一套基于机器学习的处理器性能建模方法,并基于该性能模型最终为DianNao选定了各项设计参数,在运算和访存间取得了平衡,显著提升了执行神经网络算法时的效能。

即便数据已经从内存取到了片上,搬运的能耗依然非常高。NVidia首席科学家Steve Keckler曾经指出,在40nm工艺下,将64位数据搬运20毫米所花的能耗是做64位浮点乘法的数倍。

因此,要降低处理器功耗,仅仅降低运算功耗是不够的,必须优化片上数据搬运。中科院计算所提出对神经网络进行分块处理,将不同类型的数据块存放在不同的片上RAM中,并建立理论模型来刻画RAM与RAM、RAM与运算部件、RAM与内存之间搬运次数,进而优化神经网络运算所需的数据搬运次数。相对于CPU/GPU上基于cache层次的数据搬运,DianNao可将数据搬运减少10~30倍。

深度学习进入芯片领域,揭秘寒武纪神经网络处理器

  (DianNao结构)

DaDianNao在DianNao的基础上进一步扩大了处理器的规模,包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。在28nm 工艺下,DaDianNao的主频为606MHz,面积67.7 mm2,功耗约16W。单芯片性能超过了主流GPU的21倍,而能耗仅为主流GPU的1/330。64芯片组成的高效能计算系统较主流GPU的性能提升甚至可达450倍,但总能耗仅为1/150。

虽然神经网络已成为模式识别等领域的主流算法,但用户很多时候可能倾向于使用其他一些经典的机器学习算法。

(编辑:应用网_丽江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读