一场基于深度学习的创业,竟争夺起了传统时尚的话语权
事实上,早在80年代中期,深度学习的相关理论就已经在机器学习领域开始得到传播,而到了新千年,前者也开始流传到了人工智能神经网络界,但是直到2006年,杰弗里·辛顿(Geoffrey Hinton)和鲁斯兰·萨拉库蒂诺夫(Ruslan Salakhutdinov)的研究成果引起了大家的关注和热情。 他们指出,一个多层的“前向反馈神经网络”(feedforward neural network)可以一次预训练一层神经网络并像未被监督的受限玻尔兹曼机(restricted Boltzmann machine)一样依次训练每一层,在此基础上调整好它对监督下的反向传播算法的应用。这使得提升深度学习速度有了切实的操作可能性。 深度学习越来越多地从实验理论投入到了应用领域。 深度学习在语音识别领域体现出了前所未有的巨大优势 2009年,邓力邀请辛顿到雷蒙德的微软研究院进行深度学习在语音识别上的应用研究,两人共同组织了当年 NIPS 上该领域的研讨会,是次主要讨论了语音深度生成模型(deep generative model)方面的限制和基于深度神经网络(deep neural nets,DNN)的大数据领域存在的可能性。 两位科学家的研究最终得出让人惊喜的成果,他们发现,即使没有预训练,通过对数据尤其是大量基于文本输出层的深度神经网络的训练,错误率较之 GMM-HMM 和其他高级生成模型的语音识别系统都出现了显著的降低,其他几个主要的语音识别研究团队也证实了邓力和辛顿的结论。 深度学习震动了整个语音识别领域,同样是在这一年,斯坦福大学的李飞飞教授开放了她在2007年创建的 ImageNet 的数据库。 2012年还在 Google 的吴恩达 Credit Jim Wilson/The New York Times 来源:《纽约时报》 在过往,被用来训练图片处理识别的数据库主要是 MNIST,它涵盖了6万张训练图片和1万张测试图片,截至目前为止,研究团队在 MNIST 上取得的最佳成绩是0.23%的错误率,到了2012年,丹·奇雷商(Dan Ciresan)团队在 CVPR 上提交的论文向大家展示了 GPU 上最大池化(max-pooling)的卷积神经网络在提升视觉 Benchmark 记录上的惊人表现。 是年,吴恩达(Andrew Ng)和杰夫·迪恩(Jeff Dean)带领下的 Google Brain 利用超过1.6万台电脑处理器组建了一个神经网络,他们从1000万段 YouTube 的视频中抽取一帧分辨率为200 X 200的缩略画面来训练神经网络从中识别出猫。 深度学习第一次赢得了 ImageNet 竞赛 在这一年,辛顿团队里的两名年轻人利以巨大优势赢得了当年的 ImageNet 竞赛,这是深度学习首次参加到竞赛中去,随后,奇雷商团队也在医学图片的癌症发现上赢得了 ICPR,深度学习所体现出的巨大威力震惊了整个世界。 到了2013年时,ImageNet 竞赛的前20名无一例外全部采用了深度学习技术,排名第一的纽约大学将错误率降低到了0.11197,在物体识别项目中,排名第一的阿姆斯特丹大学(University of Amsterdam)和 Euvision Technologies 组建的团队的平均正确率均值(Mean Average Precision)还只有0.22581。到次年时,Google 在两个类别的竞赛都获得了第一,错误率和均值则分别为0.06656和0.43933。 终于,深度学习从理论的象牙塔里走到了现实世界里中。 在1960年的阿尔弗雷德·科日布斯基纪念演讲(Alfred Korzybski Memorial Lecture)上,麦卡洛克这样指出,探究知识的生理学基层的目的就在于为了在“我们如何知道我们所知”这个问题上获得一个让人满意的解释。 半个多世纪以后,科学家们以超人的勇气和天才将这个问题问得更加深入与更加具有革命性:我们如何让机器知其所知。 对另外一些人,他们的野心和好奇在于,在让机器知其所知之后,在巴别塔建成之后,如何让“凯撒的归凯撒”,如何在这个新世界中寻找到那块商业上的应许之地。 (编辑:应用网_丽江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |