图森互联CTO侯晓迪：用5行代码征服一个领域

发布时间：2016-08-30 19:43:34 所属栏目：传媒来源：站长之家用户

导读：最近自动驾驶新闻频频，如沃尔沃Uber联手自动驾驶，福特、Uber争相发布无人驾驶商用时间线，comma.ai开源，tesla首例自动驾驶致死车祸......由此我们也能看到自动驾驶的热度

最近自动驾驶新闻频频，如沃尔沃Uber联手自动驾驶，福特、Uber争相发布无人驾驶商用时间线，comma.ai开源，tesla首例自动驾驶致死车祸......由此我们也能看到自动驾驶的热度，看起来像未来商务，但我们是否清楚这份技术离我们到底有多远？

近日，图森互联正式宣布与北奔研究院、北京理工大学达成战略合作伙伴关系，三方将以计算机视觉技术为基础在自动驾驶领域展开合作，属国内首例科技企业、车企、高校联合研发针对重型汽车特别是军用重型汽车自动驾驶技术。图森互联负责研发基于计算机视觉和深度学习算法，提供自动驾驶解决方案。

InfoQ有幸采访到图森互联CTO，联合创始人侯晓迪。并且这个采访周末前还在沟通问题提要，周末后便收到了回复，看到答案第一感觉就是非常严谨，也能从小处看到个人的高效作风。

侯晓迪，2003年进入上海交大，并于大三发表了高引用论文；加州理工计算与神经系统博士，计算机视觉和认知科学领域专家。创立了基于频域的视觉注意机制理论。是近10年来在视觉注意机制最有影响力的研究。是计算机视觉领域全球华人博士中学术文章被引用最多的作者，学术论文Saliency detection: A spectral residual approach（发表于CVPR）、Image signature: Highlighting sparse salient regions（发表于IEEE transactions on pattern analysis and machine intelligence ）在学术领域具有重要影响。

InfoQ：您在大三发表的论文使您成为华人年轻AI学者里单篇论文引用数最高的人，据说甚至超过很多名校教授，您如何做到的？能说说这里的故事吗？

侯晓迪：Paper第一次投就中，最大原因必须是运气好！学术会议的审稿的随机性太高，哪怕CVPR这样的顶级会议也是如此。审稿人一言不合就把paper据掉的血泪故事听过太多（当然，也亲身体验过）。

文章之所以高引，最大的原因是简单且有效。整个算法只有5行代码，大概是CVPR史上最短的代码实现了。我的5行代码直接写在了paper里，花一分钟抄下来就能获得很不错的效果（截止2012年，算法的准确率在公开benchmark上top 3），大家自然喜欢用。

至于说要想本科发顶会论文，拼的就是投入——全身心的极端的投入。从06年开始直到08年毕业，我一直过着这样的生活：吃住在实验室；翘掉除体育之外的全部文化课；没有节假日，日均工作时间大于16小时；每天无论是自己吃饭走路还是和实验室同学讨论，我的世界就只有“视觉的计算原理”这一件事。

InfoQ：在加州理工读完博士后，是什么原因诱使您选择创业呢？

侯晓迪：对我而言，创业是早在读PhD之初就已经决定了的。我希望能够用更先进的生产关系，试着冲破玻璃天花板，解决一些学术圈本身解决不了的问题。

在外人看来，Caltech是个标准的faculty的摇篮。但其实，沐浴在加州的资本阳光下，在校内跨领域跨学科合作浪潮的鼓动下，我校毕业生的创业比例却高得吓人。比如我所在的Computation & Neural Systems系，上下三届20位同学中就有4个人选择毕业后直接创业。

InfoQ：请问基于图片的嵌入式原生广告投放服务落地难点在哪里？对于图像识别SaaS的未来技术趋势，您有何看法？

侯晓迪：实验室层次的“work”，和实验室产品层次的“work”有很大差别。在媒体的渲染下，大家都以为deep learning是个已经解决的问题。但其实， deep learning解决得好且非常容易上手的，绝大部分都与ImageNet classification problem类似（分类清晰，训练数据量大，对整张图片给唯一标签）。在实际中，我们经常会遇到训练数据不够，训练和测试数据差别太大，类别不均衡，类间差异太小，一张图对应多标签，图片中物体较小……这些差异在外行看来似乎无足轻重，但是都会对deep learning的分类结果产生重大影响。这就导致了——产品经理每次提出来的一个新问题，都还需要算法工程师做各种量身定制，才能让deep learning跑出还不错的结果。

在这个方面，我们的终极目标是让产品经理拖拖鼠标，就能部署图森的深度学习系统。所以图森的SaaS平台看起来平淡无奇，但其实里面包含了大量的算法自适应黑科技。

InfoQ：图森车型识别准确度达到多少，是否考虑过开源的框架和开源的数据集？

侯晓迪：车型识别准确率，在我们自己的数据上大概是97%。

图森一直积极参与开源。我司首席科学家王乃岩同学就是MXNet（目前最先进、速度最快的深度学习开源框架）的核心成员之一。我们长期与MXNet合作，提交了大量的开源代码，是MXNet最大的贡献单位。

InfoQ：请问有lidar和无lidar优缺点是什么？他们的可靠性差别有多大？图森是如何选择的？

侯晓迪：信息量非负，多加任何传感器，肯定不会帮倒忙。哪怕该信息已经可以通过其他渠道获得，加入后也可以起到交叉校验、降低噪音等功能。

通过发射激光，LiDAR可以很准确地测出光朝着某个方向前进，走多远会碰到障碍物。这个信息虽然很有用，但也不过是自动驾驶千里长征的第一步。光靠分析点的距离，我们并不能直接读出一坨点云对应的是什么物体，物体如何运动；更无法猜出汽车牌照、车道线标记、交通标志内容这些无法反映在3D点云上的信息。而且，一旦遇到下雨下雪或者重度雾霾这种会干扰激光的场景，LiDAR都会罢工。

LiDAR的好处是，可以一步跨越3D测距这个非常难的问题，从一个比较容易的起点开始做自动驾驶。

我司没有用LiDAR，主要的考虑是成本。今天32线LiDAR的市价是8万美元，在三年后，LiDAR的成本会不会是自动驾驶普及的最大拦路虎？这个问题现在当然没人知道，图森选择的道路是，宁可从比较难的起点多花些功夫，做我们擅长做的事（不借助LiDAR，直接基于机器视觉研发算法），也不要让我们的商业化之路受制于我们无法控制的事情。

InfoQ：最近tesla出现的识别失败导致的车祸事故可以避免吗?或者误识别的概率多大，以tesla最近的车祸场景为例？针对辅助驾驶/无人驾驶有哪些算法上的改进?（是否有paper或者专利？）

侯晓迪：首先，Mobileye的EyeQ3本身只是一个辅助驾驶系统。但是市场接受TESLA的概念的时候，是作为自动驾驶来炒作的。这相当于TESLA提前消费了大众对自动驾驶这项技术的信任。这是很糟糕的事情。

其次，小概率事件不意味着它绝对不会发生，所以哪怕是一百年后，我相信自动驾驶的车祸事故也不会100%完全避免。所以我在这里只谈谈现行系统的问题。

（编辑：应用网_丽江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页