加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_丽江站长网 (http://www.0888zz.com/)- 科技、建站、数据工具、云上网络、机器学习!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

图森互联CTO侯晓迪:用5行代码征服一个领域

发布时间:2016-08-30 19:43:34 所属栏目:传媒 来源:站长之家用户
导读:最近自动驾驶新闻频频,如沃尔沃Uber联手自动驾驶,福特、Uber争相发布无人驾驶商用时间线,comma.ai开源,tesla首例自动驾驶致死车祸......由此我们也能看到自动驾驶的热度

图森互联CTO侯晓迪:用5行代码征服一个领域

最近自动驾驶新闻频频,如沃尔沃Uber联手自动驾驶,福特、Uber争相发布无人驾驶商用时间线,comma.ai开源,tesla首例自动驾驶致死车祸......由此我们也能看到自动驾驶的热度,看起来像未来商务,但我们是否清楚这份技术离我们到底有多远?

近日,图森互联正式宣布与北奔研究院、北京理工大学达成战略合作伙伴关系,三方将以计算机视觉技术为基础在自动驾驶领域展开合作,属国内首例科技企业、车企、高校联合研发针对重型汽车特别是军用重型汽车自动驾驶技术。图森互联负责研发基于计算机视觉和深度学习算法,提供自动驾驶解决方案。

InfoQ有幸采访到图森互联CTO,联合创始人侯晓迪。并且这个采访周末前还在沟通问题提要,周末后便收到了回复,看到答案第一感觉就是非常严谨,也能从小处看到个人的高效作风。

侯晓迪,2003年进入上海交大,并于大三发表了高引用论文;加州理工计算与神经系统博士,计算机视觉和认知科学领域专家。创立了基于频域的视觉注意机制理论。是近10年来在视觉注意机制最有影响力的研究。是计算机视觉领域全球华人博士中学术文章被引用最多的作者,学术论文Saliency detection: A spectral residual approach(发表于CVPR)、Image signature: Highlighting sparse salient regions(发表于IEEE transactions on pattern analysis and machine intelligence )在学术领域具有重要影响。

InfoQ:您在大三发表的论文使您成为华人年轻AI学者里单篇论文引用数最高的人,据说甚至超过很多名校教授,您如何做到的?能说说这里的故事吗?

侯晓迪:Paper第一次投就中,最大原因必须是运气好!学术会议的审稿的随机性太高,哪怕CVPR这样的顶级会议也是如此。审稿人一言不合就把paper据掉的血泪故事听过太多(当然,也亲身体验过)。

文章之所以高引,最大的原因是简单且有效。整个算法只有5行代码,大概是CVPR史上最短的代码实现了。我的5行代码直接写在了paper里,花一分钟抄下来就能获得很不错的效果(截止2012年,算法的准确率在公开benchmark上top 3),大家自然喜欢用。

至于说要想本科发顶会论文,拼的就是投入——全身心的极端的投入。从06年开始直到08年毕业,我一直过着这样的生活:吃住在实验室;翘掉除体育之外的全部文化课;没有节假日,日均工作时间大于16小时;每天无论是自己吃饭走路还是和实验室同学讨论,我的世界就只有“视觉的计算原理”这一件事。

InfoQ:在加州理工读完博士后,是什么原因诱使您选择创业呢?

侯晓迪:对我而言,创业是早在读PhD之初就已经决定了的。我希望能够用更先进的生产关系,试着冲破玻璃天花板,解决一些学术圈本身解决不了的问题。

在外人看来,Caltech是个标准的faculty的摇篮。但其实,沐浴在加州的资本阳光下,在校内跨领域跨学科合作浪潮的鼓动下,我校毕业生的创业比例却高得吓人。比如我所在的Computation & Neural Systems系,上下三届20位同学中就有4个人选择毕业后直接创业。

InfoQ:请问基于图片的嵌入式原生广告投放服务落地难点在哪里?对于图像识别SaaS的未来技术趋势,您有何看法?

侯晓迪:实验室层次的“work”,和实验室产品层次的“work”有很大差别。在媒体的渲染下,大家都以为deep learning是个已经解决的问题。但其实, deep learning解决得好且非常容易上手的,绝大部分都与ImageNet classification problem类似(分类清晰,训练数据量大,对整张图片给唯一标签)。在实际中,我们经常会遇到训练数据不够,训练和测试数据差别太大,类别不均衡,类间差异太小,一张图对应多标签,图片中物体较小……这些差异在外行看来似乎无足轻重,但是都会对deep learning的分类结果产生重大影响。这就导致了——产品经理每次提出来的一个新问题,都还需要算法工程师做各种量身定制,才能让deep learning跑出还不错的结果。

在这个方面,我们的终极目标是让产品经理拖拖鼠标,就能部署图森的深度学习系统。所以图森的SaaS平台看起来平淡无奇,但其实里面包含了大量的算法自适应黑科技。

InfoQ:图森车型识别准确度达到多少,是否考虑过开源的框架和开源的数据集?

侯晓迪:车型识别准确率,在我们自己的数据上大概是97%。

图森一直积极参与开源。我司首席科学家王乃岩同学就是MXNet(目前最先进、速度最快的深度学习开源框架)的核心成员之一。我们长期与MXNet合作,提交了大量的开源代码,是MXNet最大的贡献单位。

InfoQ:请问有lidar和无lidar优缺点是什么?他们的可靠性差别有多大 ?图森是如何选择的?

侯晓迪:信息量非负,多加任何传感器,肯定不会帮倒忙。哪怕该信息已经可以通过其他渠道获得,加入后也可以起到交叉校验、降低噪音等功能。

通过发射激光,LiDAR可以很准确地测出光朝着某个方向前进,走多远会碰到障碍物。这个信息虽然很有用,但也不过是自动驾驶千里长征的第一步。光靠分析点的距离,我们并不能直接读出一坨点云对应的是什么物体,物体如何运动;更无法猜出汽车牌照、车道线标记、交通标志内容这些无法反映在3D点云上的信息。而且,一旦遇到下雨下雪或者重度雾霾这种会干扰激光的场景,LiDAR都会罢工。

LiDAR的好处是,可以一步跨越3D测距这个非常难的问题,从一个比较容易的起点开始做自动驾驶。

我司没有用LiDAR,主要的考虑是成本。今天32线LiDAR的市价是8万美元,在三年后,LiDAR的成本会不会是自动驾驶普及的最大拦路虎?这个问题现在当然没人知道,图森选择的道路是,宁可从比较难的起点多花些功夫,做我们擅长做的事(不借助LiDAR,直接基于机器视觉研发算法),也不要让我们的商业化之路受制于我们无法控制的事情。

InfoQ:最近tesla出现的识别失败导致的车祸事故可以避免吗?或者误识别的概率多大,以tesla最近的车祸场景为例?针对辅助驾驶/无人驾驶有哪些算法上的改进?(是否有paper或者专利?)

侯晓迪:首先,Mobileye的EyeQ3本身只是一个辅助驾驶系统。但是市场接受TESLA的概念的时候,是作为自动驾驶来炒作的。这相当于TESLA提前消费了大众对自动驾驶这项技术的信任。这是很糟糕的事情。

其次,小概率事件不意味着它绝对不会发生,所以哪怕是一百年后,我相信自动驾驶的车祸事故也不会100%完全避免。所以我在这里只谈谈现行系统的问题。

(编辑:应用网_丽江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读