亲测:让盲人“看见”图片我们离这项黑科技有多远
从机器学习的角度出发,这些人工标注的数据奠定了对图片进行文本描述的基础。当然,在这个基础之上,怎样实现更加精准的识别,就取决于底层的很多算法和数据处理手段了。如果想做到工业级应用,针对大规模通用物品的识别,算法的精度和效率等很多方面都是非常具有挑战的。 这次Facebook推出的产品,(我推测)在很大程度上可能使用了自己的类似“Genome”的数据库,然后利用机器学习技术习得图片中的物品与其可能的关系。” 随后,雷锋网(搜索“雷锋网”公众号关注)将这张图片(来源于雷锋网对电影的手动截图,都是第一次,没有标注相关标签上传到 Facebook账号和百度图片平台上的)传到百度图片的检测库,暂时给出的“暂无猜词”,只是给出了相似图片推荐。 而当雷锋网把这张图片上传到搜狗图片的检测库,显示的是“婚礼,女孩”,然后给出了相似图片推荐, 虽然不一定能说明决定性的问题,但从这两个国内国内平台对图片的小测试看,要说出在哪个场景,有什么物体和人一定关系的语句,就目前的图片识别技术还是挺有难度的。 国内能不能来一发 图普科技的海洋告诉雷锋网,目前这个难度蛮大的。 主要是准确率方面。对于单一标签的图片(仅识别人物或者仅识别物体)可以把识别准确率训练得很高,对于这种组合起来的,很难保证识别准确的。 我们自己就有个通用物体识别的接口,可以识别超过两万种物体。但是你会发现我们识别出来以后一般都会按照相关度给几个建议的。相关度越高机器越确定。 我们本身也有场景识别和人物类别识别,单一的接口识别准确率都很高。组合起来就可以进行简单语义分析了,比如在教室里有三个年轻女人……但是再加上物体,加上动作去分析那个人在干嘛,这个挺难的。比如超市前站着一个老年人在吃面包,这个目前很难描述出来啊。我也感兴趣脸书是怎样做的,到了什么程度…… 对于Facebook宣称的可以对特定种类物体目前做到较高的识别率,商汤科技的杨帆则告诉雷锋网,如果除掉voiceover这个向苹果“借用”的功能,Facebook这次黑科技的核心只是对没有任何标签的图片里物体进行识别 那这是属于一般性物体检测,主要依靠高维信息特征识别,国际权威竞赛Imagenet中有几项分竞赛就是比这个,但Facebook这项黑科技那么多人关注,可综合识别率并不是很高,但可能某些类可以做的比较高而已。 那么说在国内也能实现? (理论上可以)但不付出时间,没有那么简单。 对于这一点,Facebook也没有跟我们装逼,Facebook自己也承认“为了保证可靠,Facebook还是花了10个月的时间,经过反复测试,才上线了自动可替换文本功能。目前,Facebook的识别引擎能保证至少80%的准确率。” 意义远不止于盲人 按上面的逻辑,如果国内公司想做的话,同样花上个10个月再加上深度学习的助力,应该也能做成,毕竟大家都是有点底子的。比如悄悄一查,你会发现百度图片,搜狗图片都有类似的图片识别的功能,一些非搜索引擎公司的第三方团队也有类似的图片识别功能,包括sensetime,image++,美图,腾讯优图等。 但有个问题, 这项技术的意义远不在于帮盲人看见图片。 一个很简单的逻辑,我们身边的盲人很少有会用手机上网的,会用手机上微信的就更少了,Facebook这次用帮忙人看见点来宣传黑科技,只是让读者一目了然地感受到这个技术牛掰的精髓,若放到实际应用中,搜索引擎用它来识别小黄图的上传,社交网站用它来识别罪犯的踪迹,好友的生活足迹,进一步去推断出一些蛛丝马迹的东西,比帮盲人“看见”的作用要更广泛和厉害。 (编辑:应用网_丽江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |