亲测：让盲人“看见”图片我们离这项黑科技有多远

发布时间：2016-04-18 11:55:49 所属栏目：评测来源：雷锋网

导读：上周Facebook告诉我们它们正在开发的功能已经能让盲人”看到“图片的时候，晒图狂们突然发现，哇，原来图像识别已经离我们的生活如此之近，以至于盲人伯伯们也能用听的方式

从机器学习的角度出发，这些人工标注的数据奠定了对图片进行文本描述的基础。当然，在这个基础之上，怎样实现更加精准的识别，就取决于底层的很多算法和数据处理手段了。如果想做到工业级应用，针对大规模通用物品的识别，算法的精度和效率等很多方面都是非常具有挑战的。

这次Facebook推出的产品，（我推测）在很大程度上可能使用了自己的类似“Genome”的数据库，然后利用机器学习技术习得图片中的物品与其可能的关系。”

随后，雷锋网(搜索“雷锋网”公众号关注)将这张图片（来源于雷锋网对电影的手动截图，都是第一次，没有标注相关标签上传到 Facebook账号和百度图片平台上的）传到百度图片的检测库，暂时给出的“暂无猜词”，只是给出了相似图片推荐。

Facebook 识别图片盲人识图图像识别技术

而当雷锋网把这张图片上传到搜狗图片的检测库，显示的是“婚礼，女孩”，然后给出了相似图片推荐，

Facebook 识别图片盲人识图图像识别技术

虽然不一定能说明决定性的问题，但从这两个国内国内平台对图片的小测试看，要说出在哪个场景，有什么物体和人一定关系的语句，就目前的图片识别技术还是挺有难度的。

国内能不能来一发

图普科技的海洋告诉雷锋网，目前这个难度蛮大的。

主要是准确率方面。对于单一标签的图片（仅识别人物或者仅识别物体）可以把识别准确率训练得很高，对于这种组合起来的，很难保证识别准确的。

我们自己就有个通用物体识别的接口，可以识别超过两万种物体。但是你会发现我们识别出来以后一般都会按照相关度给几个建议的。相关度越高机器越确定。

我们本身也有场景识别和人物类别识别，单一的接口识别准确率都很高。组合起来就可以进行简单语义分析了，比如在教室里有三个年轻女人……但是再加上物体，加上动作去分析那个人在干嘛，这个挺难的。比如超市前站着一个老年人在吃面包，这个目前很难描述出来啊。我也感兴趣脸书是怎样做的，到了什么程度……

对于Facebook宣称的可以对特定种类物体目前做到较高的识别率，商汤科技的杨帆则告诉雷锋网，如果除掉voiceover这个向苹果“借用”的功能，Facebook这次黑科技的核心只是对没有任何标签的图片里物体进行识别

那这是属于一般性物体检测，主要依靠高维信息特征识别，国际权威竞赛Imagenet中有几项分竞赛就是比这个，但Facebook这项黑科技那么多人关注，可综合识别率并不是很高，但可能某些类可以做的比较高而已。

那么说在国内也能实现？

（理论上可以）但不付出时间，没有那么简单。

对于这一点，Facebook也没有跟我们装逼，Facebook自己也承认“为了保证可靠，Facebook还是花了10个月的时间，经过反复测试，才上线了自动可替换文本功能。目前，Facebook的识别引擎能保证至少80%的准确率。”

意义远不止于盲人

按上面的逻辑，如果国内公司想做的话，同样花上个10个月再加上深度学习的助力，应该也能做成，毕竟大家都是有点底子的。比如悄悄一查，你会发现百度图片，搜狗图片都有类似的图片识别的功能，一些非搜索引擎公司的第三方团队也有类似的图片识别功能，包括sensetime，image＋＋，美图，腾讯优图等。

但有个问题，这项技术的意义远不在于帮盲人看见图片。

一个很简单的逻辑，我们身边的盲人很少有会用手机上网的，会用手机上微信的就更少了，Facebook这次用帮忙人看见点来宣传黑科技，只是让读者一目了然地感受到这个技术牛掰的精髓，若放到实际应用中，搜索引擎用它来识别小黄图的上传，社交网站用它来识别罪犯的踪迹，好友的生活足迹，进一步去推断出一些蛛丝马迹的东西，比帮盲人“看见”的作用要更广泛和厉害。

（编辑：应用网_丽江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页