亲测:让盲人“看见”图片我们离这项黑科技有多远
说起来很简单,那它实现起来有多难? 曾在阿里负责图像识别和搜索产品的赵京雷,现readface创始人表示: “从视觉识别的角度,深度学习出现以后,它的难点主要在大规模可用训练数据和算法上。 从数据层面上来讲,要“教会”计算机去识别、描述一个图片的内容,一方面要识别图片中出现了什么样的物品,另一方面要描述这些物品中的关联。 比如对于‘一个人坐在湖边钓鱼’这样的图片,要描述出来,最基本的要识别出:人、湖和钓鱼竿;识别出物品之后还要能够确定三者之间的关系。 世界上形形色色的物品种类繁多,构建可靠的标注数据集,使得针对每类物品都有足够的标注样本,去指导学习算法习得物品种类概念,本身工作量巨大。而同类的物品之间,又存在不同可能的关系。要对这些可能的关系,构建足够的样本数据,工作量会更大。 在计算机视觉的学术界,(我记得)斯坦福前些年推出“ImageNet”,人工对百万图片标注里面出现的物品种类,ImageNet在过去几年推动了对照片中通用物品识别技术的发展。而为了进一步确定不同物品的关系,斯坦福去年推出新的数据集“Visual Genome ”,致力于在ImageNet的基础上,刻画出物品的关系。Genome数据集针对一副图片,把结构化的图像概念和语言联系起来。 (编辑:应用网_丽江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |