商汤科技专栏
论文:DeepFashion:Powering Robust Clothes Recognition and Retrieval With Rich Annotations
论文作者:Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang
The Chinese University of Hong Kong(香港中文大学),Shenzhen Institutes of Advanced Technology, CAS, China(中国科学院深圳先进技术研究院)SenseTime Group Limited(商汤科技)
本文作者:邱石
CVPR:IEEE Conference on Computer Vision and Pattern Recognition,即 IEEE 国际计算机视觉与模式识别会议。该会议是计算机视觉和模式识别领域的顶级会议,在中国计算机学会推荐国际学术会议的排名中,CVPR 为人工智能领域的 A 类会议。
商汤科技在 CVPR 2016 上提交多篇论文,商汤科技的技术专家将在机器之心发布系列文章,对论文进行解读。本文为此系列文章的第四篇,点击 「CVPR 2016|商汤科技论文解析:人脸检测中级联卷积神经网络的联合训练」,「CVPR 2016|商汤科技论文解析:行为识别与定位」「CVPR 2016 | 商汤科技论文解析:物体分割」查看前三篇论文解析。
问题背景
此篇论文研究的问题非常贴近日常生活----服装的识别与搜索。照片中出现了一件衣服,怎样自动给它加标签,是衬衫、T 恤、还是连衣裙,是长袖还是短袖,印花还是素色?怎样从数据库中找到和这件衣服相同/类似的款式?DeepID(深度学习在人脸识别应用上的两个突破之一,通过大规模人脸分类任务训练神经网络,在网络的隐藏层学到了富含人脸身份属性的特征,这样学得的人脸特征表示为 DeepID)告诉了我们一个人长的什么样,所以我们还想知道这个人穿的是什么。
但服装这个细分类的识别难度很高:一是衣物易变形,衣服本身是柔性很大的物体,人摆出千奇百怪的姿势时,同一件衣服的样子会非常不同;二是在不同条件下拍出的衣服图片差距也非常大,比如模特的摆拍照和消费者的自拍照差别就很明显;此外,衣服的设计包含了大量细节特征,比如领型、版型、衣长、装饰等等,想要算法区分出它们难度很大。
这三方面的难度也正是我们文章的出发点:
1)用带有成百上千的细节标签的图片来训练模型,使其学到能够区分这些细节属性的特征;
2)使用同一件服装多个拍摄者提供的图片作训练,增加模型对此的鲁棒性;
3)对服装的姿态进行估计,在若干关键点处提取特征,以抵消严重形变带来的影响。直观上,尽管衣服的形态可能千变万化,但只要在领口、袖口、下摆等一些固定区域去比较,其特征仍然非常稳定。
以上的想法必须要有足够的训练数据做支撑,因此我们收集和整理了大量的数据(主要渠道为搜索引擎和电商网站)。在获取图片的同时,我们从电商网站和搜索引擎上获取了大量文本信息,甚至很多是结构化的文本信息,从中我们提取了很多的上述关于服装的细节属性;同时,通过电商网站,我们获得了许多用户上传的公开图片,这些训练数据满足了「拍摄条件不同」这一条件;最后,我们在图片上标注了服装关键点位置,使得我们的模型可以学习服装的姿态。如此,我们构建了信息非常丰富的服装数据库,它同时具有细节属性、关键点、同一件服装的不同拍摄版本三种标注(如下图所示)。这种情况下,我们就可以同时使用三方面信息进行联合训练。
具体来说,我们利用以下的网络模型来融合这三方面的信息:模块1对服装的关键点位置作出估计;模块 2 在模块 1 预测的每个关键点位置处进行 local pooling(可以类比为fast-rcnn 的 ROI pooling),提取局部特征,并与全局特征相结合;模块 3 在模块 2 的特征上接入分类、属性、triplet 等各种 loss function。整个网络模型以传统的 BP 方式进行优化。从网络结构来看,模块 1 与模块 2 使得我们的算法可以利用基于特征点的局部特征,更有针对性地提取特征;加之多任务学习对各种信息的结合,使服装识别、搜索的结果更准确。
下图给出了一些服装搜索的样例,每行最左边是输入图片,其后为被检索到的匹配度最高的图片。图片中的服装存在拍摄姿态、成像质量、背景等多种变化,我们的方法仍然能得到相当不错的结果。
在现实生活中,服装识别和搜索的算法在实际中有很多应用价值。比如在电商领域颇为引人关注的「拍照购物」「视频购物」,比如对服饰的推荐、甚至对服饰搭配的推荐,以及在监控视频中辅助对行人进行分析等场景。可以预见到的是,很多时候只「看脸」是远远不够的,这时侯「看衣服」一定是一个最好的选择。
个人简介:
邱石,毕业于清华大学电子系,博士毕业于香港中文大学多媒体实验室,曾在ICCV、CVPR等国际计算机视觉顶级学术会议上发表过多篇论文,现任SenseTime主任级研究科学家,主要负责图像搜索技术研发工作。2014 年,邱石所在的DeepID-Net 团队首次参加ImageNet 大规模物体检测任务比赛中,并以 40.7% 的优异战绩位居第二名,仅次于谷歌。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn
点击「阅读原文」,浏览此论文↓↓↓
我来说两句排行榜