CVPR2016 | 商汤科技论文解析:服饰识别搜索技术-搜狐

　　商汤科技专栏

　　论文：DeepFashion:Powering Robust Clothes Recognition and Retrieval With Rich Annotations

　　论文作者：Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang

　　The Chinese University of Hong Kong（香港中文大学），Shenzhen Institutes of Advanced Technology, CAS, China（中国科学院深圳先进技术研究院）SenseTime Group Limited（商汤科技）

　　本文作者：邱石

　　CVPR：IEEE Conference on Computer Vision and Pattern Recognition，即 IEEE 国际计算机视觉与模式识别会议。该会议是计算机视觉和模式识别领域的顶级会议，在中国计算机学会推荐国际学术会议的排名中，CVPR 为人工智能领域的 A 类会议。

　　商汤科技在 CVPR 2016 上提交多篇论文，商汤科技的技术专家将在机器之心发布系列文章，对论文进行解读。本文为此系列文章的第四篇，点击「CVPR 2016｜商汤科技论文解析：人脸检测中级联卷积神经网络的联合训练」，「CVPR 2016｜商汤科技论文解析：行为识别与定位」「CVPR 2016 | 商汤科技论文解析：物体分割」查看前三篇论文解析。

　　问题背景

　　此篇论文研究的问题非常贴近日常生活----服装的识别与搜索。照片中出现了一件衣服，怎样自动给它加标签，是衬衫、T 恤、还是连衣裙，是长袖还是短袖，印花还是素色？怎样从数据库中找到和这件衣服相同/类似的款式？DeepID（深度学习在人脸识别应用上的两个突破之一，通过大规模人脸分类任务训练神经网络，在网络的隐藏层学到了富含人脸身份属性的特征，这样学得的人脸特征表示为 DeepID）告诉了我们一个人长的什么样，所以我们还想知道这个人穿的是什么。

　　但服装这个细分类的识别难度很高：一是衣物易变形，衣服本身是柔性很大的物体，人摆出千奇百怪的姿势时，同一件衣服的样子会非常不同；二是在不同条件下拍出的衣服图片差距也非常大，比如模特的摆拍照和消费者的自拍照差别就很明显；此外，衣服的设计包含了大量细节特征，比如领型、版型、衣长、装饰等等，想要算法区分出它们难度很大。

　　这三方面的难度也正是我们文章的出发点：

　　1）用带有成百上千的细节标签的图片来训练模型，使其学到能够区分这些细节属性的特征；

　　2）使用同一件服装多个拍摄者提供的图片作训练，增加模型对此的鲁棒性；

　　3）对服装的姿态进行估计，在若干关键点处提取特征，以抵消严重形变带来的影响。直观上，尽管衣服的形态可能千变万化，但只要在领口、袖口、下摆等一些固定区域去比较，其特征仍然非常稳定。

　　以上的想法必须要有足够的训练数据做支撑，因此我们收集和整理了大量的数据（主要渠道为搜索引擎和电商网站）。在获取图片的同时，我们从电商网站和搜索引擎上获取了大量文本信息，甚至很多是结构化的文本信息，从中我们提取了很多的上述关于服装的细节属性；同时，通过电商网站，我们获得了许多用户上传的公开图片，这些训练数据满足了「拍摄条件不同」这一条件；最后，我们在图片上标注了服装关键点位置，使得我们的模型可以学习服装的姿态。如此，我们构建了信息非常丰富的服装数据库，它同时具有细节属性、关键点、同一件服装的不同拍摄版本三种标注（如下图所示）。这种情况下，我们就可以同时使用三方面信息进行联合训练。

　　具体来说，我们利用以下的网络模型来融合这三方面的信息：模块1对服装的关键点位置作出估计；模块 2 在模块 1 预测的每个关键点位置处进行 local pooling（可以类比为fast-rcnn 的 ROI pooling），提取局部特征，并与全局特征相结合；模块 3 在模块 2 的特征上接入分类、属性、triplet 等各种 loss function。整个网络模型以传统的 BP 方式进行优化。从网络结构来看，模块 1 与模块 2 使得我们的算法可以利用基于特征点的局部特征，更有针对性地提取特征；加之多任务学习对各种信息的结合，使服装识别、搜索的结果更准确。

　　下图给出了一些服装搜索的样例，每行最左边是输入图片，其后为被检索到的匹配度最高的图片。图片中的服装存在拍摄姿态、成像质量、背景等多种变化，我们的方法仍然能得到相当不错的结果。

　　在现实生活中，服装识别和搜索的算法在实际中有很多应用价值。比如在电商领域颇为引人关注的「拍照购物」「视频购物」，比如对服饰的推荐、甚至对服饰搭配的推荐，以及在监控视频中辅助对行人进行分析等场景。可以预见到的是，很多时候只「看脸」是远远不够的，这时侯「看衣服」一定是一个最好的选择。

　　个人简介：

　　邱石，毕业于清华大学电子系，博士毕业于香港中文大学多媒体实验室，曾在ICCV、CVPR等国际计算机视觉顶级学术会议上发表过多篇论文，现任SenseTime主任级研究科学家，主要负责图像搜索技术研发工作。2014 年，邱石所在的DeepID-Net 团队首次参加ImageNet 大规模物体检测任务比赛中，并以 40.7% 的优异战绩位居第二名，仅次于谷歌。

　　?------------------------------------------------

　　加入机器之心（全职记者/实习生）：hr@almosthuman.cn

　　投稿或寻求报道：editor@almosthuman.cn

　　广告&商务合作：bd@almosthuman.cn

　　点击「阅读原文」，浏览此论文↓↓↓