全球人工智能:专注为AI开发者服务
内容来源:arxiv 编译:Steven
摘要:计算机视觉和机器学习的研究人员对图像语义分割越来越感兴趣。越来越多的应用如无人驾驶、室内导航甚至虚拟现实或增强现实等都需要准确的、有效的分割机制。这种需求与深度学习方法在计算机视觉,包括语义分割或场景理解等有关的应用领域的兴起相一致。该论文是一篇关于深度学习在不同领域中进行语义分割的综述。首先,我们描述了该领域的基本术语及必须的背景概念。接下来,我们公布了主要的数据集和我们研究的目标,以帮助研究人员决定最适合他们需求和目标是什么。然后,对现有的方法进行了评论,强调了这些方法对该领域的贡献及它们的重要性。最后,我们给出了描述方法对被评估的数据集的量化结果,并对结果进行了讨论。更进一步,我们指出了一系列前景展望,并给出了当前利用深度学习进行语义分割的发展现状。
目前,应用于二维图像,视频,甚至三维数据的语义分割是计算机视觉领域的关键问题之一。语义分割是完成场景理解任务的必要步骤。场景理解是计算机视觉的核心问题,越来越多的应用(如从图像中推理)证明了这一点。这些应用包括自动驾驶,人机交互,计算摄影术,图像搜索引擎和增强现实等等,在过去,这样的任务已经利用不同的传统方法进行了解决。尽管这些方法已经得到了普及,但是深度学习革命的带来改变了这一切——许多计算机视觉问题正在使用深度学习架构(通常是使用卷积神经网络CNN)来解决。CNN在精度上、有效性上都远远超过其它方法。然而,深度学习远不及其它旧的计算机视觉方法和机器学习方法成熟。正因为如此,这里需要统一的工作和最新的综述。该领域不断的变化使其发展的难度很大,由于很大量的文献正在产生,要紧跟深度学习革命的步伐也是一项相当耗时的任务。这也使得要跟踪语义分割的发展现状,解释前人所做的工作,剔除低劣的工作,验证相关结果变得困难。
图1:对象识别或场景理解的演变过程:分类,检测或定位,语义分割和实例分割
据我们所知,这是第一篇明确地重点关注深度学习用于语义分割的综述。Zhu et al. 和Thoma等人也做出了不同的语义分割调查,这些调查都很好地总结并分类了现有方法,并讨论了数据集和度量指标,以及对未来的研究方向提供了思路。然而,他们没能使用一些最新的数据集,他们也没有分析框架,都没有提供深度学习技术的细节。因此,我们认为我们的工作是新颖的、有帮助的,这些工作能成为研究界的重要贡献。
我们的主要贡献如下:
1.我们对现有数据集进行了广泛调查,这些数据集可能对用深度学习技术实现分割有帮助;
2.对语义分割中最重要的深度学习方法进行了有深度、有条理的综述;
3.对性能进行了彻底评估,包括准确率、执行时间和内存占用等量化指标;
4.对先前工作进行了讨论,提供了一系列未来工作的可能方向,以及总结了该领域的现状。
未来的研究方向
基于上述的研究综述,我们列出了未来一系列有趣的、值得研究的方向。
1.三维数据集:充分利用三维数据集的各种方法正在兴起,但是即使有新的方法、技术不断涌现,数据仍然很匮发。三维语义分割强烈依赖于大规模数据集的出现,而这些三维数据集比更低维数据集更难以创建。尽管目前已经做了一些很有前瞻性的工作,但是,这里仍然有空间去获得更多、更好、各种各样的数据。现实世界中的三维数据是很重要的,目前大多数存在的作品都是利用的合成数据。2018年的ILSVRC竞赛将以三维数据为特色,这也说明了三维数据是很重要的。
2.序列数据集:大规模数据的缺乏阻碍了三维分割的进展,同样也影响了视频的分割。目前,仅存在很少的数据集是基于序列的,它们对开发充分利用时间信息的方法很有帮助。不管是二维数据,还是三维数据,都涌现了更多高质量的数据,这无疑将打开新的研究方向。
3.利用图形卷积网络(GCN)进行点云分割:像我们已经提到的那样,处理像点云等三维数据还是一个未解决的挑战。由于这些数据的无序和非结构化本质,传统的架构像CNN都不能使用,除非使用某些离散化的过程来结构化这些数据。一个有前途的研究方向是将点云视为图形,然后再运用CNN,这能够保留在每个维度上的空间信息,而不需要量化数据。
4.语境知识:尽管全卷积网络(FCNs)是语义分割的一种综合方法,但是FCNs缺少了一些有助于提高网络精度的必要特征,如语境建模。条件随机场模型(CRFs)提供了端对端的解决方案,这对于提升现实生活中数据结果似乎很有前景。多尺度和特征融合方法也已经取得了显著的进步。一般而言,这些工作都向实现我们终极目标迈出了重要的步伐,但是这里仍然还有许多问题有待研究。
5.实时分割:在许多应用中,精度是极其重要的。同时,这些能够处理常见相机的帧速率(每秒至少25帧)的实现也是至关重要的。然而,目前大多数方法远不能应对帧速率的变化,例如FCN-8需要大约100 ms来处理低分辨率PASCAL VOC图像,而CRFasRNN需要超过500 ms。因此,在未来几年我们期待一系列更侧重于实时限制的优秀成果出现。未来的工作将不得不权衡精度与运行时间之间的关系。
6.内存:某些平台受内存的限制。分割网络通常需要大量的内存来执行推理和训练。为了使这些分割网络适用于一些架构,网络必须被简化。尽管这可以通过降低它们的复杂性(通常会降低精度)来轻易实现,但是这也有其它方法可以实现。剪枝(pruning)是简化网络的一个很有前途的研究方向,能够在保持原网络架构知识的同时保持轻量级,因此可以保持精度。
7.序列上的时间一致性:一些方法已经能够解决视频或序列分割问题,但是,它们都没能利用时间线索来提高精度和效率。然而,它们都没能明确地解决一致性问题。分割系统处理视频流是很重要的,不仅能够逐帧产生好的结果,而且能够使它们保持好的一致性。
8.多视图集成:在最近提出的分割作品中,多视图的使用主要受限于RGB-D相机,这些工作特别关注于单对象分割。
总结:
据我们所知,这是文献中第一篇重点介绍将深度学习用于语义分割的综述。与其它方法相比较,这篇论文致力于深度学习这个越来越流行的领域,覆盖了最先进的,最近的工作。我们明确表达了语义分割问题,并为读者提供了用深度学习解决此类问题所需的背景知识。我们覆盖了当前文献中所用的数据集和方法,提供了一份关于28个数据集和27种方法的综合调查。我们仔细描述了这些数据集,说明了它们的用途和特点,以便于研究人员能够较轻松地选择最适合他们的数据集。我们从两个角度进行了调查:贡献和原始结果,例如精度。我们也提供了数据集和方法的比较总结,并根据不同准则进行了分类。最后,我们讨论了结果,并提供了有用的见解。总之,语义分割已经取得了很多进展,但是仍然面临着很多的问题。此外,深度学习已被证明是一个极其强大的工具,能够处理该类问题。我们期望在未来的几年里能产生一系列的创新和研究成果。
热门文章推荐
爆闻|107篇中国学者论文涉嫌造假遭撤稿,中国科协约谈Springer Nature总裁(附完整名单
论文|谷歌推出最新“手机版”视觉应用的卷积神经网络—MobileNets
我来说两句排行榜