篇论文强势进击商汤科技的研究员都在做哪些研究
6 月,计算机视觉领域重要会议之一 CVPR 2018 正在美国盐湖城火热举办,目前会议日程已接近尾声。近年来,随着计算机视觉算法从实验室走向商用,这朵「高岭之花」逐渐走进「寻常百姓家」,我们毫不意外地看到越来越多的商业公司出现在学术会议上。国外,我们能看到谷歌、Facebook 的大批论文;国内,我们能看到腾讯、阿里巴巴、商汤等巨头与创业公司在论文接收量与挑战赛成绩上不输于国外巨头,其中商汤科技的论文接收数量达到创纪录的 44 篇。
值此大会期间,机器之心走进商汤,尝试从 44 篇接收论文中找出商汤近期的主攻方向,分析公司为 3-5 年乃至更长期的发展进行了哪些战略技术储备,也观照 CVPR 会议,乃至视觉领域的关注点迁移趋势。同时我们采访了三位来自商汤入选本届 CVPR oral / spotlight 环节的论文作者,与他们谈了自己的研究,如何进行开发,以及对 CVPR 乃至 CVPR 之外整个视觉领域研究现状的看法。
自 2012 年以来,经过视觉领域诸多学者们的不懈努力,「物体识别」、「人脸检测」等传统任务的性能在一定程度上达到饱和,因此纵观本届 979 篇入选论文,我们会看到研究者们纷纷将目光转向近年来的一些新兴问题。在今年,商汤的研究者们就大规模分布式训练、人体理解与行人再识别、三维场景理解与分析、底层视觉算法、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等多个问题展示了自己的最新工作。
而纵观 CVPR,已经有一批从实际应用场景出发的、有针对性的新问题受到了广泛关注,一些数据模态和模型结构设计已经形成了声势浩大的热门子领域。
例如,CVPR 2018 总共有超过 30 篇论文探讨如何解决行人再识别问题,其中 7 篇来自商汤。行人识别问题的难度某种程度上胜于人脸识别这个视觉领域的传统研究热点:大多数情况下,行人属于非合作状态,视角比人脸更多样;同时因为人体关节的活动范围远大于面部肌肉的活动范围,即使视角相同,不同动作的同一行人差异也会非常大。行人再识别无疑是继人脸识别之后,另一个有着广阔应用场景的研究课题,在智慧城市中,其可以应用于多摄像头联动的行人追踪;在智能零售行业里,也可以用于调研用户的行为轨迹,为分析顾客购物需求与商品关注度提供宝贵的数据。
本届行人再识别领域唯一一篇 oral 论文就来自商汤,第一作者 Dapeng Chen 近三年都在从事行人再识别中相似性测度部分的研究,在后文的采访中,他也提到,自己的研究逐渐从非深度学习方法转向深度学习方法,从小数据集延伸到大规模数据集。
除了行人再识别之外,商汤入选论文中也有 4 篇涉及三维场景理解与分析。在 CVPR 收录的论文中,有高达 83 篇以「3D」为名,涉及三维视觉的工作则超过 90 篇,占据了全体收录论文的近 1/10。
三维视觉研究的再度火热一方面归功于三维传感器的快速发展,另一方面也来自于自动驾驶等三维应用场景快速发展衍生的强烈需求。能够处理无序三维点云数据的新算法不断涌现,三维检测、三维分割等问题的精度与效率均在快速提升中。面向传统的三维视觉问题,如运动恢复结构(Sturcture from Motion)、同步定位与地图构建(SLAM)、基于单目图像的三维结构恢复等问题,研究人员也基于深度学习技术提出众多新颖算法,不断突破原有算法的性能瓶颈。
商汤的 spotlight 论文 Single View Stereo Matching 就关注自动驾驶场景下基于单目图像的深度估计。基于视觉的自动辅助驾驶系统通常使用单目摄像头获取图像,判断当前车辆与周围车辆、行人和障碍物的距离,该论文提出了一种能够大幅度提升单目图像深度估计精度的算法。
此外,商汤科技还有 3 篇文章基于对抗生成网络提出了新颖算法,而 CVPR 共有 81 篇文章使用了对抗生成网络。图像生成是经典的视觉问题,而对抗式方法的引入让研究者得以生成分辨率更高、与真实图像更接近的图像。基于对抗式生成网络的图像生成已经成为数据增强的有效手段之一,数据生成的进步意味着研究者在一定程度上可以摆脱深度学习模型对巨型数据集的需求这一制约条件。对抗性损失函数也可以帮助其他视觉问题(如检测、分割、识别等)增强性能与鲁棒性。
这些与实践紧密结合的工作反映了商汤如何把实践中遇到的问题抽象为研究问题,以及如何利用研究推动自身的商业边界。
而除了自身应用息息相关的相关问题之外,当商业公司趋向成熟,也会以支持基础研究的形式吸引最优秀的研究者来到公司,进行前沿的基础研究也是公司「秀技术肌肉」的好方法。
当前深度神经网络的结构往往对最终结果有着重要影响,神经网络自动设计算法因此在近年引发大量关注。商汤科技本次 CVPR 三篇 oral 论文之一,Practical Block-wise Neural Network Architecture Generation 就致力于解决面向自动设计网络结构的难题。论文第一作者 Zhao Zhong 在采访中特别强调了商汤为研究提供的大量计算资源:这是商业公司相比于实验室在基础研究方面的一个重要优势。
除了从宏观的角度对商汤的全体论文进行解读之外,机器之心向三位来自商汤、主攻不同研究方向的本届 CVPR oral/spotlight 环节入选论文作者提出了 几个问题,呈现一线研究者视角下的 CVPR。
三位研究者分别是:
-
Zhao Zhong:Practical Block-wise Neural Network Architecture Generation 第一作者,自动化网络设计方向
-
Dapeng Chen:Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification 第一作者,行人再识别方向
-
Chao Dong:Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning 第二作者,底层计算机视觉与强化学习方向
能否用一句话概括一下你本次 CVPR 的文章主题,并用一段话简述一下文章内容。
Zhao Zhong(简称 Z):自动设计网络结构的算法框架 BlockQNN。
本次我作为第一作者发表的论文提出了一种基于强化学习的网络结构自动设计算法,通过「网络块」的设计思想,让搜索空间大大降低,并且使设计的网络具有非常强的可迁移性。同时,我们使用了「提前停止」和分布式架构来加速整个网络结构学习过程,达到了百倍于之前算法的速度(32 块 GPU,3 天的训练)。实验表面,其生成的网络结构在 CIFAR 数据集上达到并且超越人类设计的网络结构的精度,并且结构可以迁移到大规模的 ImageNet 数据上,取得优异的分类性能。
Dapeng Chen(简称 D) :引入组一致性约束条件的高精度行人再识别。
行人再识别是新一代智慧城市系统中的重要组件之一。给定一幅行人图像,行人再识别要求跨不同摄像头,对同一行人基于其视觉外观进行准确匹配和识别。现有深度学习算法通常使用过于局部的约束损失函数进行行人特征学习,因而不能精确的学习行人图像之间的视觉相似度。
本次我们的这篇论文针对该问题提出一种新颖的组一致性约束条件,并通过连续条件随机场对该约束条件进行建模。将该随机场加入深度神经网络,实现了该深度模型的端对端训练。实验结果表明提出的一致性条件在训练与测试中均能够大幅度提升最终视觉特征的鲁棒性与判别性,实现高精度的行人再识别。该论文是本次 CVPR 大会在行人再识别方向唯一的一篇 oral 论文。
Chao Dong(简称 C) :使用多个小型 CNN 专家以协作方式解决困难的真实图像复原任务。
在底层视觉算法领域,卷积神经网络(CNN)近年取得了巨大的进展,在诸如去模糊、去噪、去 JPEG 失真、超分辨率等图像复原任务上已经达到了优异的性能。但是现实图像中的失真往往更加复杂,例如,经过多个图像降质过程后,图像可能包含模糊、噪声、JPEG 压缩的混合失真。这类混合失真图像对目前的图像复原算法仍然充满挑战性。
近期的一些图像复原工作(如 VDSR、DnCNN 等)证实了一个 CNN 网络可以处理多种失真类型或不同失真程度的降质图像,这为解决混合失真问题提供了新的思路。但是,这类算法均选用了复杂度较高的网络模型,带来了较大的计算开销。另外,这些算法的网络均使用同一结构处理所有图像,未考虑一些降质程度较低的图像可以使用更小的网络进行复原。
针对现有图像复原 CNN 算法模型复杂,计算复杂度高的问题,这篇论文我提出的 RL-Restore 算法弥补了这些不足,以更加高效灵活的方式解决了复杂的图像复原问题。
你的研究方向是什么?本次 CVPR 投稿论文在你的研究方向上处于什么位置?
_
_
Z: 我的研究方向是自动化网络设计。
这篇文章在投稿时是性能先进的自动网络结构设计算法。但过了半年多,后续又出现了很多新的优秀工作,我们本身也在继续迭代研究新的方法。
D: 我的研究方向集中在视频监控中的行人再识别问题。
近三年来我一直从事行人再识别问题中相似性测度学习的研究,之前的研究以非深度学习的方法对测度学习的形式和空间约束等进行研究(发表论文收录于 CVPR'15、CVPR'16、IJCV'17),主要应用于小规模训练数据。这次的投稿是将深度神经网络与传统概率图模型相结合,以样本之间的相似性为对象构建条件随机场,约束行人特征的学习过程。
C: 我的研究方向是底层计算机视觉,包括图像和视频等画质增强,超分率,去噪等。
本次投稿论文对我来讲是非常重要的一篇工作,我们首次利用增强学习的方法解决图像处理问题,是用一种全新的思路解决,更加贴近真实场景的实际问题,也是一次大胆的尝试,我们希望它能够激发更多人的灵感,带来更多优秀的成果。
如果让你对今年 CVPR 的近一千篇论文进行分类,你会以什么为标准进行分类?分成哪些类别?
Z: 我会按照题目和方法的创新度来分类:1)提出新问题用老方法解;2)在老问题上提出新方法;3)在别人的已有方法基础上做修改;4)发现新问题提出新方法解决。
D :根据不同方法解决问题的数据模态,我将方法进行了分类,这是因为不同数据类型所包含的信息有各自的特点,因此处理的方式很有很大的不同。不同数据的模态包括:图像数据、视频数据、点云数据、文字数据以及音频数据
C :我可以简单的把 CVPR 论文分成三类,一类是理论性较强的论证性论文,一类是偏重应用但关注的仍是传统问题或数据集的论文,最后一类是提出并尝试解决一些真实问题的论文,这些论文在今年越来越多,人们开始关注那些真实的场景,比如去噪方面已经不再局限在高斯噪声,而是关注拍照应用场景中的实际噪声,并有新的数据集出现。
在你的研究中,除了深度学习之外,还引入了哪些机器学习/数学/物理学概念?为什么考虑结合深度学习与这个特定概念?
Z: 我还引入了强化学习,其能够自动设计网络结构而没有
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/geek/post/%E4%BA%92%E8%81%94%E7%BD%91/%E7%AF%87%E8%AE%BA%E6%96%87%E5%BC%BA%E5%8A%BF%E8%BF%9B%E5%87%BB%E5%95%86%E6%B1%A4%E7%A7%91%E6%8A%80%E7%9A%84%E7%A0%94%E7%A9%B6%E5%91%98%E9%83%BD%E5%9C%A8%E5%81%9A%E5%93%AA%E4%BA%9B%E7%A0%94%E7%A9%B6/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com