第一视角解读 ICLR 2017

  

  罗若天

  TTIC博士生

  研究方向为计算机视觉

感谢老板,感谢 tti,让我无 paper 裸去 ICLR,还能在法国顺便玩一玩。当然开会最重要的是学习,为了不要忘记,就写一点小 summary。大多数 conference poster 都过了一遍,但是workshop完全无视了。

周一上午

C1: Making Neural Programming Architectures Generalize via Recursion

之前组会讲过,但是没认真听。听作者讲,一下就明白了。简单地说就是训练数据里说了哪里要递归。递归的好处是提供了 proof of generalization,也就是说如果你能在边界情况完美完成的话,所有的 task 就都能完成(有点像动态规划的证明那种感觉)。所以我认为效果好的原因很简单,就是所有边界情况被 memorize 了。

C2: Learning Graphical State Transitions

一个本科生独立的工作,还入选了 oral,台风也很好。大意是希望能够动态生成一个 graph,然后方法是把生成 graph 的过程看成一个序列问题,用 rnn 训练。

C4: Normalizing the Normalizers: Comparing and Extending Network Normalization Schemes

Div-norm,好像就是 local 的 instance normalization,另外加了一点 smooth 什么的。

C5: Neural Program Lattices

这篇文章也是 neural program 的,区别在于这篇文章是半监督的。训练数据包含一些有程序语句的,和只有 input output 的,用了 ctc 作为 loss。这里的半监督形式在于提供了部分程序。我在想,如果将先验知识 integrate 进去会不会有效果。比如说我告诉你可以做递归,但是我训练数据只有 input output,他会不会自己试出来哪里需要递归。

C6: Diet Networks: Thin Parameters for Fat Genomics

计算生物,n<p 的问题,没仔细看。

C7: Unsupervised Cross-Domain Image Generation

任务和 cyclegan 有点像,给一个人脸生成涂鸦,且没有 paired data。但是方法很不一样,个人觉得 cyclegan 更美丽一点,更简单易懂一点。但是 cyclegan 有一个问题是默认转换是无损的(所以才有 cycle consistency),这篇文章似乎不需要这种假设。

C8: Towards Principled Methods for Training Generative Adversarial Networks

WGAN前身。

C10: Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer

Gustav 说他已经有类似的想法,然后很显然已被 scooped。这篇文章名字有三个 attention,非常吸引人眼球。研究的是 teacher student network(大概就是训练一个浅一点来模仿一个深网络)。原来的方法有 distillation,就是说希望输出的 softmax 要类似。这篇文章说,我不仅要 softmax 类似,我要当中的 attention map 也要类似。attention map 他这里是用 gradient 来定义的(代码有公开)。

C14: On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

大概意思是大的 batch 容易训练到 sharp minima,也就 generalize 不好。小的 batch 容易训练到 flat minima,具体的我不懂。

C16: Nonparametric Neural Networks

在训练过程中可以动态增加网络节点。

C17: Learning to Generate Samples from Noise through Infusion Training

好像是基于 denoising autoencoder 的 idea,就是从空间的点一步步逼近 manifold。但是为了更快,另训练了一个 denoising,每次训练数据是从原来 denoising 过程中比较远的两个 step 获得的;也就是说新的 denoising 步子更大。没仔细看 paper,似乎是这样。

C21: Snapshot Ensembles: Train 1, Get M for Free

交大学姐的 paper,很简单有效的方法。就是周期地改变 learning rate,每次一个周期结束,存一个 snapshot,然后最后一起拿出来做 ensemble。

C25: Multi-Agent Cooperation and the Emergence of (Natural) Language

一篇 oral;很有意思的 motivation。比如说你学一门语言的时候,你可以从单词句法开始学,也可以从实用性的角度学:就算说不出完整的句子,但是能明白的表达意思就行。这篇文章就是说通过一个博弈协作的问题使得两个 agent 能自己发展出语言。

C26: Efficient Vector Representation for Documents through Corruption

很 simple 的 idea,但是看起来还挺有用的。这篇文章学出的 embedding 的结果有更好的性质,比如 stop word 的 embedding norm 更小。

C30: Reinforcement Learning with Unsupervised Auxiliary Tasks

UNREAL,我已经写过了。

周一下午

C4: DSD: Dense-Sparse-Dense Training for Deep Neural Networks

Idea 是,先训练一个网络(dense),然后把绝对值小于某个阈值的所有 weight 初始化为0(sparse),再继续训练(dense)。这样能够得到更好的结果。这样 dsd 可以做多次,并能多次提高。然而据说这个工作没人能复现了。

C9: What does it take to generate natural textures?

Texture generation,这篇文章就是说,我们不需要 vgg 来生成 texture,我们用一个 random 的一层网络加一个 relu 就可以了。看起来结果不错。有意思的是,一定得有非线性层,没有不行,而且用 sigmoid 等都没有 relu 要好。

C16: Adversarial machine learning at scale

Imagenet 体量的 adversarial training。adversarial training 是希望网络对 adversarial example 鲁棒。方法 adversarial example 混入训练。

具体生成 adversarial example 的方法有,1. 降低图片的真实label的概率 2. 降低图片现在预测的 label 的概率 3. 提高图片现在预测最不可能是的类别的概率。第一种方法有个 label leaking 的问题,导致的结果是最后训练出来的网络对 adversarial 比对真实图片更 confident。最后结果是方法 3(文中叫 step 1.1.)。

C30: Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic

Oral,但是我不懂。

C33: Third Person Imitation Learning

似乎 domain adversarial 很常用的感觉。这篇 paper 的 note 我英文博客里有:

Reading notes: Third person imitation learning

http://ruotianluo.github.io/2016/11/20/third-person/

周二上午

C6: Mode Regularized Generative Adversarial Networks

  论文作者介绍详见

  https://www.zhihu.com/question/52311422/answer/130508707

但是还有一个问题是,怎么确保 encoder(X) 是和你 sample 的时候的 z 是同一个分布呢?

C7: End-to-end Optimized Image Compression

我还是很喜欢这篇论文的,在组会上讲过。其实就是一个固定 lambda 的 variational autoencoder。虽然数学形式一样,但是 motivation 不一样,包括对 quantization 的近似也很有意思。最后结果也非常的优秀。

C15: Introspection: Accelerating Neural Network Training By Learning Weight Evolution

这篇文章爆炸了。我还没看论文,但是按照作者说的话,我觉得碉堡了。这个本质上也是 meta learning 的问题。他们首先把随着更新,参数更新的曲线画了出来,发现似乎这个变化曲线有迹可循。所以他们就训练了一个网络,网络的输入是某个时间点之前随机选取的 4 个旧参数的值,输出就是新的参数。他们训练了 minist 的两层 conv net,用该任务的参数更新历史训练网络。他们最后将 pretrained 好的这个网络用于更新大网络(googlenet,vgg etc on imagenet),结果都能更好。

这个结论很牛逼啊因为我记得之前一篇 meta-learning 没法很好的在不同网络结构之间 transfer。

C19: A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks

tti 的工作,来自一个本科生。做的 topic 是深度学习中的 safety。根据网络的输出,来区分是因为 misclassified 还是因为 out-of-distribution。

C23: Unrolled Generative Adversarial Networks

大概思想就是防止 G,D 训练出现一个 mode 一个 mode 跳来跳去,所以训练的时候就多考虑一些,把跳来跳去的情况都 run一遍之后,然后综合起来更新。

C33: Improving Policy Gradient by Exploring Under-appreciated Rewards

思想是,如果对一个动作,它的输出概率很低,但是他获得的 reward 很高,则要更用力地提升这个动作的概率。

周二下午

C6: Learning to Perform Physics Experiments via Deep Reinforcement Learning

道理我都懂,但是我没看懂。道理是这样,人的学习不单单是观察,而是来自于环境的交互。这篇文章的任务是,给一个物理环境,agent 需要通过一些操作(比如 poke 啊什么的)来回答物理问题(物体质量啊什么的)。

C12: LR-GAN: Layered Recursive Generative Adversarial Networks for Image Generation

之前都没看到这个工作啊?单看结果还是很有意思的。思想是生成图片时分别生成背景和前景,其中前景生成的时候需要 mask。在鸟类数据集训练的 GAN 之后,可以发现生成的 mask 都会有鸟的形状。所以可以认为这个模型可以无监督的学习前景背景分割。

C17: Categorical Reparameterization with Gumbel-Softmax

对 sample 进行了可导近似,可用于 RL。

C27: Frustratingly Short Attention Spans in Neural Language Modeling

我没听他们 poster,但是我看过他们论文的结论。题目就足够有意思了。简单的说就是 lstm 不够 long。

周三上午

C1: Deep Multi-task Representation Learning: A Tensor Factorisation Approach

作者前一天晚上和我们坐的同一桌吃饭,是爱丁堡的 faculty。这篇文章讲的是现在大家做 multi-task 都是手动规定哪些层 share,哪些不 share,可不可以自动找。所以他就提出了用 tensor factorization。就是说,虽然我的多个任务可以训练多个网络参数,但是参数之间要 share base。然后通过规定 factorization 时最大 rank 来确定 share 的程度。(如果 full rank,那就相当于不 share)。大体上还不错,但是这个方法还需改进,因为现在这样其实这样引入了更多的超参数。

C3: Delving into Transferable Adversarial Examples and Black-box Attacks

交大学妹的 paper。文章讨论的是虽然 adversarial example 是 transferable 的,但是不能指定类别欺骗,也就是说对一个黑箱网络,输入另一个模型生成的一个猫到狗的 adversarial example,很难同样误识别成狗。这篇文章就发现,用一个模型不行,那就用多个模型。如果我们找到一个能 fool 好多模型的 adversarial example,那这个也更容易 fool 其他的模型。

C7: Regularizing CNNs with Locally Constrained Decorrelations

一个新的正则的方法。就是说不希望 weight 的 channel 之间太相关。想象一个一层的网络,如果 channel 之间相关,就说明有些 channel 是浪费的。这篇文章就是对 channel 之间的 correlation 加了 penalty,让他不能太大,要 weight 越正交越好。

C8: Generative Multi-Adversarial Networks

为了使 gan 稳定,他这里用了多个不同的 discriminator。这些 discriminator 可以有不同的网络结构。这样做的好处就是:1. generator 必须要 fool 所有 discriminator 才行 2. 一开始能从弱的 discriminator 那得到 gradient 3. 而且可以想像多个 discriminator 不容易那么 mode collapse(至少你可以一个 discriminator 处理一个 mode )。其实还有一篇 paper 更牛逼,不仅多个 discriminator 还有多个 generator,然后每次随机配对训练(然而我不知道这篇文章叫什么)。

C9: Visualizing Deep Neural Network Decisions: Prediction Difference Analysis

这篇文章要可视化图片每个区域对分类结果的影响。之前有一个类似的方法是,把图片中的区域用均值,也就是灰色,代替,比较分类的结果。这篇文章提出,不用均值,而是用像素的 marginal。意思就是说,不是这一块换成了灰色分类会发生多少变化,而是如果这一块区域被其他颜色替代了,会发生什么变化。可以认为用灰色只是 marginal 的一种近似。这篇文章本质上也是对 marginal 的一种近似,他从该区域的周边背景中截取区域进行替换,然后计算分类差。对每个区域,这样的都要做好多次,来获得更好的 marginal。之所以从周边背景中截取是考虑到像素之间的相关性。这个方法虽然比较 make sense,但是效率奇低,一张图要 30 分钟。

C11: Faster CNNs with Direct Sparse Convolutions and Guided Pruning

这篇文章通过观察数据的频谱,来进行卷积层 kernel size 的设计。intuitively,如果频谱上发现相距 3 个 pixel 之外的数据就不 correlate,那么就可以将卷积 size 设为 3。

C14: Automatic Rule Extraction from Long Short Term Memory Networks

可以说是 LSTM 二类分类器可视化。对每个时间点的输入都能给一个正负的输出。

C15: Adversarially Learned Inference

MILA 的 bigan,几乎一样。唯一的区别是加了一个像 VAE 那种的 noise。

C22: On Detecting Adversarial Perturbations

大意是,在网络中加一个 detector,预测是否是 adversarial。但是这样有一个问题,因为这个 adv detector 也有 adversarial。所以他训练时使用了 dynamic adversarial,训练数据根据 adv detector 的更新而改变。其实有点类似于 GAN。最后他 claim 这样训练后会到 nash 均衡(也就是对 adv detector 的 adversarial,detector 只能报 0.5?)。

C23: Understanding deep learning requires rethinking generalization

反正大家都知道这篇 paper 了。

C24: Adversarial Feature Learning

Bi-GAN。

C30: PGQ: Combining policy gradient and Q-learning

policy gradient 是好,但是有一个问题是只能 on policy,sample 代价比较高。所以这篇文章就是将 policy grandient 和 q learning 结合起来。他推了一个 policy 到 Q 的公式,以至于 Q function 是 policy function 的一个函数。这样的话你做 policy gradient,可以更新 policy,做 q learning,也可以更新 policy(因为会从 q function backprop 回去)。

C32: Learning to Navigate in Complex Environments

他们用了一个 depth estimation 来作为 auxiliary task。我问你们有没有试过 unreal 里面的 pixel control,毕竟 pixel control 在训练时不需要从环境中获取深度信息。他们说他们是不同的组,没有交流过,sad。

周三下午

C1: Learning recurrent representations for hierarchical behavior modeling

作者是 Michael 朋友,晚上还一起吃饭喝酒了,然而我并没有看她 poster。但是这篇 poster 很火的,最后一天会议都结束半小时了还有人围着。

C7: Amortised MAP Inference for Image Super-resolution

一篇 oral,在我看来有点小乱?没仔细读,但是有一个问题就是为什么 DAE 效果这么差,因为记得 plug & play 里面 DAE 就挺好的啊。

C10: A Learned Representation For Artistic Style

谷歌的论文,快速多风格变换。1. 用 instance noramlizaiton 来做 style transfer。2. 替换 instance noramlization 后的 scale 层的参数来达到不同风格。

C11: Learning to Remember Rare Events

认真听了一会的 paper。大概就是说在训练分类器的时候,多加一个 memory。memory 怎么维护呢。如果一个新的样例进来,找个 memory 中 feature 最接近的,如果最接近的与之类别不同则替换之(换的原因很简单嘛,就是因为这个样例更 rare)。如果类别相同,则和这个 feature 合并。反正看起来效果不错。但是维护这个 memory 成本还是挺高的作者说。

C19: Tighter bounds lead to improved classifiers

这篇文章的作者气质很酷炫,他提出了把分类问题看成 RL 问题,那就是优化sum_p(), 而不是sum_logp。 但是这样优化比较困难(他猜的,他说没试过),于是他提了一个 bound,去优化 bound 而不是直接优化这个目标函数(感觉有点类似于 EM 的 idea)。有一个有意思的结果,他能提高在 mnist 上 linear classifier 的训练精度(虽然不能提高 test 的时候)。

C20: Why Deep Neural Networks for Function Approximation?

首富的 paper,知道看不懂,直接略过。

C22: Dropout with Expectation-linear Regularization

这篇文章首先做了理论分析,分析 dropout 的 ensemble 模式和一般的求期望模式的 gap。然后提出了将这个 gap 作为一个 regularizer,也就是说 gap 要尽可能小。

C23: HyperNetworks

他有一个 small RNN,这个 RNN share weight。他还有一个“RNN”,不 share weight,但是可以无限长。这是为什么呢?因为第二个 RNN 的 weight 是第一个 RNN 的输出,相当于这个 hypernetwork 可以根据输入的变化来改变第二个 RNN 不同时刻的 weight。他们这样做说可以提高第二个 RNN 的 capacity,因为不强制一定要 share weight 嘛。

C30: Zoneout: Regularizing RNNs by Randomly Preserving Hidden Activations

zoneout。zoneout 是 rnn 时间维度上的“dropout”,要么维持前一个时刻的 hidden vector,要么按照一般的样子更新。

C32: Learning Visual Servoing with Deep Features and Trust Region Fitted Q-Iteration

jian peng 组的 paper 诶。Q learning 的一个变种。加了一个 upper bound 和一个 lower bound,让 q function 要离两个 bound 尽可能小。恩,不是很能明白 intuition。但是比 a3c 还好诶。

C33: An Actor-Critic Algorithm for Sequence Prediction

作者来 tti 讲过 talk 了,就没去听 poster。

  * 本文转载自作者个人知乎专栏,欢迎点击「 阅读全文」进行查阅。

关于PaperWeekly

PaperWeekly 是一个分享知识和交流学问的学术组织,关注的领域是 NLP 的各个方向。如果你也经常读 paper,喜欢分享知识,喜欢和大家一起讨论和学习的话,请速速来加入我们吧。

声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
推荐阅读