论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》-摩杜云开发者社区

笔者想要深入理解循环神经网络，找了一通，发现一篇比较有意思的论文，在此做个记录。该论文于2015年由Google Deepmind发表在ICML并产生了很大的影响力。

摘要

本文介绍了用于图像生成的深度循环注意力写入器（Deep Recurrent Attentive Writer，DRAW）神经网络体系结构。 DRAW网络结合了模仿人眼偏爱的新颖空间注意力机制，以及允许迭代构造复杂图像的顺序变分自动编码框架。该系统大大改进了MNIST生成模型的最新技术，并且在Street View House Numbers数据集上进行训练时，该系统生成的图像无法用肉眼与实际数据区分开。

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_编码器

1 介绍

手动绘制图像是一个迭代渐进的过程，在这一过程中，精确的形式取代了粗略的轮廓，有的线条被锐化、加深或消除了，有的形状被改变了，最终完整的图像才显现出来。但是，**大多数自动图像生成方法都旨在一次生成整个场景**。在生成神经网络的背景下，这通常意味着所有像素都以单个潜在分布为条件（Dayan等，1995； Hinton＆Salakhutdinov，2006； Larochelle＆Murray，2011）。除了排除迭代自校正的可能性外，从根本上讲，**“单次”方法很难缩放到大图像**。 深度循环注意力作家（Deep Recurrent Attentive Writer，DRAW）架构代表着向更自然的图像构造形式的转变，在这种形式中，场景的各个部分相互独立地创建，并且逐次完善了草图。
DRAW体系结构的核心是一对递归神经网络：**一个编码器网络，用于压缩训练过程中呈现的真实图像**；**一个解码器，用于在接收代码后重构图像**。组合系统经过随机梯度下降的端到端训练，其中损失函数是数据对数似然的变化上限。因此，它属于变分自动编码器家族，这是深度学习和变分推理的最新结合，它在生成建模方面取得了重大进展（Gregor等，2014； Kingma＆Welling，2014； Rezende等， 2014年； Mnih＆Gregor，2014年； Salimans等人，2014年）。 DRAW与兄弟技术的不同之处在于，它不是单次生成图像，它**通过解码器发出的修改的累积来迭代地构建场景，编码器可以观察到每个修改**。
逐步生成图像的明显关联是选择性地关注场景的某些部分而忽略其他部分的能力。过去几年的大量研究结果表明，与通过单次扫视整个图像相比，通过一系列的局部瞥视或凹痕捕捉可以更好地捕获视觉结构（Larochelle＆Hinton，2010； Denil等，2012； Daniel等，2012）。 Tang等，2013; Ranzato，2014; Zheng等，2014; Mnih等，2014; Ba等，2014; Sermanet等，2014）。顺序注意力模型面临的主要挑战是学习关注哪里，可以通过强化学习技术（例如策略梯度）来解决（Mnih等人，2014）。但是，**DRAW中的注意力模型是完全可微的，从而可以使用标准反向传播进行训练**。从这个意义上讲，它类似于为神经图灵机开发的选择性读取和写入操作（Graves等，2014）。以下部分定义了DRAW体系结构，以及用于训练的损失函数和图像生成过程。第3节介绍选择性注意模型，并说明如何将其应用于阅读和修改图像。第4节提供了MNIST，Street View House Numbers和CIFAR-10数据集的实验结果，并提供了生成的图像示例；并在第5节中给出了结束语。最后，我们想引导读者阅读本文附带的视频（https://www.youtube.com/watch?v=Zt-7MI9eKEo），其中包含读取DRAW网络的示例并生成图像。

2 The DRAW Network

DRAW网络的基本结构类似于其他变分自动编码器的结构：编码器网络确定潜在代码的分布，以捕获有关输入数据的显着信息。解码器网络从代码分布中接收样本，并使用它们来调节自己在图像上的分布。但是，存在**三个主要差异**。首先，编码器和解码器都是DRAW中的循环网络，因此它们之间交换了一系列代码样本。此外，编码器还具有解码器以前的输出的特权，因此可以根据到目前为止的解码器行为来调整发送的代码。其次，将解码器的输出相继添加到最终将生成数据的分布中，而不是一步一步地发布该分布。第三，动态更新的注意力机制用于限制编码器观察到的输入区域和解码器修改后的输出区域。简而言之，网络在每个时间步长上决定“在哪里读”和“在哪里写”以及“写是什么”。图2中概述了该架构，以及前馈变分自动编码器。

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_论文阅读_02

2.1 网络架构

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_数据_03

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_编码器_04

2.2 损失函数

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_迭代_05

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_笔记_06

KL 散度，这是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样本，根据数据的部分样本，我们会对数据的整体做一个近似的估计，而数据整体本身有一个真实的分布（我们可能永远无法知道），那么近似估计的概率分布和数据整体真实的概率分布的相似度，或者说差异程度，可以用 KL 散度来表示。

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_编码器_07

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_论文阅读_08

2.3 随机数据生成

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_编码器_09

3 读写操作

在对等式4和8中的读写操作进行定义之前，上一节中描述的DRAW网络是不完整的。本节描述了这样做的两种方法，一种**有选择性注意力**，一种**无选择性注意力**。

3.1 无注意力的读写操作

在DRAW的最简单实例化中，整个输入图像在每个时间步都传递到编码器，而解码器在每个时间步都修改整个画布矩阵。在这种情况下，读和写操作减少为：

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_迭代_10

但是这种方法可以创建潜在分布时，不允许编码器仅专注于部分输入；它也不允许解码器仅修改画布矢量的一部分。换句话说，它没有为网络提供明确的选择性注意机制，我们认为这对于大规模图像生成至关重要。我们将上述配置称为“无注意力的DRAW”。

3.2 选择性注意力模型

为了在不牺牲梯度下降训练优势的情况下为网络提供选择性关注，我们从最近在手写合成（Graves，2013）和Neural Turing Machines（Graves等，2014）中使用的不同注意力机制中获得启发。与上述作品不同，我们考虑一种显着的二维注意力形式，其中将2D高斯滤波器阵列应用于图像，从而产生位置和缩放平滑变化的图像“补丁”。这种配置（我们简称为“ DRAW”）在某种程度上类似于基于计算机图形的自动编码器中使用的仿射变换（Tieleman，2014年）。如图3所示，通过指定网格中心的坐标和相邻滤镜之间的步距，高斯滤镜的N×N网格位于图像上。大步控制补丁的“缩放”；也就是说，跨度越大，原始图像在注意区域中的可见区域越大，但是该区域的有效分辨率越低。网格中心（gX，gY）和步幅δ（均是实数值）确定了补丁中第i行第j列的滤波器的平均位置µi X，µj Y，如下所示：

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_论文阅读_11

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_数据_12

要完全指定注意力模型，还需要两个参数：高斯滤波器的各向同性方差σ2和乘以滤波器响应的标量强度γ。给定A×B输入图像x，通过解码器输出hdec的线性变换在每个时间步长动态确定所有五个注意参数

论文阅读笔记《DRAW: A Recurrent Neural Network for Image Generation》_笔记_13