[论文阅读] [SAGAN] Self-Attention Generative Adversarial Networks
  CFu9A7vdykDj 2023年11月19日 23 0

Self-Attention Generative Adversarial Networks (mlr.press)

Zhang H, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[C]//International conference on machine learning. PMLR, 2019: 7354-7363.

引用:4501

原作者代码:brain-research/self-attention-gan (github.com)

摘要

在本文中,我们提出了自注意力生成对抗网络(SAGAN),它允许对图像生成任务进行注意力驱动的长期依赖建模。传统的卷积GAN生成高分辨率细节,仅作为低分辨率特征图中空间局部点的函数。在SAGAN中,可以使用来自所有特征位置的线索生成细节。此外,判别器可以检查图像中遥远部分的高度细节特征是否相互一致。此外,最近的工作表明生成器条件反射会影响GAN性能。利用这一洞察力,我们将频谱规范化应用于GAN生成器,并发现这改善了训练动态。提议的SAGAN比之前的工作表现更好,在具有挑战性的ImageNet数据集上,将最佳已发布的IS从36.8提高到52.52,并将FID从27.62降低到18.65。注意力层的可视化显示,生成器利用与对象形状相对应的邻域,而不是固定形状的局部区域。

1 简介

图像合成是计算机视觉中的一个重要问题。随着生成对抗网络(GAN)的出现,在这个方向上已经取得了显著的进展(Goodfelet al.,2014)。基于深度卷积网络的GAN(Radford et al.,2016; Karras et al.,2018;Zhang et al.)已经特别成功。然而,通过仔细检查从这些模型中生成的样本,我们可以观察到DCGAN(Odena et al.,2017;Miyato et al.,2018;Miyato&Koyama,2018)在多类数据集上训练时,某些图像类的建模比其他类的建模困难得多(例如ImageNet(Russakovsky et al.,2015))。例如,虽然最先进的ImageNetGAN模型(Miyato&Koyama,2018)擅长合成几乎没有结构约束的图像类(例如,海洋、天空和景观类,它们更多地通过纹理而不是几何来区分),但它未能捕获某些类中一致出现的几何或结构模式(例如,狗经常使用逼真的毛皮纹理绘制,但没有明确定义的单独脚)。对此的一个可能解释是,以前的模型严重依赖卷积来建模跨不同图像区域的依赖关系。由于卷积运算符具有局部感受野,因此只有在通过几个卷积层后才能处理远程依赖关系。由于各种原因,这可能会阻止学习长期依赖关系:一个小模型可能无法表示它们,最优化的算法可能难以发现仔细协调多层以捕获这些依赖关系的参数值,并且当应用于以前看不见的输入时,这些参数化可能在统计上很脆弱并且容易失败。增加卷积内核的大小可以增加网络的表示容量,但这样做也会失去使用局部卷积结构获得的计算和统计效率。另一方面,自我关注(Chen et al.,2016; Parikh et al.,2016;Vaswani et al.,2017)在建模长期依赖关系的能力与计算和统计效率之间表现出更好的平衡。自注意力模块将一个位置的响应计算为所有位置特征的加权和,其中权重或注意力向量的计算成本很小。

在本研究中,我们提出了一种自注意生成对抗网络(SAGANs),将一种自注意机制引入到卷积GAN中。自我注意模块是对卷积的补充,并有助于建立跨图像区域的长期、多级依赖关系。通过自我关注,生成器可以绘制图像,其中每个位置的细节都与图像远处部分的细节仔细协调。此外,该鉴别器还能更准确地对全局图像结构施加复杂的几何约束。

image-20231108194858151

图1.提出的SAGAN通过利用图像远处部分的互补特征而不是固定形状的局部区域来生成图像,以生成一致的对象/场景。在每一行中,第一张图像显示五个带有彩色编码点的代表性查询位置。其他五张图像是这些查询位置的注意力图,相应的彩色编码箭头总结了最受关注的区域。

除了自注意力,我们还结合了最近关于网络调节与GAN性能的见解。(Odena et al.,2018)的工作表明,条件良好的生成器往往表现更好。我们建议使用以前仅应用于判别器的光谱规范化技术(Miyato et al.,2018)对GAN生成器进行良好的调节。

我们在ImageNet数据集上进行了广泛的实验,以验证所提出的自注意力机制和稳定技术的有效性。SAGAN通过将最佳报告的IS从36.8提高到52.52,并将FID从27.62降低到18.65,显着优于图像合成方面的先前工作。注意力层的可视化表明,生成器利用了与对象形状相对应的邻域,而不是固定形状的局部区域。

2 相关工作

生成对抗网络. GANs在各种图像生成任务中取得了巨大成功,包括图像到图像的翻译(Isola et al.,2017;Zhu et al.,2017;Taigman et al.,2017;Liu&Tuzel,2016;Xue et al.,2018;Park et al.,2019)、图像超分辨率(Ledig et al.,2017;Snderby et al.,2017)和文本到图像的合成(Reed et al.,2016b;a;Zhang et al.,2017;Hong et al.,2018)。尽管取得了这种成功,但已知GANs的训练是不稳定的,并且对超参数的选择很敏感。有多项工作试图通过设计新的网络架构(Radford et al.,2016; Zhang et al.,2017;Karras et al.,2018;2019),修改学习目标和动态(Arjovsky et al.,2017;Salimans et al.,2018;Metz et al.,2017;Che et al.,2017;Zhao et al.,2017;Jolicour-Martineau,2019),增加正则化方法(Gulrajani et al.,2017;Miyato et al.,2018)和引入启发式技巧(Salimans et al.,2016;Odena et al.,2017)。最近,Miyato et al.(Miyato et al.,2018)提出限制判别器中权重矩阵的谱范数,以便约束判别器函数的利普希茨常数。结合基于投影的鉴别器(Miyato&Koyama,2018),光谱归一化模型极大地改善了ImageNet上的类条件图像生成。

注意力模型。最近,注意力机制已经成为必须捕获全局依赖性的模型的一个组成部分(Bahdanau等人,2014;Xu等人,2015;Yang等人,2016;Gregor等人,2015;Chen等人,2018)。特别是,自我注意力(Cheng等人,2016;Parikh等人,2016),也称为内部注意力,通过注意同一序列内的所有位置来计算序列中某个位置的响应。Vaswani等人(Vaswani等人,2017)证明了机器翻译模型可以通过仅使用自我注意力模型来获得最先进的结果。Parmar等人(Parmar等人,2018)提出了一种Image Transformer模型,将自我注意力添加到用于图像生成的自回归模型中。Wang et al.(Wang et al.,2018)将自注意力形式化为非局部操作,以建模视频序列中的时空依赖性。尽管取得了这一进展,但自注意力尚未在GAN的上下文中得到探索。(AttnGAN(Xu et al.,2018)在输入序列中使用对词嵌入的注意力,而不是对内部模型状态的自注意力)。SAGAN学会在图像的内部表示中有效地找到全局的、长距离的依赖关系。

image-20231108201011366

图2。提出的SAGAN的自我注意模块。⊗表示矩阵乘法。对每一行执行softmax操作。

3 自注意生成对抗网络

大多数用于图像生成的基于GAN的模型(Radford et al.,2016; Salimans et al.,2016;Karras et al.,2018)都是使用卷积层构建的。卷积处理局部邻域中的信息,因此仅使用卷积层在计算上对于建模图像中的长期依赖关系是低效的。在本节中,我们采用(Wang et al.,2018)的非局部模型来引入GAN框架的自注意力,使生成器和判别器能够有效地建模广泛分离的空间区域之间的关系。我们称所提出的方法为自注意力生成对抗网络(SAGAN),因为它具有自注意力模块(参见图2)。

首先将来自前一个隐藏层 $x \in$ $\mathbb{R}^{C \times N}$ 的图像特征转化为两个特征空间$\boldsymbol{f}, \boldsymbol{g}$ 来计算注意力,其中$f(x)=W_f x, g(x)=W_g x$

image-20231108201425097

而$\beta_{j, i}$表示模型在合成第$j$个区域时,对第$i$个位置的关注程度,这里,C是通道数,N是来自前一个隐含层的特征的特征位置数,注意层的输出为$\boldsymbol{o}=\left(\boldsymbol{o}_1, \boldsymbol{o}_2, \ldots, \boldsymbol{o}_j, \ldots, \boldsymbol{o}_N\right) \in$ $\mathbb{R}^{C \times N}$,其中

image-20231108202024430

在上述公式中,$\boldsymbol{W}{\boldsymbol{g}} \in \mathbb{R}^{\bar{C} \times C}, \boldsymbol{W}{\boldsymbol{f}} \in \mathbb{R}^{\bar{C} \times C}$,$\boldsymbol{W}{\boldsymbol{h}} \in \mathbb{R}^{\bar{C} \times C}$,和$\boldsymbol{W}{\boldsymbol{v}} \in \mathbb{R}^{C \times \bar{C}}$是学习到的权重矩阵,它们被实现为1×1卷积。由于我们没有注意到当将$\bar{C}$的信道数减少到$C/k$时有任何显著的性能下降,在k=1,2,4,8时分别在ImageNet上经过几个训练epochs。为了内存效率,我们在所有的实验中选择k=8(即$\bar{C}=C/8$)。

此外,我们进一步将注意层的输出乘以一个比例参数,并添加回输入特征图。因此,最终输出为,

image-20231108202552451

其中γ是一个可学标量,初始化为0。引入可学习的γ可以让网络首先依赖于局部邻域的线索——因为这更容易——然后逐渐学会赋予非局部证据更多的权重。我们这么做的原因很直观:我们想先学习简单的任务,然后逐步增加任务的复杂性。在SAGAN中,提出的注意力模块已应用于生成器和鉴别器,通过最小化对抗性损失的hinge版本,以交替的方式对其进行训练(Lim & Ye, 2017; Tran et al., 2017; Miyato et al., 2018),

image-20231108202822527

4 稳定GAN训练的技术

我们还研究了两种技术来稳定GAN在具有挑战性的数据集上的训练。首先,我们在生成器和判别器中使用<u>谱归一化</u>(Miyato et al.,2018)。其次,我们确认了两时间尺度更新规则(<u>TTUR</u>)(Heusel et al.,2017)是有效的,我们主张专门使用它来解决正则化判别器中的缓慢学习。

4.1 生成器和鉴别器的频谱归一化

Miyato et al.(Miyato et al.,2018)最初提出通过将谱归一化应用于判别器网络来稳定GAN的训练。这样做通过限制每个层的谱范数来约束判别器的利普希茨常数。与其他归一化技术相比,谱归一化不需要额外的超参数调优(将所有权重层的谱范数设置为1在实践中一致地表现良好)。而且,计算成本也相对较小。

我们认为生成器也可以从谱归一化中受益,这是基于最近的证据,即生成器的条件反射是GANs性能的一个重要因果因素(Odena et al.,2018)。生成器中的谱归一化可以防止参数幅值的升级,避免不寻常的梯度。我们根据经验发现,生成器和判别器的谱归一化使得每次生成器更新使用更少的判别器更新成为可能,从而显著降低了训练的计算成本。该方法还显示出更稳定的训练行为。

4.2 生成器和判别器更新的学习率不平衡

在以前的工作中,判别器的正则化(Miyato等人,2018年;Gulrajani等人,2017年)通常会减慢GAN的学习过程。在实践中,使用正则化判别器的方法在训练期间通常需要每个生成器更新步骤多个(例如,5个)判别器更新步骤。独立地,Heusel等人(Heusel等人,2017年)主张<u>对生成器和判别器使用单独的学习率(TTUR)</u>。我们建议专门使用TTUR来补偿正则化判别器中学习缓慢的问题,使得每个生成器步骤使用更少的别判器步骤成为可能。使用这种方法,我们能够在相同的挂钟时间下产生更好的结果。

5 实验

为了评估所提出的方法,我们在LSVRC2012(ImageNet)数据集上进行了广泛的实验(Russakovsky et al.,2015)。首先,在第5.1节中,我们展示了旨在评估两种稳定GAN训练的建议技术的有效性的实验。接下来,在第5.2节中研究了所提出的自注意力机制。最后,我们的SAGAN在第5.3节中与最先进的图像生成任务方法(Odena et al.,2017;Miyato&Koyama,2018)进行了比较。

评估指标。我们选择初始得分(IS)(Salimans et al.,2016)和Fr'echet初始得分(FID)(Heusel et al.,2017)进行定量评估。初始得分(Salimans et al.,2016)计算条件类分布和边缘类分布之间的KL分歧。更高的初始得分表示更好的画面质量。我们包括初始得分,因为它被广泛使用,因此可以将我们的结果与以前的工作进行比较。然而,重要的是要理解初始得分有严重的局限性——它主要是为了确保模型生成可以自信地识别为属于特定类的样本,并且模型从许多类中生成样本,不一定是为了评估细节的真实性或类内多样性。是一个更有原则和更全面的指标,并且已被证明在评估生成样本的真实性和变化性方面更符合人类评估(Heusel et al.,2017)。FID计算生成的图像和Inmentation-v3网络特征空间中的真实图像之间的Wasserstein-2距离。除了在整个数据分布(即…,ImageNet中的所有1000类图像)上计算的FID之外,我们还计算生成的图像和每个类内的数据集图像之间的FID(称为intra FID(Miyato&Koyama,2018))。较低的FID和intra FID值意味着合成和真实数据分布之间的距离更近。在我们所有的实验中,为每个模型随机生成50k样本,以计算IS、FID和intra FID。

网络结构和实现细节。我们训练的所有SAGAN模型都被设计为生成128×128图像。默认情况下,光谱规范化(Miyato et al.,2018)用于生成器和判别器中的层。与(Miyato&Koyama,2018)类似,SAGAN在生成器中使用条件批处理规范化,在判别器中使用投影。对于所有模型,我们使用β1=0和β2=0.9的Adam优化器(Kingma&Ba,2015)进行训练。默认情况下,别判器的学习率为0.0004,生成器的学习率为0.0001。

5.1 评估建议的稳定技术

image-20231108204929277

图3.基线模型和我们的模型的训练曲线与提出的稳定技术,“G/D上的SN”和双时间尺度学习率(TTUR)。所有模型都以1:1的平衡更新来训练G和D。

在本节中,进行实验来评估所提出的稳定技术的有效性,即将谱归一化(SN)应用于生成器并利用不平衡学习率(TTUR)。在图3中,我们的模型“G/D上的SN”和“G/D上的SN+TTUR”与基线模型进行了比较,基线模型是基于最先进的图像生成方法实现的(Miyato et al.,2018)。在这个基线模型中,SN仅在判别器中使用。当我们对判别器(D)和生成器(G)进行1:1平衡更新训练时,训练变得非常不稳定,如图3最左边的子图所示。它在训练中很早就表现出模型崩溃。例如,图4的左上子图说明了基线模型在10k次迭代时随机生成的一些图像。尽管在原始论文(Miyato et al.,2018)中,这种不稳定的训练行为通过对D和G使用5:1的不平衡更新而得到了极大的缓解,但用1:1的平衡更新进行稳定训练的能力对于提高模型的收敛速度是可取的。因此,使用我们提出的技术意味着模型可以在相同的挂钟时间下产生更好的结果。鉴于这一点,不需要为生成器和判别器搜索合适的更新比例。如图3的中间子图所示,将SN添加到生成器和判别器两者极大地稳定了我们的模型“G/D上的SN”,即使它是用1:1的平衡更新进行训练的。但是,样本的质量在训练期间并没有单调提高。例如,FID和IS在260k次迭代时开始下降。该模型在不同迭代中随机生成的示例图像可以在图4中找到。当我们也应用不平衡的学习率来训练判别器和生成器时,我们的模型“G/D+TTUR上的SN”生成的图像质量在整个训练过程中单调提高。如图3和图4所示,在一百万次训练迭代中,我们没有观察到样本质量或FID或Inception分数有任何显著下降。因此,定量结果和定性结果都证明了所提出的稳定技术对GANs训练的有效性。他们还证明了这两种技术的效果至少部分是相加的。在其余的实验中,所有模型都对生成器和判别器使用谱归一化,并使用不平衡的学习率以1:1的更新来训练生成器和判别器。

5.2 自我注意机制

image-20231108205955882

图4。128×128由基线模型和我们的模型“SN on G/D”和“SN on G/D+TTUR”随机生成的示例。

image-20231108205859364

表1. GANs上Self-Attention和Resiual block的对比这些block被添加到网络的不同层中,所有模型都经过了一百万次迭代的训练,并报告了最佳的Inception分数(IS)和Fr'echet Inception距离(FID)。

为了探索所提出的自注意力机制的效果,我们通过在生成器和判别器的不同阶段添加自注意力机制来构建几个SAGAN模型。如表1所示,在中高层特征图(例如,feat32和feat64)处具有自注意力机制的SAGAN模型比在低层特征图(例如,feat8和feat16)处具有自注意力机制的模型获得了更好的性能。例如,模型“SAGAN,feat8”的FID由“SAGAN,feat32”从22.98改进到18.28。原因是自注意力接收到更多的证据,并且在选择具有更大特征图的条件时享有更多的自由(即,对于大型特征图,它与卷积互补),然而,在为小型(例如,8×8)特征图建模依赖关系时,它起着与局部卷积相似的作用。它证明了注意力机制赋予生成器和判别器更多的权力来直接建模特征图中的长期依赖关系。此外,我们的SAGAN和没有注意力的基线模型的比较(表1的第2列)进一步显示了所提出的自我注意力机制的有效性。

与参数数量相同的残差块相比,自注意力块也取得了更好的结果。例如,当我们用8×8特征图中的残差块替换自注意力块时,训练并不稳定,这导致性能显著下降(例如,FID从22.98增加到42.13)。即使对于训练顺利进行的情况,用残差块替换自注意力块仍然会导致在FID和初始阶段得分方面更差的结果。(例如,特征图32×32中的FID 18.28 vs 27.33)。这种比较表明,使用SAGAN给出的性能改进不仅仅是由于模型深度和容量的增加。

为了更好地理解在生成过程中学到了什么,我们将SAGAN中生成器对不同图像的注意力权重可视化。一些有注意力的示例图像如图5和图1所示。我们观察到网络学会根据颜色和纹理的相似性来分配注意力,而不仅仅是空间邻接。例如,在图1的左上角单元格中,红点主要关注它周围的鸟的身体,然而,绿点学会关注图像的另一边。这样,图像就有了一致的背景(即,树木从左到右,尽管它们被鸟分开)。类似地,蓝点将注意力分配到鸟的整个尾巴上,以使生成的部分连贯。这些远程依赖关系无法通过具有局部感受场的卷积来捕获。我们还发现,尽管一些查询点在空间位置上非常接近,但它们的注意力图可能非常不同,如左下角的单元格所示。红点主要关注背景区域,而蓝点虽然与红点相邻,但将大部分注意力放在前景对象上。这也减少了局部错误传播的机会,因为相邻位置可以自由选择关注其他较远的位置。这些观察进一步表明,自注意力是GAN图像生成卷积的补充。如右上角的单元格所示,SAGAN能够绘制两条腿明显分开的狗。蓝色查询点显示,注意力有助于使关节区域的结构正确。

image.png

图5.注意力图的可视化。这些图像是由SAGAN生成的。我们可视化了使用注意力的最后一个生成器层的注意力图,因为这一层最接近输出像素,并且最直接地投射到像素空间中并解释查询。在每个单元格中,第一张图像显示了三个带有颜色编码点的代表性查询位置。其他三张图像是这些位置的注意力图,对应的颜色编码箭头总结了参与最多的区域。我们观察到网络学会了根据颜色和纹理的相似性来分配注意力,而不仅仅是空间邻接(参见左上角的单元格)。我们还发现,尽管一些查询点在空间位置上非常接近,但它们的注意力图可能非常不同,如左下角的单元格所示。如右上角单元格所示,SAGAN能够画出腿分得很清楚的狗,蓝色的查询点显示注意力有助于获得关节区域的结构正确,有关学习注意力图的属性的更多讨论,请参见文本。

image-20231108211539267

表2.提出的SAGAN与最先进的GAN模型(Odena et al.,2017; Miyato&Koyama,2018)的比较,用于ImageNet上的类条件图像生成。

image-20231108211640186

图6. SAGAN为不同类生成的128x128示例图像每行显示了来自一个类的示例。在最左边的一列中,列出了我们SAGAN的intra FID(左)和最先进的方法(Miyato&Koyama,2018))(右)。

5.3 与最先进的比较

我们的SAGAN还与最先进的GAN模型(Odena et al.,2017; Miyato&Koyama,2018)进行了比较,用于ImageNet上的类条件图像生成。如表2所示,我们提出的SAGAN实现了最佳的初始得分,intra FID和FID。提议的SAGAN将最佳公布的初始得分从36.8显著提高到52.52。SAGAN实现的较低的FID(18.65)和intra FID(83.7)也表明SAGAN可以通过使用自注意力模块对图像区域之间的远程依赖关系进行建模来更好地近似原始图像分布。

图6显示了ImageNet的代表性类的一些比较结果和生成的图像。我们观察到,我们的SAGAN在合成具有复杂几何或结构图案的图像类(如金鱼和圣伯纳德)方面比最先进的GAN模型(Miy ato&Koyama,2018)实现了更好的性能(即更低的帧内FID)。对于结构约束很少的类(例如,山谷、石墙和珊瑚真菌,它们更多地通过纹理而不是几何来区分),我们的SAGAN与基线模型(Miyato&Koyama,2018)相比显示出更少的优越性。同样,原因是SAGAN中的自注意力与捕获几何或结构图案中一致发生的长期、全局级依赖关系的卷积是互补的,但在为简单纹理建模依赖关系时与局部卷积起到类似的作用。

6 总结

在本文中,我们提出了自注意力生成对抗网络(SAGANs),它将自注意力机制纳入了GAN框架。自注意力模块在建模远程依赖关系方面是有效的。此外,我们证明了应用于生成器的谱归一化稳定了GAN训练,TTUR加快了正则化判别器的训练。SAGAN在ImageNet上实现了类条件图像生成的最先进性能。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月19日 0

暂无评论

CFu9A7vdykDj