论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention-摩杜云开发者社区

Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention

利用单数-配对注意加强三维点云处理的局部特征学习

摘要

我们提出了一种简单而有效的注意力，即单对注意力（UPA），用于对三维点云之间的关系进行建模。我们的想法是基于这样的分析：标准的自我注意（SA）是全局性的，对于不同的查询位置往往会产生几乎相同的注意图，这表明在共同学习与查询无关和与查询有关的信息方面存在困难。因此，我们重新表述了SA，并提出了与查询无关的（Unary）和与查询有关的（Pairwise）组件，以促进对这两个术语的学习。与SA不同的是，UPA通过本地操作来确保查询依赖性。大量的实验表明，UPA在各种点云理解任务中的表现一直优于SA，包括形状分类、部分分割和场景分割。此外，简单地将流行的PointNet++方法与UPA结合起来，甚至超过了基于注意力的方法，或与之相当。此外，当UPA作为一个组成模块被集成到标准和现代网络中时，它系统地提升了这些网络的性能。

1. 引言

由于现代三维传感器的出现，三维数据变得越来越多。三维点云是最简单的形状表示之一，通常表示为空间上分散的三维点。最近，利用深度学习[1]对三维点云的自动理解在各种应用中引起了很大的兴趣，如自动驾驶[2, 3]和遥感[4, 5]。

三维点云的不规则性质给基于深度学习的点云分析带来了挑战，因为流行的方法如卷积神经网络（CNN）只适用于有规律的结构化数据（如二维和三维网格）。因此，三维点云通常被投射到常规格式，如体素[6, 7]和图像[8, 9]，以实现常规卷积。最近，PointNet[10]引发了对点云直接操作的方法的发展[11, 12, 13]。他们成功的关键在于使用共享多层感知器（MLPs）和对称函数（例如，最大池和avg池）。这两种类型的操作都能确保包络不变性，使它们非常适合点云处理。

另一方面，自我注意（SA）[14, 15]在自然语言处理中的成功引发了SA在二维视觉问题上的各种应用（例如，图像识别[16]、生成[17]和物体检测[18]）。SA通过基于成对关系聚合其他位置（键）的特征来更新查询特征。SA是不变的；因此，它直接适用于三维点云。最近的研究表明，SA确实可以有利于点云的处理[19, 20, 21]。然而，在二维视觉领域发现，SA经常对非常不同的查询位置产生几乎相同的注意力图[22, 23]。这样的发现对于探索基于SA的研究方向至关重要。有必要验证一下点云处理中是否存在这样的问题。同时，SA的另一个问题是它对输入卡度的二次依赖性[24]，这限制了它对大幅下采样输入的应用[18]。

在本文中，我们首先进行了定性和定量的分析，以表明SA倾向于关注一些固定的位置，而不管不同的查询。换句话说，注意力偏向于学习与查询无关的信息，而抑制了对查询相关信息的学习。基于这一观察，我们提出了单对关注（UPA），通过重新表述SA，在保证查询独立性的同时，利用查询依赖性的信息。具体来说，给定一个查询点及其最近的邻居，单项关注使用绝对特征产生关注分数，这确保了产生的分数的查询独立性。相比之下，成对关注使用相对特征计算关注分数，以编码查询依赖性。这两种关注都是包络不变的；因此，它适合于三维点云处理。UPA的图形描述见图1。我们通过大量的实验表明，UPA在各种任务中的表现优于SA。此外，当UPA作为一个组合模块被集成到网络中时，它为标准和现代网络带来了系统性的改进。

主要的贡献总结如下。

- 我们进行了定性和定量的分析，显示出SA倾向于关注固定位置，而不考虑不同的查询。

- 我们提出了一种新的关注形式，即单对关注（UPA），以加强三维点云的局部特征学习。

- 我们进行了各种实验，证明UPA在一系列的任务中始终优于SA。此外，作为一个组成模块，UPA为标准和现代网络提供了系统的性能改进。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_数据

图1：UPA的概述。给定一个查询点（蓝点），UPA通过结合单项和配对关注的输出来更新特征。N表示矩阵乘法，L表示元素相加。

2. 相关

点云的深度学习。由于其非结构化的性质，点云需要被投射到规则的网格上以实现规则的卷积。一些方法将点云转换为多视图图像[9, 8]，而其他方法将三维点云体素化[6, 7, 25, 26]。基于图像的方法的性能可能在很大程度上依赖于投影平面的选择，而基于体素的方法的内存成本随着分辨率的提高而呈立方增长。此外，这两种方法都会因为投影而失去细微的信息。为了克服这些问题，Qi等人提出了PointNet[10]，可以直接在三维点云上操作。随后，PointNet++[11]被提出，通过将PointNets应用于点云的局部子集来解决局部结构。由于其简单性和有效性，PointNet++成为近期研究的关键构件[12, 27, 13, 28, 29, 30]。他们的工作重点是开发基于卷积的方法，而本研究旨在开发一种基于注意力机制的新操作。

自我注意。 Transformers[14]已经彻底改变了自然语言处理，并启发视觉研究人员将SA应用于图像处理任务[18, 16, 31, 32, 33]。为了进一步使SA适应具体的应用，一些作品将其应用于局部[34, 35]；一些作品使其更具表现力[36, 23]；一些作品提高了效率[37, 22]。在点云/集合处理中也引入了SA的思想[19]。PAT[20]开发了一个参数高效的变体，而PointASNL[38]使用SA来增强基于卷积的网络。其他一些作品应用信道调制[39, 40, 41]来利用细粒度的细节。相比之下，在对SA进行分析的基础上，我们的方法旨在通过同时明确地模拟与查询无关和与查询有关的信息来增强SA。此外，与全局关注的SA不同，我们的方法是局部操作，以保证查询依赖性，同时能够处理大量的输入。

3. 方法

本节首先分析了SA，并讨论了观察到的问题。然后，我们介绍了所提出的UPA的表述，以及UPA模块作为一个组合模块与现有网络的无缝整合。

3.1. 自我关注的分析

让X = {xi} N i=1表示点云的特征图，其中N为点的总数，xi表示与一个点相关的特征向量。那么SA可以定义为。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_点云_02

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_卷积_03

虽然SA在点云识别任务中很有效，但很少有研究调查SA层产生的注意力图的行为；因此，我们提供了对分类（ModelNet40[42]）和部分分割（ShapeNet[43]）的学习注意力图的定性和定量分析。为了提供对SA行为的直观理解，定性分析将不同查询位置的注意力地图可视化。然后，进行定量分析以量化所有注意力图的平均相似度。我们采用点平均的Jensen-Shannon Divergence(mJSD)作为相似性测量。为了训练SA层，我们采用了PointNet++[11]，这是最近发展的关键构建模块，作为骨干，并在每个集合抽象级别[11]后应用一个SA层。定性的结果显示在图2中。出乎意料的是，虽然查询位置不同，但注意力图却彼此相似。此外，如表1所示，SA层中的mJSD分数普遍较小，表明SA层容易通过优先考虑与查询无关的信息来学习点云的整体结构。此外，我们在与SA层相同的设置下训练DNL[23]层，其中点积在数学上被分解为与查询无关的和与查询有关的术语。尽管mJSD得分在分类中有所提高，但DNL层在更具挑战性的部分分割任务中也退化为与查询无关的运算符，这表明需要更系统地利用与查询有关的信息。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_数据_04

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_数据_05

图2：由SA层产生的注意力图。对ModelNet（分类）和ShapeNet（部分分割）数据集进行了分析。星星表示查询位置。不同的查询位置产生类似的注意力图。

表1: 对SA和DNL层的定量分析结果。阶段n表示SA和DNL层在第n个集合抽象层之后的插入位置[11]。每个阶段的分数代表mJSD = N 1 2h P N i=1 P N j=1 JSD(AttMapi , AttMapj)，衡量所有查询位置上注意力地图的平均相似度。N表示输入点的数量，h是注意头的数量（分类为8，分割为1），AttMapi和AttMapj表示i和j点的注意图。

3.2. 单对关注

基于上述分析的观察，我们提出了单对关注（UPA）来同时处理依赖查询和不依赖查询的信息，同时保证关注的查询依赖性。我们提出了两个不同的公式，它们并行运作，以最小的相互干扰来优化每个组成部分。此外，我们将UPA应用于查询点的局部区域，因为在全局接受场的情况下，SA往往会退化为一个查询无关的操作者。在这种方式下，注意力输出变得与查询相关，我们发现这对点云处理是有益的。此外，限制操作范围也将时间/空间复杂度从二次降低到与输入数量成线性关系，从而使UPA可以扩展到大量的数据。

从形式上看，对于一个查询xi，UPA的一般表述可以定义为：

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_点云_06

其中N(xi)是xi的k个最近的邻居。f是一个关系函数，用来衡量两个输入之间的关系。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_卷积_07

是一个转换函数，被实现为一个简单的线性投影。

关系函数f的具体形式取决于需求。我们引入两个不同的实例，一个负责利用单项关系，另一个负责利用成对关系：

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_数据_08

关系函数

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_点云_09

和

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_卷积_10

将输入特征映射为分数，用于后续注意力权重的计算。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_点云_11

和

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_点云_12

是学习的点状线性投影。请注意，转换函数g是在两个组件之间共享的，以降低复杂性。

对于单项关系，每个邻居xj单独为自己预测一个分数；因此，生成的注意力图与成对关系无关。另一方面，成对关系函数fe将相对特征（相对于查询）映射到分数，其中考虑了查询和邻居之间的成对互动。

像SA一样，我们的表述可以很容易地扩展到多头的设置，通过安排关系函数f来预测h个分数，并在输入特征的相应子空间中执行h次关注。然后，每个头的输出被串联起来，组成最终输出

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_点云_13

，其中

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_数据_14

。

注意力块的设计。图3(a)说明了一般块的设计。该模块由一个降维层（MLP）、一个注意力层和一个残差连接组成。该模块接收输入的点云，并产生新的特征向量，它是输入特征和注意力层的输出之和。我们通过将选定的注意力机制注入注意力层来构建特定的注意力块。注意机制的输出被非线性地转换并加入到输入中。例如，在UPA的情况下，输出被计算为

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_数据_15

其中ui和ei分别为非线性转换的注意力输出和。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_卷积_16

是组件级别的MLPs。

特定任务的UPA模块设计。图3(b)说明了UPA模块的特定任务设计。我们在设计UPA模块时还考虑了位置信息[14, 33]，用于形状部分的分割任务，其中明确编码三维布局被发现是有益的。具体来说，给定查询点及其邻居的三维坐标，

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_卷积_17

，位置特征被计算为

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_数据_18

，其中

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_卷积_19

是一个MLP，由两个线性投影组成，中间是ReLU激活。然后，位置编码是按照单项注意的程序产生的，把xpos作为输入特征。位置编码在图3中显示为绿色分支。为了解决形状分类/场景分割的问题，引入了一个门控机制，以适应性地控制从每个组件中获取的信息量。具体来说，每个点通过线性转换输入特征xi来预测分数si，这样

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_数据_20

。我们期望一个明确的门控对于增强/抑制相关/不相关信息是有用的。为简单起见，我们将φ和j分别设定为sigmoid(si)和1-sigmoid(si)。图3（蓝色分支）对门控程序进行了图形描述。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_卷积_21

图3：注意区块设计。(a) 实验中使用的一般注意力块。(b) UPA块的细节。当任务是部分分割时，绿色分支被激活，而当任务是分类或语义分割时，蓝色分支被激活。

4. 实验

在本节中，我们介绍了形状分类、部件分割和场景分割任务的实验结果。UPA的性能与最近基于注意力的网络进行了比较。随后，我们将UPA应用于各种骨干网络，研究它对标准和现代网络的影响。

实验设置。我们对比较各种注意力所提供的相对性能改进特别感兴趣。具体来说，实验是通过固定骨干网架构而改变注意力层来进行的。我们选择标准的SA和DNL[23]作为基线。此外，我们还提出了它们的局部变体（局部SA和局部DNL），以量化限制感受野的直接影响。

我们选择PointNet++[11]作为主干，因为它在最近的研究中作为构建块很受欢迎[27, 44, 28, 29]。网络结构图见图4，详细配置见补充材料。使用其他骨干网的结果将在第4.4节中介绍。为了与最近的基于注意力的方法进行比较，我们还报告了Set Transformer[19]、PAT[20]和PointASNL[38]的性能。其他实施细节在补充材料中报告。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_点云_22

图4：本研究中使用的特定任务架构。上面的模型用于分类，而下面的模型则用于分割任务。N代表输入点的数量。

4.1. 形状分类

数据。我们使用ModelNet40[42]数据集，其中包含9,843个CAD模型用于训练，2,468个模型用于测试。我们使用[10]提供的预处理的点云数据作为基准。所有的输入都被归一化为一个单位球。我们通过随机各向异性缩放和随机平移对输入进行增强。按照[28]，输入点的数量和特征分别被设置为1,024和三维坐标。

结果。如表2所示，与其他方法相比，UPA和local-DNL提供了最大的性能增益，揭示了同时对与查询有关的信息和与查询无关的信息进行建模的有效性。此外，UPA超过了基于注意力的强大方法，或与之相当，显示了其作为一个组合模块的有效性。局部的SA和局部的DNL都优于其全局的对应方法，这就验证了限制操作范围的有用性。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_点云_23

表2：各种点云理解任务的结果。对于分类、部件分割和场景分割，分别用总体精度（OA）、实例平均IoU（mIoU）和类平均IoU（mIoU）来衡量性能。

4.2. 形状部分的分割

数据。我们使用ShapeNet Part数据集[43]来评估形状部分分割的性能。该数据集包含16,880个模型，其中14,006个用于训练，2,874个用于测试。包括16个形状类别和50个部分，每个模型有2到6个部分的注释。我们使用[11]提供的数据，随机抽取2,048个具有表面法线的点作为输入。使用与分类任务相同的增强策略。投票[13, 38, 29]作为后处理步骤被应用。

结果。我们使用平均实例IoU作为性能指标[10]。如表2所示，UPA和local-SA取得了最佳性能。与DNL和local-DNL相比，UPA取得了更好的性能，这验证了所提出的公式的适用性。值得注意的是，除了SA，所有的注意力变体都优于PointASNL，其中标准SA与卷积相结合，证明了它们对SA的有效改进。

4.3. 场景分割

数据。我们在斯坦福大学大规模三维室内空间（S3DIS）[45]数据集上评估了我们的模型，用于场景分割。它包含六个室内环境，包括272个房间。每个点都被注释为13个类别之一。我们遵循PointNet[10]的数据准备程序。具体来说，每个输入点由一个9维向量表示（XYZ、RGB和与房间有关的标准化位置）。我们对模型进行了大约50K次迭代训练。我们使用第五区进行测试，其他的用于训练。

结果。如表2所示，UPA将基线大幅提高了6.0 mIoU，在相对性能增益方面大大超过了其他网络。SA和local-SA成功地提高了基线；然而，它们取得的相对收益较低。我们猜想，由于许多场景都是以平面物体为主，因此查询依赖的信息，如配对项所模拟的平滑度，对于场景理解尤为关键。如图5所示，与基线相比，UPA获得了更平滑的预测。UPA成功地提供了比local-DNL更大的改进，这进一步验证了其配对项在场景理解中的作用。

论文阅读：Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention_点云_24

4.4. 与现代架构的整合

我们通过将UPA模块应用于广泛的现有网络，进一步研究其有效性。如表所示。3所示，UPA为所有网络提供了一致的改进。特别是，UPA成功地增强了广泛使用SA层的PointASNL，揭示了UPA是可以提供SA以外的额外好处。

5. 设计分析

我们在本节中验证了UPA的设计选择。请注意，我们在以下实验中不进行投票。本节中使用PointNet++作为基线。

5.1. 块状成分分析

如表4所示，单值注意在部分分割中更有效，而成对注意在场景分割中更有效。我们怀疑与查询无关的特征在描述突出的部分边界时更有用，而与查询有关的特征在平面物体占主导地位的场景中能强制实现平滑性。在向块设计中加入特定任务的成分后，实现了最佳性能。然而，块的最佳设计仍然是一个开放的问题，我们把它留给未来的工作。

5.2. 消融研究

我们选择部分分割作为消融研究的默认任务，因为我们认为该任务有足够的复杂性。我们报告每个实验的实例mIoU。

邻居大小：如图6所示，将k从8扩大到16逐渐改善了性能。然而，当k变大时，mIoU开始下降。我们猜想，更大的感受区包含对目标任务没有帮助甚至有害的信息，从而使优化变得复杂。

汇总方法。Average和Max提高了性能，表明由我们的区块包裹的固定操作仍然是有益的。然而，Attention提供了更多的表现力，因为它实现了最好的性能。

阶段。我们通过在每个阶段增加一个UPA块来考察性能的提高。阶段n表示该块在第n个集合抽象层之后的位置。如表5所示，当UPA被整合到更深的阶段时，它对性能的影响更大。

组件安排。这里我们比较了组件的两种安排：顺序和平行。如表5所示，并行的安排优于所有顺序的安排，这验证了我们的设计选择。

6. 结论

我们提出了单对关注（UPA），以加强三维点云的处理。我们的分析表明，标准的自我注意（SA）是全局性的，它偏重于与查询无关的信息，而对与查询有关的信息则没有很好地利用。因此，SA对不同的查询产生类似的注意力图。因此，我们的新注意力旨在共同利用这两种信息，同时通过本地操作，始终与查询有关。广泛的实验表明，UPA一直优于SA和其他注意力，特别是在具有挑战性的任务中，对查询依赖性的编码显得很有用。此外，配备了所提出的UPA，vanilla PointNet++在各种任务中成功地胜过或与最先进的基于注意力的方法持平。此外，作为一个组合模块，UPA成功地提高了各种现代骨干的性能，证明了其广泛的适用性。