论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling-摩杜云开发者社区

Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

NeurIPS 2022

Paper link: https://proceedings.neurips.cc/paper_files/paper/2022/file/d78ece6613953f46501b958b7bb4582f-Paper-Conference.pdf

Code link: https://github.com/Gofinge/PointTransformerV2

摘要：

作为探索 3D 点云理解的 Transformer 架构的开创性工作，Point Transformer 在多个竞争激烈的基准测试中取得了令人印象深刻的结果。在这项工作中，我们分析了 Point Transformer 的局限性，并提出了强大而高效的 Point Transformer V2 模型，其新颖的设计克服了先前工作的局限性。特别是，我们首先提出了组向量注意力，这比之前版本的向量注意力更有效。继承了可学习权重编码和多头注意力的优点，我们通过新颖的分组权重编码层提出了分组向量注意力的高效实现。我们还通过额外的位置编码乘数来加强位置信息以引起注意。此外，我们设计了新颖且轻量级的基于分区的池方法，可以实现更好的空间对齐和更有效的采样。大量实验表明，我们的模型比其前身实现了更好的性能，并在几个具有挑战性的 3D 点云理解基准上实现了最先进的水平，包括 ScanNet v2 和 S3DIS 上的 3D 点云分割以及 ModelNet40 上的 3D 点云分类。

1 简介

Point Transformer (PTv1) [1] 将自注意力网络引入 3D 点云理解。 PTv1 将矢量注意力 [2] 与 U-Net 风格的编码器-解码器框架相结合，在多个 3D 点云识别任务中取得了显着的性能，包括形状分类、物体部分分割和语义场景分割。

在这项工作中，我们分析了 Point Transformer (PTv1) [1] 的局限性，并提出了一种新的优雅且强大的骨干网，名为 Point Transformer V2 (PTv2)。我们的 PTv2 通过一些新颖的设计改进了 PTv1，包括具有改进的位置编码的高级分组向量注意力，以及高效的基于分区的池化方案。

PTv1中的向量注意力层利用MLP作为权重编码，将查询和密钥的减法关系映射到可以调制值向量的各个通道的注意力权重向量。然而，随着模型的深入和通道数量的增加，权重编码参数的数量也急剧增加，导致严重的过拟合并限制了模型深度。为了解决这个问题，我们提出了具有更参数有效的公式的分组向量注意力，其中向量注意力被分成具有共享向量注意力权重的组。同时，我们证明了著名的多头注意力 [3] 和向量注意力 [2, 1] 是我们提出的分组向量注意力的退化情况。我们建议的分组向量注意力继承了向量注意力和多头注意力的优点，同时更加强大和高效。

此外，点位置为 3D 语义理解提供重要的几何信息。因此，3D 点之间的位置关系比 2D 像素更重要。然而，以前的3D位置编码方案大多遵循2D位置编码方案，并没有充分利用3D坐标中的几何知识。为此，我们通过对关系向量应用额外的位置编码乘数来加强位置编码机制。这样的设计增强了模型中的位置关系信息，我们在实验中验证了其有效性。

此外，值得注意的是，点的不规则、不均匀的空间分布是点云处理的池化模块的重大挑战。以前的点云池方法依赖于采样方法（例如最远点采样[4]或网格采样[5]）和邻居查询方法（例如kNN或半径查询）的组合，这是耗时的并且在空间上不对齐。为了克服这个问题，我们超越了采样和查询相结合的池化范式，并将点云划分为不重叠的分区，以直接融合同一分区内的点。我们使用统一网格作为分区分隔符并取得了显着的改进。

总之，我们提出了Point Transformer V2，它从几个角度改进了Point Transformer [1]：

• 我们提出了一种有效的分组向量注意力（GVA），具有新颖的权重编码层，可以实现注意力组内部和之间的有效信息交换。

• 我们引入了改进的位置编码方案，以更好地利用点云坐标，并进一步增强模型的空间推理能力。

• 我们设计了基于分区的池化策略，与以前的方法相比，可以实现更高效、空间上更好对齐的信息聚合。

我们进行了广泛的分析和对照实验来验证我们的设计。我们的结果表明 PTv2 优于前代作品，并在各种 3D 理解任务上树立了新的最先进水平。

2 相关作品

图像transformers。随着ViT[6]的巨大成功，卷积在视觉任务中的绝对统治地位被Vision Transformer动摇，成为2D图像理解的趋势[7,8,9,10]。 ViT 通过将图像块视为标记，将 NLP 中影响深远的缩放点积自注意力和多头自注意力理论 [3] 引入到视觉中。然而，对整个图像进行全局注意力操作会消耗过多的内存。为了解决内存消耗问题，Swin Transformer [7]引入了基于网格的局部注意机制，以在一系列移位窗口中操作变压器块。

点云理解。基于学习的 3D 点云处理方法可分为以下类型：基于投影的网络、基于体素的网络和基于点的网络。处理点云等不规则输入的直观方法是将不规则表示转换为规则表示。基于投影的方法将 3D 点云投影到各种图像平面中，并利用基于 CNN 的 2D 主干来提取特征表示 [11,12,13,14]。另一种方法是通过将不规则点云转换为规则体素表示来在 3D 中进行卷积操作 [15, 16]。在稀疏卷积的引入和实现之前，这些基于体素的方法由于点云的稀疏性而效率低下[17, 18]。基于点的方法直接从点云中提取特征，而不是将不规则点云投影或量化到 2D 或 3D 的规则网格上 [19,4,20,5]。最近提出的基于变压器的点云理解方法（在下一段中介绍）也被归类为基于点的方法。

点云transformers。基于变压器的网络属于用于点云理解的基于点的网络类别。在视觉变换器的研究热潮中，几乎在同一时期，Zhao等人[1]和Guo等人[21]发表了将注意力应用于点云理解的探索，成为该方向的先驱。 Guo等人提出的PCT[21]直接在点云上进行全局关注。他们的工作与 ViT 类似，都是有限的由内存消耗和计算复杂度决定。同时，基于SAN[2]提出的向量注意力理论，Zhao等人提出的Point Transformer[1]直接在每个点与其相邻点之间进行局部注意力，缓解了上述的记忆问题。 Point Transformer 在多个点云理解任务中取得了显着的成果，并在多项竞争挑战中取得了最先进的成果。在这项工作中，我们分析了Point Transformer [1]的局限性，并为注意力和池化模块提出了几种新颖的架构设计，以提高Point Transformer的有效性和效率。我们提出的模型 Point Transformer V2 在各种 3D 场景简述任务中的表现均优于 Point Transformer。

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_权重

3 Point Transformer V2

我们分析了 Point Transformer V1 (PTv1) [1] 的局限性，并提出了我们的 Point Transformer V2 (PTv2)，包括在 PTv1 上的几个改进模块。我们首先介绍数学公式，并重新审视第 3.1节 PTv1 中使用的向量自注意力。基于观察到 PTv1 的参数随着模型深度和通道大小的增加而急剧增加，我们在第 3.2 节中提出了强大且高效的分组向量注意力。此外，我们在第 3.3 节中介绍了改进的位置编码以及第 3.4 节中新的池化方法。我们最后在第3.5节中描述了我们的网络架构。

3.1 问题表述和背景

问题表述。令 M = (P; F) 为包含一组点 xi = (pi ; fi) 2 M 的 3D 点云场景，其中 pi 2 R 3 表示点位置，fi 2 R c 表示点特征。点云语义分割的目标是预测每个点 xi 的类标签，而场景分类的目标是预测每个场景 M 的类标签。 M(p) 表示将位置 p 处的点映射到子集的映射函数M 表示为“参考集”。接下来，我们重新审视 PTv1 [1] 中使用的自注意力机制。

局部注意力。对场景中的所有点进行全局注意力 [6, 21] 计算量很大，并且对于大规模 3D 场景来说是不可行的。因此，我们应用局部注意力，其中每个点 xi 的注意力在点的子集（即参考点集 M(pi)）内起作用。

移位网格注意力[7]，其中注意力交替地应用于两组不重叠的图像网格，已经成为图像转换器的常见做法[22,23,24,25]。类似地，3D空间可以被分割成均匀的不重叠的网格单元，参考集被定义为同一网格单元内的点，即同一网格单元内的M(pi) = f(pj ; fj ) j pj作为猪。然而，这种注意力依赖于繁琐的移位网格操作来实现全局感受野，并且在不同网格内的点密度不一致的点云上效果不佳。

PTv1采用邻域注意力机制，其中参考点集是给定点的局部邻域，即M(pi) = f(pj ; fj ) j pj 2 Neighborhood(pi)g。具体来说，邻域点集M(pi)被定义为PTv1中pi的k个最近邻(kNN)点。我们的实验（第 4.3 节）表明邻域注意力比移位网格注意力更有效，因此我们的方法采用邻域注意力。

标量注意力和向量注意力。给定点 xi = (pi ; fi) 2 M，我们应用线性投影或 MLP 将点特征 fi 投影到查询 qi 、键 ki 和值 vi 的特征向量，每个特征向量都有 ch 通道。作用于点 xi 及其参考点集 M(pi) 的标准标量注意力（SA）可以表示如下：

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_权重_02

上述公式中的注意力权重是根据查询向量和关键向量之间的缩放点积 [3] 计算得出的标量。多头标量注意力（MSA）[3]是 SA 的扩展，它并行运行多个标量注意力。 MSA在变压器中应用广泛，我们将在第二节中展示。 3.2 MSA 是我们提出的分组向量注意力的退化情况。

PTv1 采用向量注意力，而不是标量注意力权重，其中注意力权重是可以调节各个特征通道的向量。在 SA 中，标量注意力是通过查询向量和关键向量之间的缩放点积来计算的。在向量注意力中，权重编码函数将查询和密钥之间的关系编码为向量。向量注意力[2]的公式如下：

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_权重_03

其中是 Hadamard 产品。 γ 是关系函数（例如减法）。！：R c 7！ R c 是可学习的权重编码（例如，MLP），它计算注意力向量以在聚合之前按通道重新加权 vj。图 2（a）显示了一种使用向量注意力和线性权重编码的方法。

3.2 分组向量注意力

在向量注意力中，随着网络的深入和特征编码通道的增多，权重编码层的参数数量急剧增加。大参数量限制了模型的效率和泛化能力。为了克服向量注意力的局限性，我们引入了分组向量注意力，如图1（左）所示。

分组注意力。我们将值向量 v 2 R c 的通道均匀划分为 g 组 (1 ≤ g ≤ c)。权重编码层输出具有 g 个通道而不是 c 个通道的分组注意力向量。同一注意力组内 v 的通道共享来自分组注意力向量的相同标量注意力权重。从数学上来说

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_点云_04

其中 γ 是关系函数，! ：R c 7！ R g 是下一段中定义的可学习分组权重编码。方程中的第二个方程。 3是分组向量聚合。图2（a）展示了通过全连接权重编码实现的普通GVA，与向量注意力（图2（b））相比，分组权重编码函数参数的数量减少了，从而产生了更强大和高效的模型。

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_权重_05

GVA 是 VA 和 MSA 的广义表述。当 g = c 时，我们的 GVA 退化为向量注意力（VA），如果！在等式中3 定义如下，

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_池化_06

其中 cg = c/g 且 r ∈ R 1×c 。

线性分组。受 MSA 权重编码函数的启发，我们设计了分组线性层 ζ(r) : R c 7! R g 其中不同组的输入向量独立地用不同的参数进行投影。分组线性进一步减少了权重编码函数中的参数数量。我们最终采用的分组权重编码函数由分组线性层、归一化层、激活层和允许组间信息交换的全连接层组成。从数学上来说，

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_权重_07

其中 cg = c/g, p1,..., pg ∈ R c g 是可学习的参数，◦表示函数组合。

3.3 位置编码乘法器

与 2D 图像中离散的、规则网格的像素不同，3D 点云中的点不均匀地分布在连续的欧氏度量空间中，使得 3D 点云中的空间关系比 2D 图像复杂得多。在 Transformer 和 Attention 模块中，空间信息是通过将位置编码 δbias(pi − pj ) 添加到关系向量 γ(qi ; kj ) 作为偏差来获得的。

由于第 2 节中提到的 PTv1 中向量注意力的泛化限制。 3.2、为向量注意力添加更多位置编码能力无助于提高性能。在PTv2中，分组向量注意力具有减少过拟合和增强泛化的作用。由于分组向量注意力限制了注意力机制的能力，我们通过关系向量的附加乘数 δmul(pi − pj ) 来加强位置编码，重点是学习复杂的点云位置关系。如图1（左）所示，我们改进后的位置编码如下，

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_权重_08

其中是 Hadamard 产品。 δmul； δ偏差：R d 7！ R d 是两个 MLP 位置编码函数，它们以相对位置作为输入。位置编码乘数补充了组向量注意力，以实现网络容量的良好平衡。

3.4 基于分区的池化

其他基于点的方法采用的传统的基于采样的池化过程使用采样和查询方法的组合。在采样阶段，采用最远点采样[4]或网格采样[5]来为后续编码阶段保留采样点。对于每个采样点，执行邻居查询以聚合来自邻近点的信息。在这些基于采样的池化过程中，查询点集在空间上不对齐，因为每个查询集之间的信息密度和重叠是不可控的。为了解决这个问题，我们提出了一种更高效、更有效的基于分区的池化方法，如图 1 所示。

池化。给定点集 M = (P; F)，我们将 M 划分为子集 [M1;M2; :::;Mn0 ] 通过将空间分成不重叠的分区。我们将来自单个分区的点 Mi = (Pi ; Fi) 的每个子集融合如下：

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_池化_09

其中 (p 0 i ; f 0 i ) 是子集 Mi 聚合的池化点的位置和特征，U 2 R c×c 0 是线性投影。从 n 0 个子集中收集池化点，得到点集 M0 = fp 0 i ； f 0 i g n 0 i=1 用于下一阶段的编码。在我们的实现中，我们使用统一网格来划分点云空间，因此基于分区的池化也称为网格池化。

Unpooling。通过插值进行非池化的常见做法也适用于基于分区的池化。这里我们介绍一种更直接、更高效的unpooling方法。为了将融合点集 M0 解池回 M，M 中的点位置是从池化过程中记录的，我们只需要获取 M 中每个点的特征。借助基于网格的分区 [M1;M2 ; :::;Mn0 ] 在池化阶段，我们可以将点特征映射到同一子集中的所有点，

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_点云_10

3.5 网络架构

骨干结构。继之前的工作[18, 1]之后，我们采用了具有跳跃连接的U-Net架构。编码器和解码器有四级，块深度分别为 [2, 2, 6, 2] 和 [1, 1, 1, 1]。四个阶段的网格大小乘数为[x3.0，x2.5，x2.5，x2.5]，表示相对于前一池化阶段的扩展比率。注意力是在当地社区进行的，如第 2 节的“社区注意力”中所述。 3.1.在秒。 4.3 我们将邻域注意力与移位网格注意力进行比较。

初始特征维度为 48，我们首先将输入通道嵌入到具有 6 个注意力组的基本块中。然后，每次进入下一个编码阶段时，我们都会将该特征维度和注意力组加倍。对于四个编码阶段，特征维度为[96,192,384,384]，对应的注意力组为[12,24,48,48]。

输出头。对于点云语义分割，我们应用 MLP 将主干网生成的点特征映射到输入点集中每个点的最终 logits。对于点云分类，我们对编码阶段产生的点特征应用全局平均池化以获得全局特征向量，然后使用 MLP 分类器进行预测。

4 实验

为了验证所提出方法的有效性，我们对用于语义分割的ScanNet v2 [44]和S3DIS [45]以及用于形状分类的ModelNet40 [46]进行了实验评估。附录中提供了实施细节。

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_权重_11

4.1 语义分割

数据和指标。对于语义分割，我们在 ScanNet v2 [44] 和 S3DIS [45] 上进行实验。 ScanNet v2 数据集包含从 RGB-D 帧重建的 1,513 个房间扫描。该数据集分为 1,201 个用于训练的场景和 312 个用于验证的场景。模型输入的点云是从重建网格的顶点中采样的，每个采样点都被分配了一个来自 20 个类别（墙、地板、桌子等）的语义标签。用于语义场景解析的 S3DIS 数据集由来自三座不同建筑物的六个区域的 271 个房间组成。遵循通用协议 [36,4,1]，区域 5 在训练期间被保留并用于测试。与 ScanNet v2 不同的是，S3DIS 的点在网格表面上进行密集采样，并注释为 13 类。遵循标准协议 [4]，我们使用平均类并集交集 (mIoU) 作为 ScanNet v2 验证和测试集的评估指标。我们使用平均类并集交集 (mIoU)、平均类精度 (mAcc) 和整体逐点精度 (OA) 来评估 S3DIS 区域 5 上的性能。

性能比较。表 1 和表 2 分别显示了我们的 PTv2 模型与之前的 ScanNet v2 和 S3DIS 方法的结果比较。我们的 PTv2 模型在所有评估指标上都优于先前的方法。值得注意的是，PTv2 在 ScanNet v2 验证集上明显优于 PTv1 [1] 4.8% mIoU。

可视化。点云语义分割的定性结果如图 3 和图 4 所示。我们的 PTv2 模型能够预测非常接近真实情况的语义分割结果。值得注意的是，我们的模型可以捕获详细的结构信息并为具有挑战性的场景预测正确的语义。例如，在有椅子的 S3DIS 场景中，PTv2 能够清晰地预测椅子腿和扶手。

4.2 形状分类

数据和度量。我们在 ModelNet40 数据集上测试了我们提出的用于 3D 点云分类的 PTv2 模型。 ModelNet40 [46] 数据集由属于 40 个对象类别的 12,311 个 CAD 模型组成。分离出 9,843 个模型用于训练，其余 2,468 个模型保留用于测试。按照社区的常见做法，我们报告了测试集上的类平均准确率（mAcc）和总体准确率（OA）。

性能比较。我们测试了 PTv2 模型，并将其与 ModelNet40 数据集上的先前模型进行比较以进行形状分类。结果如表 3 所示，表明我们提出的 PTv2 模型在 ModelNet40 形状分类上实现了最先进的性能。

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_点云_12

4.3 消融研究

我们进行消融研究来检查我们设计中每个模块的有效性。消融研究结果在 ScanNet v2 验证集上报告。

注意力类型。我们首先研究不同注意力设计的效果。我们尝试了第 2 节中介绍的两种类型的局部注意力。 3.1，即移位网格注意力和邻域注意力[1]。然后，为了验证我们提出的分组向量注意力（表示为“GVA”）的有效性，我们将其与常用的多头自注意力（表示为“MSA”）进行比较。我们在表 4 的所有实验中使用 PTv1 [1] 中的普通位置编码和我们提出的基于分区的池化方案。它表明邻域注意力的表现明显优于移位网格注意力，表明邻域注意力更适合点云其分布不均匀。此外，我们提出的分组向量注意力在移动网格注意力和邻域注意力方面始终优于常用的多头自注意力。所以我们的分组向量注意力不仅比多头自注意力更高效，而且更有效。 GVA和MSA之间的比较表明了第3.2节中分组权重编码的分组线性层中可学习参数的有效性。

权重编码。我们研究不同权重编码函数的影响！在表6中。权重编码函数在第3.1 和第3.2节中介绍。不同的注意力机制采用不同的权重编码函数。我们在表 6 中的所有实验中使用 PTv1 [1] 中的普通位置编码和我们提出的网格池方案。我们尝试了以下权重编码函数：（1）等式4中多头标量注意力的权重编码表示为“MSA”。 (2)权重编码为线性层，表示为“L”。 (3) 分组线性层，即式5中的z，记为“GL”。 (4) 线性层，然后是批量归一化、激活和另一个线性层，表示为“L+N+A+L”。 (5)分组线性层，然后是批量归一化、激活和线性层，表示为“GL+N+A+L”。 (5) 也是用于我们的分组向量注意力的分组权重编码函数，在等式5中引入为w。表 6 中的结果表明，我们的分组权重编码函数优于其他比较设计。具体来说，比较（1）、（3）和（5），GL 稍微优于 MSA，但添加额外的组间信息交换并结合适当的归一化和激活可以提高性能，使其优于 MSA。此外，（5）和（4）之间的比较以及（3）和（2）之间的比较都表明我们的分组线性层优于朴素线性层，即使分组线性层的参数少g倍并且需要更少计算优于线性层。

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_权重_13

池化方法。在第 3.4节我们讨论了 PTv1 中基于采样的池化的潜在局限性，并提出了一种基于非重叠分区的新池化和非池化方案。我们还将基于分区的池化的简单而有效的基于网格的实现命名为网格池。为了进一步检验我们方法的优越性，我们尝试了表 5 中不同的池化-非池化方案。

对于我们通过网格实现的基于分区的池化，基本网格大小为 0.02 米，这与数据预处理期间的体素化网格大小相同。网格大小乘数是前一池化阶段的网格大小扩展比率。例如，[×4:0; ×2：0； ×2：0； ×2:0]表示网格大小为：[0:08; 0:16； 0:32; 0:64]米，分别。我们为初始网格大小选择相对较大的值（×3：0和×4：0）以提供足够大的感受野，这类似于图像转换器中的常见做法[6]。对于后续的池化阶段，我们观察到 ×2:0 网格大小增加导致点云的池化比率近似为 4，而 ×2:5 网格大小增加导致点云池化比率近似为 6。我们选择相同的采样基于采样的池化比例为 4 和 6，以确保公平比较。

表 5 中的结果表明，我们基于分区的池化比基于采样的方法实现了更高的 mIoU。对于最远点采样的基于采样的池化，当采样率从 4 增加到 6 时，性能显着下降。然而，对于我们通过网格实现的基于分区的池化，我们观察到初始网格大小和后续网格大小乘数并没有显着降低。影响整体性能，因此我们可以使用更大的网格尺寸来减少每个阶段的点数以节省内存。

模块设计。我们消除了 PTv2 中引入的不同模块：分组向量注意力（VGA）、位置编码乘数（PE Mul）、网格实现的基于分区的池（Grid Pool）和分区图反池化（Map Unpool），结果如图所示表 7. 实验一采用的模型是 PTv1 [1]，它作为我们设计的基线结果。受益于结构参数调整和更好的数据处理（也与其余实验共享），我们的基线结果从 70.6% 提高到 72.3%。实验 II 到 V 依次添加我们提出的每个组件，逐渐将我们的基线结果增加到 75.4%。 mIOU的增加表明了每个组件的有效性。

论文阅读：Point Transformer V2: Grouped Vector Attention and Partition-based Pooling_点云_14

4.4 模型复杂性和延迟

我们进一步进行模型复杂性和延迟研究，以检验我们工作中几种设计的卓越效率。我们在单个 TITAN RTX 上记录批量大小为 4 的 ScanNet v2 验证集中每次扫描的摊销前向时间。

池化方法。表8显示了不同池化方法和池化比率的PTv2的前向时间和mIoU。我们将我们的池化方法与两种经典的基于采样的池化方法进行比较：FPS-kNN 和 Grid-kNN。 FPS-kNN池化[4, 1]使用最远点采样（FPS）对指定数量的点进行采样，然后查询k个最近邻点进行池化。我们将 Strided KPConv [5] 中的池化方法称为 Grid-kNN 池化，因为它使用统一网格来采样点，然后应用 kNN 方法来索引邻居。这导致池化感受野的不可控重叠。如表所示，我们的网格池方法不仅速度更快，而且实现了更高的 mIoU。

模块设计。表 9 总结了 ScanNet v2 验证集上的模型复杂度、时间消耗和评估性能的比较。同时，我们放弃了第一批转发时间以进行 GPU 准备。在表 9 中，GVA 指的是分组向量注意力。 L指的是由单个Linear实现的分组权重编码。 GL 是指由分组线性实现的分组权重编码。 GL-N-A-L是指分组线性层，后面是批量归一化、激活，以及一个线性层作为分组权重编码函数。 GP是指网格实现的基于分区的池化。 PEM指的是位置编码乘数。为了确保公平比较，PTv1 设置为与 PTv2 模型架构相同的深度和特征维度。通过对比实验1 和2、我们可以研究GVA的效果。同样的精神继续进行实验3 ,4、和5，每个实验都添加一个额外的模块，以便我们可以分别研究添加模块的效果。

比较实验1 ,2 ,3、和4，引入分组向量注意力（GVA）和分组权重编码显着提高了模型性能并略微减少了执行时间。在4和5之间的比较表明网格池化策略可以显着加快网络速度并进一步增强我们模型的泛化能力。

位置编码乘法器是唯一增加模型参数数量的设计，但实验6 展示了其在提高性能方面的有效性。同时，与基于体素的主干网络相比，我们的模型仍然是轻量级的，例如具有 3790 万参数的 MinkUNet42 [18]。

5 结论

我们提出了 Point Transformer V2 (PTv2)，它是一个强大且高效的基于 Transformer 的骨干网，用于 3D 点云理解。我们的工作对 Point Transformer V1 [1] 进行了一些重要的改进，包括分组向量注意力、改进的位置编码和基于分区的池化。我们的 PTv2 模型在点云分类和语义分割基准上实现了最先进的性能。