论文阅读：PatchFormer： an efficient point transformer with patch attention-摩杜云开发者社区

PatchFormer： an efficient point transformer with patch attention

Zhang等人（2022）

PatchFormer：具有补丁注意力的高效点转换器

引入了补丁注意力（PAT）来自适应地学习一组小得多的基础来计算注意力图。通过基于这些基础的加权求和，PAT 不仅捕获全局形状上下文，而且还实现了输入大小的线性复杂度。此外，我们提出了一个轻量级的多尺度注意力（MST）块来在不同尺度的特征之间建立注意力，为模型提供多尺度特征。

配备 PAT 和 MST，我们构建了名为 PatchFormer 的神经架构，它将这两个模块集成到点云学习的联合框架中。

PAT，通过低秩近似计算注意力图 [17, 52]。我们的主要观察是，3D 形状是由其局部部分组成的，因此同一部分中的点的特征应该具有相似的语义。基于这一观察，我们首先利用内在的几何相似性，将 3D 形状上的局部点聚类为一个补丁，并通过聚合同一补丁中所有点的特征来估计基础。然后我们使用自查询和自基数的乘积来近似全局注意力图，可以通过计算自查询和自键来获得。值得注意的是，此类产品的表示是低秩的，并且丢弃来自输入的噪声信息。

大型室内场景通常包含小实例（例如椅子和灯）和大对象（例如桌子），建立它们之间的关系需要多尺度注意机制。

提出了一个用于点云学习的轻量级多尺度注意力（MST）块，它由两个步骤组成。第一步，我们的 MST 块将点云转换为体素网格，使用不同尺度的多个卷积核对框进行采样，然后将这些网格连接为一个嵌入（见图 4）。

论文阅读：PatchFormer： an efficient point transformer with patch attention_3D

第 1 阶段 MST 块中多尺度特征聚合的图示。这是一个 2D 示例，可以轻松扩展到 3D 情况。输入体素网格由三个 DWConv 内核（即 3 × 3 × 3、5 × 5 × 5、7 × 7 × 7）采样，步幅为 1×1×1。每个嵌入都是通过投影和连接三个 3D 框来构建的

论文阅读：PatchFormer： an efficient point transformer with patch attention_点云_02

PatchFormer的架构：PatchFormer由三个阶段组成，每个阶段包含两个块：MST块和PAT块。专门的头（例如分类头）后面是特定任务的最后阶段。 MST块：它首先将点云体素化为体素网格，聚合多尺度特征，然后进行基于3D窗口的SA（W-SA）以捕获局部信息。最后，MST 块将体素网格转换为点并将它们输入到 PAT 块中。 MST 中的数字表示使用 DWConv 的内核的大小，R 表示相对位置偏差，W-SA 表示基于 3D 窗口的自注意力。

论文阅读：PatchFormer： an efficient point transformer with patch attention_复杂度_03

Patch Attention

由两个步骤组成，包括基础估计和数据重新估计

基础估计。在这一步中，我们估计一个紧凑基集 B ∈ RM×D，其中 M 是基数。

特别是，我们引入了补丁实例库的概念。对于数据集中的每个点云 P，我们将其过分割为 M 个补丁 (M << N)，并基于此创建 M 个补丁实例库。这样，全局形状可以通过每个补丁实例基的集合来近似，该集合具有较少的总数。为了简单起见，我们使用 K-Means 算法将 P 分割成 M 个补丁 {S1, S2, ..., SM}，在分类任务中默认 M=96。

我们通过聚合Sm中所有点的表示来将每个基定义为bm，它可以描述为：

论文阅读：PatchFormer： an efficient point transformer with patch attention_3D_04

这里， fi 是点 pi 的表示，变换函数 φ(·) 是具有一个线性层和一个 ReLU 非线性的 MLP，wi 是属于 Sm 的 fi 的归一化度。我们使用空间 softmax 来标准化每个补丁。

一般来说，我们的基础估计方法可以通过数据驱动的方式自适应地调整同一块中的所有点对基础的贡献。这种自适应调整有助于适应固有几何子流形。

数据重新估计。估计基数 B 后，我们可以用 B 替换 K 矩阵，并将方程 3 重新表述为：

论文阅读：PatchFormer： an efficient point transformer with patch attention_点云_05

论文阅读：PatchFormer： an efficient point transformer with patch attention_点云_06

其中 A ∈ R N×M 是由紧凑的基组。之后，最终的基数 B 和注意力图 A 用于重新估计输入 F。我们制定一个新的方程来使用〜F 重新估计 F，如下所示：

论文阅读：PatchFormer： an efficient point transformer with patch attention_点云_07

由于～F ∈ R N×D 是由紧基集 B 构造的，因此与输入 F 相比，它具有低秩性质。

受 PCT [10] 的启发，我们通过逐元素减法计算估计特征 ~F 与输入特征 F 之间的差异。最后，我们将差异输入 MLP 层并采用残差连接策略来帮助将信息传播到更高层。该步骤可以表述为：

论文阅读：PatchFormer： an efficient point transformer with patch attention_复杂度_08

其中 Fouput ∈ R N×D 是我们的 PAT 块的输出，而φ(·) 是 MLP具有一个线性层和一个 ReLU 非线性层。

复杂性分析。与标准 SA 模块相比，我们的 PAT 找到了点云点的代表性基集，这将复杂度从 O(N2 ) 降低到 O(MN) (M << N)，其中 M 和 N 是数量分别是基数和点数。而且，我们只需要在原始点云P上计算一次K-Means算法，就可以通过CUDA并行加速。尽管 K 均值优化具有渐进复杂度 O(NMC)，但在我们的网络中可以忽略它，因为 M 是固定的且 C = 3。

MST 块。该块由两个步骤组成，包括多尺度特征聚合和注意力构建。

多尺度特征聚合。此步骤用于为每个阶段生成多尺度特征。图 4 说明了第一个 MST 块，它位于 Stage-1 之前，作为例子。我们接收体素网格作为输入，使用三个不同大小的内核对框进行采样。三个内核的步幅保持相同，以便它们生成相同数量的嵌入。从图4中可以看出，每三个对应的盒子拥有相同的中心，但位于不同的尺度。这三个盒子将被投影并连接为一个嵌入。在实践中，采样和投影的过程可以通过三个DWConv层来实现。请注意，我们对大内核使用较低的维度，而对小内核使用较高的维度。

图4在其子表中提供了具体的分配规则，其中给出了128维的示例。与平均分配维度相比，我们的方案降低了计算成本，同时保持了模型的高性能。其他阶段的MST块以类似的方式工作。如图 2 所示，Stage-2/3 中的 MST 块使用两个内核（3 × 3 × 3 和 5 × 5 × 5）。步长设置为 1 × 1 × 1。为了计算效率，内核大小大于 5 × 5 × 5 的 DWConv 通过堆叠内核大小为 3 × 3 × 3 和 5 × 5 × 5 的多个卷积来实现。

注意力建设。建立不同尺度特征之间的注意力。我们尝试在多尺度特征图上进行标准SA。然而，完整 SA 机制的计算复杂度与特征图大小成二次方。因此，对于以高分辨率特征图为输入的 3D 视觉任务（例如语义分割），它将承受巨大的计算成本。

为了解决这个缺点，我们的 MST 块将 SA 计算限制为非重叠的本地 3D 窗口。此外，我们观察到许多先前的工作 [21,22,41] 已经表明，在 SA 计算中包含相对位置偏差可能是有利的。因此，我们引入 3D 相对位置偏差 R ∈ R V 3×V 3 为

论文阅读：PatchFormer： an efficient point transformer with patch attention_3D_09

其中 Q, K, V ∈ R V 3×D 是查询、键和值矩阵，V 3 是局部 3D 窗口中体素网格的数量。由于沿每个轴的相对位置位于 [−V + 1, V −1] 范围内，因此我们参数化一个较小尺寸的偏置矩阵 ^R ∈ R (2V −1)×(2V −1)×(2V −1) ，R 中的值取自 ^R。

对于跨窗口信息交互，现有的工作[21,33,37]建议应用光环或移动窗口来扩大感受野。然而，每个 Transformer 块内的元素仍然具有有限的注意力区域，并且需要堆叠更多的块来实现大的感受野。在我们的网络中，局部注意力建立在多尺度输入特征中。因此，我们不需要为跨窗口连接或更大的感受野堆叠更多的注意力层。