论文解读:Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders
  wh9rG0UkdQJu 2023年11月12日 77 0

Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders

Renrui Zhang, Liuhui Wang, Yu Qiao, Peng Gao, and Hongsheng Li. "Learning 3D Representations from 2D Pre-trained Models via<br>  Image-to-Point Masked Autoencoders", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 21769-21780.

大量图像数据的预训练已经成为鲁棒二维表示的事实。相比之下,由于昂贵的数据采集和标注,缺乏大规模的3D数据集严重阻碍了高质量3D特征的学习。在本文中,我们提出了一种替代方案,通过图像到点掩码自编码器(称为I2P-MAE)从2D预训练模型中获得优越的3D表示。通过自监督预训练,我们利用良好的2D知识来指导3D掩码自动编码,用编码器-解码器架构重建掩码点令牌。具体而言,我们首先利用现成的2D模型提取输入点云的多视图视觉特征,然后在此基础上进行两种图像到点的学习方案。首先,我们引入了一种2d引导掩蔽策略,该策略可以保持语义上重要的点标记对编码器可见。与随机掩蔽相比,该网络可以更好地集中在重要的3D结构上,并从关键的空间线索中恢复掩蔽令牌。另一方面,我们强制这些可见标记在解码器之后重建相应的多视图2D特征。这使得网络能够有效地继承从丰富图像数据中学习到的高级2D语义,用于判别3D建模。在我们的图像到点预训练的帮助下,冻结的I2P-MAE在没有任何微调的情况下,在ModelNet40上实现了93.4%的线性支持向量机准确率,与现有方法的完全训练结果相媲美。通过对ScanObjectNN最难分割的进一步微调,I2P-MAE达到了最先进的90.11%的准确率,第二好的准确率为+3.68%,展示了卓越的可转移能力。

本文提出了一种替代方案,通过图像到点掩码自编码器从2D预训练模型中获得优越的3D表示。通过自监督预训练,利用良好的2D知识来指导3D掩码自动编码,用编码器-解码器架构重建掩码点令牌。在图像到点预训练的帮助下,冻结的I2P-MAE在ModelNet40上实现了93.4%的线性支持向量机准确率,并通过对ScanObjectNN最难分割的进一步微调,达到了最先进的90.11%的准确率,展示了卓越的可转移能力。

为了应对这一挑战,我们提出了 I2P-MAE,这是一种掩码自动编码框架,可进行图像到点知识传输,以进行自监督 3D 点云预训练。如图 1 所示,借助从丰富的图像数据中学习的 2D 语义,我们的 I2P-MAE 可以生成高质量的 3D 表示,并对下游 3D 任务发挥强大的可转移能力。具体来说,参考图 2(左)中的 3D MAE 模型 [44, 78],我们首先采用非对称编码器-解码器变换器 [12] 作为 3D 预训练的基本架构,它将随机屏蔽点云作为输入并从可见点重建掩模点。然后,为了获取 3D 形状的 2D 语义,我们通过有效地将点云投影到多视图深度图中来弥合模型差距。这不需要耗时的离线渲染,并且很大程度上保留了不同视角的 3D 几何形状。除此之外,我们利用现成的2D模型来获取多视图2D特征以及点云的2D显着性图,并分别从两个方面指导预训练,如图2(右)所示)。

首先,与随机采样可见标记的现有方法[44, 78]不同,我们引入了一种2D引导掩蔽策略,该策略保留具有更多空间语义的点标记对于MAE编码器可见。具体来说,我们将多视图语义显着性图反投影到 3D 空间作为空间显着性云。显着性云中的每个元素表示对应的点标记。在这种显着性云的指导下,3D 网络可以更好地关注可见的关键结构,以了解全局 3D 形状,并根据重要的空间线索重建屏蔽标记。

其次,除了恢复屏蔽点标记之外,我们建议在 MAE 解码器之后同时从可见点标记重建 2D 语义。

对于每个可见标记,我们分别从不同视图获取其投影的 2D 表示,并将它们集成为 2D 语义学习目标。通过同时重建屏蔽的 3D 坐标和可见的 2D 概念,I2P-MAE 能够学习 2D 域中预训练的低级空间模式和高级语义,从而有助于实现卓越的 3D 表示。

通过上述图像到点的指导,我们的 I2P-MAE 显着加快了预训练的收敛速度,并在 3D 下游任务上展示了最先进的性能,如图 3 所示。从 2D ViT 学习[12 ] 通过 CLIP [50] 预训练,I2P-MAE 在没有任何微调的情况下,在 ModelNet40 [66] 上通过线性 SVM 实现了 93.4% 的分类准确率,已经超越了 Point-BERT [76] 完全微调的结果和Point-MAE [30]。经过微调后,I2P-MAE 在 ScanObjectNN [60] 最困难的分割上进一步实现了 90.11% 的分类准确率,显着超过第二好的 Point-M2AE [78] +3.68%。实验充分证明了从预先训练的 2D 模型中学习以获得卓越 3D 表示的有效性。

方法

I2P-MAE的整体流程如图4所示。

论文解读:Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders_3D

图.I2P-MAE 的管道。给定输入点云,我们利用 2D 预训练模型从投影深度图生成两个引导信号:2D 显着图和 2D 视觉特征。我们分别进行 2D 引导掩蔽和 2D 语义重建,以将编码的 2D 知识转移到 3D 点云预训练。


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月12日 0

暂无评论

推荐阅读
wh9rG0UkdQJu