论文解读：CLIP2: Contrastive Language-Image-Point Pretraining fromReal-World Point Cloud Data-摩杜云开发者社区

CLIP2: Contrastive Language-Image-Point Pretraining fromReal-World Point Cloud Data

Zeng, Yihan, et al. "CLIP2: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

作者单位：华为诺亚方舟实验室香港科技大学香港中文大学中山大学

paper:https://openaccess.thecvf.com/content/CVPR2023/papers/Zeng_CLIP2_Contrastive_Language-Image-Point_Pretraining_From_Real-World_Point_Cloud_Data_CVPR_2023_paper.pdf

code:无

背景：CLIP在开放世界视觉理解任务中表现出了出色的性能。然而，由于文本-3D 数据对有限，将 2D 视觉语言模型 (VLM) 的成功应用到 3D 空间仍然是一个悬而未决的问题。利用 VLM 进行 3D 理解的现有工作通常采用为 3D 数据构建中间 2D 表示（将3D数据投影成2D图像），但代价是丢失 3D 几何信息。

因此提出了对比语言-图像-点云预训练 (CLIP2)，通过新颖的代理对齐机制直接学习现实场景中的可转移 3D 点云表示。具体来说，我们利用 2D 和 3D 场景中自然存在的对应关系，并从这些复杂场景中构建对齐良好且基于实例的文本图像点代理。最重要的是，我们提出了一个跨模式对比目标来学习语义和实例级对齐的点云表示。

论文解读：CLIP2: Contrastive Language-Image-Point Pretraining fromReal-World Point Cloud Data_clip

我们提出了对比语言-图像-点云预训练框架（简称 CLIP2），它将 3D 空间与更广泛的原始文本直接对齐，并将 3D 表示学习推进到开放世界时代。

我们的学习过程可以分为两个阶段：

首先，我们引入了三元组代理集合，通过从现实世界场景构建语言-图像-点三元组来减轻可访问预训练数据的限制。由于户外驾驶[2,19]和室内场景[9,32]的大规模真实3D数据集是在开放世界中收集的，因此它包含大量语义和多样性各异的真实物体。因此，我们将它们视为潜在的预训练数据源，无需额外的人工监督。具体来说，我们建议“代理”实例作为语言描述、2D 图像和 3D 点云之间的桥梁。借助对齐良好的 VLM、可扩展的字幕列表以及 2D 和 3D 之间的几何转换，我们自动创建超过 100 万个三元组以促进预训练。

其次，我们进一步提出了一种跨模态预训练方案来联合优化点云、语言和图像三种模态的特征空间对齐。它包含语义级文本-3D 相关性和实例级图像-3D 相关性的对比学习目标，这有助于学习的 3D 表示更好的可迁移性。

我们通过在四个流行的室内和室外真实世界数据集上对零样本识别性能进行基准测试来研究 CLIP2 的可转移能力，并发现比当前方法有显着改进，在 SunRGBD [32] 上达到 Top1 准确率 61.3%，在 ScanNet 上达到 43.8% [9]），nuScenes [2] 为 28.8%，ONCE [19] 为 56.0%。为了与现有方法 [1,13,36,43] 进行公平比较，我们在单个对象数据集 ScanObjectNN [34] 上进行零样本和少样本分类，并发现一致的优势，零样本分类相对于之前最先进的方法提高了 16.1%。为了验证 CLIP2 增加词汇量的能力，我们报告了数量结果和可视化，以显示长尾类别的改进发现。此外，我们对不同的表示进行消融和分析，并研究集成替代方案，以合并实际应用中所有可用表示的补充知识。我们的贡献可概括如下：

• 我们提出了一种新颖的 CLIP2 框架，该框架将 3D 空间与开放世界语言表示相结合，促进现实场景中的零样本传输。

• 我们在现实场景中提出了三元组代理收集方案，该方案缓解了文本3D 数据源的短缺并促进了预训练方法。

• CLIP2通过提出的跨模态预训练机制联合优化点云、语言和图像之间的相关性对齐，从而增强了学习到的3D表示的可迁移性。

• 我们的CLIP2 在5 个数据集（室内/室外场景和单个对象）上实现了最先进的零样本传输性能，并显示了现实世界中词汇量增加发现的高质量结果。

论文解读：CLIP2: Contrastive Language-Image-Point Pretraining fromReal-World Point Cloud Data_点云_02

图 2.CLIP2 框架概述。主要组件包含两部分，三元组代理集合和跨模态预训练。定义的三元组代理集 Dproxy 由语言标题 X T 、相应的图像实例 X I 和原始 3D 点云实例 X P 组成，它们来自真实场景下的免费数据源，无需任何标记工作。最重要的是，我们使用跨模态对比学习目标来预训练点云编码器 E P 。配备 CLIP2 后，学习到的 3D 点云表示 F P 与语言表示很好地对齐，这有助于现实世界中的下游零样本 3D 传输任务。