论文阅读：Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation-摩杜云开发者社区

Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation

全景神经场：意识到语义对象的神经场景表示法

Kundu 等，2022

我们提出了全景神经场（PNF），这是一种对象感知神经场景表示，它将场景分解为一组对象（事物）和背景（东西）。每个对象都由一个定向 3D 边界框和一个多层感知器 (MLP) 表示，该多层感知器获取位置、方向和时间并输出密度和辐射度。背景内容由类似的 MLP 表示，该 MLP 还输出语义标签。每个对象 MLP 都是特定于实例的，因此比以前的对象感知方法更小、更快，同时仍然利用通过元学习初始化合并的特定于类别的先验。我们的模型仅从彩色图像构建任何场景的全景辐射场表示。我们使用现成的算法来预测相机姿势、物体轨迹和 2D 图像语义分割。然后，我们使用彩色图像的自监督和预测语义分割的伪监督进行综合分析，联合优化 MLP 权重和边界框参数。在现实世界动态场景的实验中，我们发现我们的模型可以有效地用于多种任务，例如新颖的视图合成、2D 全景分割、3D 场景编辑和多视图深度预测。

每个对象实例都由单独的 MLP 表示，以评估潜在移动且语义标记的 3D 边界框的局部域内的辐射场。内容背景的语义辐射场也由包含附加语义头的 MLP 表示。 MLP 的东西共同定义了一个全景辐射场，该场描述随时间变化的任何 3D 点的密度、颜色、类别和实例标签。

我们的框架和以前的对象感知框架 [44, 65] 之间的一个关键区别是我们如何训练和表示事物。如图 3 所示，与使用具有特定于实例的潜在代码的共享 MLP 的传统方法相比，我们的框架使用特定于实例的完全权重编码函数来表示每个对象。

这种设计选择是由几个因素驱动的。首先，由于 MLP 只需要表示单个对象实例，因此与共享 MLP 相比，我们可以拥有更小的 MLP，从而在具有多个对象的场景上获得更快的推理速度。其次，这允许对象 MLP 充分利用其能力来描述和过度拟合特定的新颖对象实例，这对于潜在编码来说可能是不可能的 [9]。第三，它更简单，不需要对核心 NeRF 模型架构进行任何更改。对象级先验也可以使用以下方法合并到我们的特定于实例的模型中基于元学习的初始化（参见第 3.4 节）。

论文阅读：Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation_时间戳

图 3.我们的框架使用特定于实例的完全权重编码函数来表示每个对象（左），与使用一个共享 MLP 和特定于实例的潜在代码的传统方法（右）相比。特定于实例的 MLP 可以更小，因为与共享 MLP 相比，它们只需要有足够的容量来表达单个对象实例。在具有多个对象的场景中，我们的方法可以明显更快。

3.1.场景表示

我们框架的核心是全景辐射场表示。该表示接受由点位置 x ∈ R 3 、视图方向 d ∈ R 3 和时间 t ∈ R 组成的输入查询。查询的输出是颜色、密度、语义标签和实例标签。该场是多个不同神经功能的组合。每个 3D 对象（事物）都有单独的字段，还有另一个更大的字段用于背景（事物）。与一个对象关联的字段在面向移动 3D 的边界框内定义。背景由在更大的场景边界框中定义的另一个神经函数表示。它对密度、外观和语义标签进行编码。

事物：我们表示中的前景对象由动态边界框内的神经函数表示。为了实例化场景中的一组对象轨迹，我们首先运行仅 RGB 3D 对象检测器 [45] 和跟踪器 [61]。

这为每个识别的对象实例k提供了边界框轨迹Tk和语义类。该轨道由一系列变换矩阵参数化，每个变换矩阵对应一组离散时间戳。对于每个时间戳，我们创建一个旋转矩阵 R 2 R 3×3 和平移向量 t 2 R 3 。沿每个轴还有一个时不变的框范围 s 2 R 3 。为了确定任意实值时间戳处对象的坐标系，我们对离散轨迹步骤进行插值。

对于每个对象实例，我们使用标准 NeRF 架构 [37] 实例化一个单独的时不变 MLP。

其权重使用第 3.4 节中描述的技术进行初始化。为了查询此 MLP，位置和方向会从世界坐标系转换为由当前时间戳的轨迹定义的边界框坐标系。我们联合优化 MLP 和目标跟踪 Tk 的所有参数。优化对象跟踪参数很重要，因为初始框（甚至 GT 框）可能会有噪声。为了优化旋转，我们在每个梯度下降步骤之后使用 SVD 对 R 进行正交化，将其投影回 SO(3)。

东西：我们用单个神经函数来表示静态背景东西。除了预测每个 3D 点的密度和颜色之外，stuff 函数还学习每个点的语义标签。我们再次使用 MLP 来表示学习到的函数。该架构与 NeRF 类似，但多了一个用于语义逻辑的头。该头是方向不变的，用于编码 3D 点具有多视图一致语义标签的归纳偏差。请注意，与有界对象的 MLP 不同，MLP 必须处理现实世界场景的无界性质。因此，对于大场景，我们遵循 [67] 并使用单独的前景和背景 MLP。

全景辐射场：3D 点处的最终全景辐射场是通过聚合单个事物和物质 MLP 的贡献来计算的。对于任何给定的输出通道（颜色、密度等），我们的函数获取任何边界框命中的所有贡献的总和，如果没有交集，则默认为内容输出。

对于色域 c，为：

论文阅读：Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation_权重_02

其中 1S 为 1 当且仅当该点与 no 相交边界框，cs 是材料色域，θ 表示材料和事物 MLP 的 MLP 权重。对于其他领域，我们只需用密度、语义或实例函数替换辐射率 c。对象框为其类提供一个单热语义 Logit 向量，该向量处理事物和事物语义的合并。类似地，实例标签函数是长度为 K 的向量，每个检测到的对象 k 有一个维度。对象贡献一个 one-hot 向量它们的实例，而 stuff 函数的实例输出始终为零。

论文阅读：Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation_时间戳_03

图 2. 从输入彩色图像中学习全景神经场 (PNF) 表示的概述。背景内容由产生 RGB、密度和语义逻辑的 MLP 表示，而每个对象由动态轨迹和较小的单独 MLP 表示。经过训练后，该表示可以通过简单的体积渲染用于多种任务。