Point Transformer V3: Simpler, Faster, Stronger

publish：CVPR2024
paper：https://arxiv.org/abs/2312.10035
code：https://github.com/Pointcept/PointTransformerV3
commentary：

https://zhuanlan.zhihu.com/p/673760352

idea：

作者在3D large-scale表示学习中认识到模型性能更受规模scale的影响，而不是复杂设计。怎么理解这句话呢？相比较于复杂的网络设计，训练数据大小和模型参数量多少更容易对模型的性能产生影响。作者主要对backbone提出了三点改进，相较于PTv2大大减少了时间和显存的消耗，同时保持高效。

PTv3改变传统的K-Nearest Neighbors（KNN）查询定义的空间proximity（占用28% forward time ），相反，它探索点云序列化邻域。
PTv3用适合序列化点云的改进方法替换更复杂的注意力块交互机制attention patch interaction mechanisms，如shift-window（妨碍注意力操作的融合）和邻域机制（导致内存消耗大）。
PTv3消除了对相对位置编码的依赖（占用26% forward time ），支持更简单的预置稀疏卷积层prepositive sparse convolutional layer。

胡思乱想：

也许可以试着用point transformer的思路改进一下pointpillar的PillarVFE层？

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

publish：CVPR2024
paper：https://arxiv.org/abs/2401.06197
code：https://github.com/OpenGVLab/DCNv4
commentray：

idea：

作者提出了可变形卷积DCNv4，解决了DCNv3的局限性，收敛速度和处理速度大幅提高，主要贡献有如下的两点：

去除空间聚合中的softmax归一化以增强其动态特性和表达能力。
优化内存访问，最大限度地减少冗余操作，以提高速度。

胡思乱想：

空洞卷积可以在不增加参数的情况下，扩大感受野，但是在进行卷积操作时，每部分在特征图上的位置还是固定的，对于形变比较复杂的物体，效果不太好。但是DCN不仅可以扩大感受野，还有动态的感受野区域适应能力。所以用DCN替换SPPF中的空洞卷积，效果会不会更好？

SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection

publish：CVPR2024
paper：https://arxiv.org/abs/2403.05817
code：https://github.com/zhanggang001/HEDNet（四月初才会开源代码）
commentray：

https://zhuanlan.zhihu.com/p/689180414

idea：

作者发现，混合检测器（hybrid detectors）在较短的感知范围（75m以下）设计下测试，性能比较卓越。首先解释一下什么是混合检测器？hybrid detectors一般先用3D voxel编码将点云数据转换为伪图像的形式，再用2D CNN进一步提取特征。但是hybrid detectors产生的密集特征图难以扩展到远距离检测，因为密集特征图带来的计算成本呈二次方增长。

大多数混合检测器依赖于物体中心的特征进行预测，认为它们是整个物体的可靠表示。这些方法通常首先使用稀疏3D体素编码器高效地从非空体素中提取特征。随后，它们将这些稀疏特征转换为2D鸟瞰图（BEV）中的密集特征图，并利用卷积神经网络（CNNs）将特征扩散到物体中心，创建中心特征。然而，对于完全稀疏的检测器，在没有密集特征图的情况下，像车辆和卡车这样的大型物体的中心往往仍然是空的，导致中心特征缺失问题.

作者提出了一种自适应特征扩散(adaptive feature diffusion)（AFD）策略，用于将特征传播到物体中心，作为SAFDNet解决中心特征缺失问题的核心组件。AFD选择性地将物体边界框内的特征扩展到相邻区域，并根据体素位置动态调整扩散范围。结果是，SAFDNet仍然可以利用稀疏特征上的高效计算。扩展后的特征被送入稀疏检测头进行预测。重要的是，SAFDNet保持了与现有混合检测器大部分超参数的兼容性，包括检测头的超参数，使其能够轻松适应新场景。

胡思乱想：

Rcooper因为是路边基础设施的合作，没有涉及车辆，基础设施的视野非常广阔（0.5-230m），非常符合SAFDNet提出的动机。此外，AFD模块可以直接用到pointpillar或者voxelnet的主干网络上，应该可以大大减小模型的计算成本和训练时间，同时性能还会有不错的提升（参考论文中的Appendix A数据）。