【计算机视觉】计算机视觉与模式识别关于目标检测的学术速递[10.18]-摩杜云开发者社区

检测相关(5篇)

【1】 Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing

标题：基于视角去偏的通用型多摄像机三维目标检测

https://arxiv.org/abs/2310.11346

使用多个相机检测3D空间中的对象，称为多相机3D对象检测（MC 3D-Det），随着鸟瞰图（BEV）方法的出现而变得突出。然而，这些方法在面对不熟悉的测试环境时往往会遇到困难，因为缺乏包含各种观点和环境的各种训练数据。为了解决这个问题，我们提出了一种新的方法，将3D检测与2D相机平面结果对齐，确保一致和准确的检测。我们的框架，锚定在角度去偏置，有助于学习的功能弹性域的变化。在我们的方法中，我们从BEV特征渲染不同的视图地图，并纠正这些地图的透视偏差，利用隐式前景体积来桥接相机和BEV平面。这个两步过程促进了独立于视角和上下文的特征的学习，这对于在不同的视角、相机参数和环境条件下准确检测目标至关重要。值得注意的是，我们的模型无关方法保留了原始网络结构，而不会产生额外的推理成本，促进了各种模型之间的无缝集成，并简化了部署。此外，我们还表明，当仅使用虚拟数据集进行训练时，我们的方法在真实数据中取得了令人满意的结果，从而消除了对真实场景注释的需求。在领域泛化（DG）和无监督领域自适应（UDA）上的实验结果清楚地证明了它的有效性。我们的代码将被释放。

【2】 MonoSKD: General Distillation Framework for Monocular 3D Object Detection via Spearman Correlation Coefficient

标题：MonoSKD：基于Spearman相关系数的单目三维目标检测通用蒸馏框架

https://arxiv.org/abs/2310.11316

单目3D目标检测是一个固有的不适定问题，因为从单个图像预测准确的3D定位是具有挑战性的。现有的单目三维检测知识提取方法通常将LiDAR投影到图像平面上，并据此对教师网络进行训练。将基于LiDAR的模型知识转换为基于RGB的模型更加复杂，因此需要通用的蒸馏策略。为了解决跨模态问题，提出了一种基于Spearman相关系数的单目3D检测知识提取框架MonoSKD，用于学习跨模态特征之间的相对相关性。考虑到这些特征之间的差距很大，严格的特征对齐可能会误导训练，因此我们提出了一个宽松的斯皮尔曼损失。此外，通过选择适当的蒸馏位置和删除冗余模块，我们的计划节省了更多的GPU资源和训练速度比现有的方法。进行了大量的实验，以验证我们的框架上具有挑战性的KITTI 3D对象检测基准的有效性。我们的方法实现了最先进的性能，直到提交，没有额外的推理计算成本。我们的代码可在https://github.com/Senwang98/MonoSKD上获得

【3】 An empirical study of automatic wildlife detection using drone thermal imaging and object detection

标题：基于无人机热成像和目标检测的野生动物自动检测实验研究

https://arxiv.org/abs/2310.11257

人工智能有可能通过具有成本效益的方法收集和解释野生动物数据，为野生动物管理做出宝贵贡献。遥控飞机系统（RPAS或"无人机“）和热成像技术的最新进展为收集野生动物数据创造了新的方法。这些新兴技术可以为标准的人工现场技术提供有前途的替代方案，并覆盖更大的区域。在这项研究中，我们进行了全面的审查和基于无人机的野生动物检测的实证研究。具体来说，我们收集了一个现实的数据集无人机衍生的野生动物热探测。野生动物检测，包括树栖动物（例如，考拉，phascolartos cinereus）和地面居住的物种在我们收集的数据通过边界框由专家注释。然后，我们在我们收集的数据集上对最先进的对象检测算法进行基准测试。我们使用这些实验结果来确定问题，并讨论使用无人机自动动物监测的未来方向。

【4】 Improving Video Deepfake Detection: A DCT-Based Approach with Patch-Level Analysis

标题：改进的视频深伪检测：一种基于DCT的斑块级分析方法

https://arxiv.org/abs/2310.11204

Deepfake一词指的是通过使用生成模型从头开始合成更改或创建的所有多媒体内容。由于使用越来越准确和高效的架构，这种现象已经变得普遍，这些架构能够呈现与真实内容无法区分的操纵内容。为了打击非法使用这种强大的技术，有必要开发能够区分合成内容和真实内容的算法。在这项研究中，提出了一种用于检测数字视频中深度伪造的新算法，其主要目标是从法医的角度创建一种快速且可解释的方法。为了实现这一目标，I-帧被提取，以便提供比文献中描述的方法更快的计算和分析。此外，为了识别各个视频帧中最具辨别力的区域，单独分析了整个帧、背景、面部、眼睛、鼻子、嘴巴和面部帧。根据离散余弦变换（DCT），从AC系数中提取β分量，并将其用作标准分类器（例如，k-NN、SVM和其他），以便识别对于解决所讨论的任务最具区别性的那些频率。在Faceforensics++和Celeb-DF（v2）数据集上获得的实验结果表明，眼睛和嘴巴区域是最具鉴别力的区域，能够确定视频的性质，其可靠性高于整个帧的分析。在这项研究中提出的方法是分析，快速，不需要太多的计算能力。

【5】 NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning

标题：NICE：利用级联协作学习改进全景叙事检测和分割

https://arxiv.org/abs/2310.10975

全景叙事检测（PND）和分割（PNS）是两项具有挑战性的任务，涉及根据长叙事描述识别和定位图像中的多个目标。在本文中，我们提出了一个名为 NICE 的统一有效的框架，可以共同学习这两个全景叙事识别任务。现有的视觉基础任务使用两分支范例，但将其直接应用于 PND 和 PNS 可能会由于其固有的多对多对齐属性而导致预测冲突。为了解决这个问题，我们引入了两个基于掩模重心的级联模块，它们是坐标引导聚合（CGA）和重心驱动定位（BDL），分别负责分割和检测。通过将 PNS 和 PND 以分割重心作为锚点串联起来，我们的方法自然地将这两个任务对齐，并允许它们相互补充以提高性能。具体来说，CGA提供了重心作为检测的参考，减少了BDL对大量候选框的依赖。 BDL利用其优异的特性来区分不同的实例，从而提高了CGA的分割性能。大量实验表明，NICE 大幅超越了所有现有方法，PND 和 PNS 分别比最先进的方法高出 4.1% 和 2.9%。这些结果验证了我们提出的协作学习策略的有效性。这项工作的项目已在 https://github.com/Mr-Neko/NICE 上公开发布。