【计算机视觉】计算机视觉与模式识别关于目标检测的学术速递[10.17]（上）-摩杜云开发者社区

检测相关(17篇)

【1】 Object Detection in Aerial Images in Scarce Data Regimes

标题：稀缺数据环境下航拍图像的目标检测

https://arxiv.org/abs/2310.10433

大多数关于Few-Shot目标检测（FSOD）的研究成果只在自然图像上进行了评估，但对于其他类型图像的应用，并不能保证其性能的可移植性。我们证明了这一点，深入分析现有的FSOD方法对航空图像，并观察到一个很大的性能差距相比，自然图像。在航空图像中数量更多的小物体是自然图像和航空图像之间明显性能差距的原因。因此，我们提高了FSOD性能的小对象与精心设计的注意力机制。此外，我们还提出了一个规模自适应框相似性标准，提高了FSOD方法的训练和评估，特别是对小对象。我们还有助于通用FSOD基于度量学习和微调的两种不同的方法。通过微调方法可以获得令人印象深刻的结果，该方法鼓励处理更复杂的场景，例如跨域FSOD。我们在这个方向上进行了初步的实验，并取得了可喜的成果。最后，我们解决部署COSE的系统内的检测模型。检测必须在非常大的图像（超过1亿像素）中实时完成，计算能力有限。利用TensorRT等现有优化工具，我们成功应对了这一工程挑战。

【2】 YOLOv7 for Mosquito Breeding Grounds Detection and Tracking

标题：YOLOv7用于蚊虫滋生地的检测和跟踪

https://arxiv.org/abs/2310.10423

随着气候变化的威胁日益迫近，登革热、寨卡病毒和基孔肯雅热等被忽视的热带疾病有可能成为一个更大的全球问题。遥感技术可以通过自动检测和绘制蚊子繁殖地图，帮助控制埃及伊蚊（这类疾病的传播媒介）的传播，以便地方实体能够适当干预。在这项工作中，我们利用YOLOv7，一种最先进的和计算效率高的检测方法，在无人机捕获的视频中定位和跟踪蚊子病灶。我们对作为ICIP 2023大挑战的一部分向公众发布的数据集进行了实验，该挑战名为自动检测苔藓繁殖地。我们表明，YOLOv7可以直接应用于检测较大的焦点类别，如游泳池，轮胎和水箱，一个廉价和简单的逐帧检测聚合可以将时间一致性纳入跟踪过程。

【3】 Towards Open World Active Learning for 3D Object Detection

标题：面向开放世界的三维目标检测主动学习

https://arxiv.org/abs/2310.10391

在封闭世界3D物体检测方面取得了重大进展，在已知类别的环境中测试系统。然而，挑战出现在新对象类出现的开放世界场景中。现有的努力顺序地从标记数据流中学习新的类，其注释成本很高，阻碍了有效的部署。为了寻求有效的解决方案，我们研究了一个更实际但更具挑战性的研究任务：Open World Active Learning for 3D Object Detection（OWAL-3D），旨在选择少量的3D框进行注释，同时最大化已知和未知类的检测性能。其核心难点在于如何在挖掘更多未知实例和最小化点云标记开销之间取得平衡。实证研究发现，盒量与其置信度之间的和谐反比关系有助于缓解这一困境，避免重复选择常见的已知实例，并专注于潜在未知的不确定对象。我们将这两个关系约束统一到一个简单有效的AL策略，即OpenCRB，它可以指导获取信息丰富的点云，并具有最少的标签框。此外，我们开发了一个全面的代码库，便于复制和未来的研究，支持15个基线方法（即，主动学习、分布外检测和开放世界检测），2种类型的现代3D检测器（即，一阶段SECOND和两阶段PV-RCNN）和3个基准3D数据集（即，KITTI、nuScenes和Waymo）。大量的实验证据表明，拟议的开放CRB证明了优越性和灵活性，以非常有限的标签成本识别新的和共享的类别，与国家的最先进的基线。

【4】 Multimodal Object Query Initialization for 3D Object Detection

标题：面向3D目标检测的多通道目标查询初始化

https://arxiv.org/abs/2310.10353

利用LiDAR和相机传感器功能的3D物体检测模型在大规模自动驾驶基准测试中表现最佳。Transformer是用于此任务的流行网络架构，其中所谓的对象查询充当候选对象。基于当前传感器输入初始化这些对象查询是常见的做法。然而，现有方法强烈依赖于LiDAR数据，并且没有充分利用图像特征。此外，它们引入了显著的延迟。为了克服这些限制，我们提出了EfficientQ3M，一个高效的，模块化的，多模式的解决方案，用于基于transformer的3D对象检测模型的对象查询初始化。所提出的初始化方法与“模态平衡”Transformer解码器相结合，其中查询可以访问整个解码器中的所有传感器模态。在实验中，我们在竞争性nuScenes基准测试中超越了基于变换器的LiDAR对象检测的最新技术水平，并展示了依赖于输入的多模态查询初始化的好处，同时比LiDAR相机初始化的可用替代方案更有效。所提出的方法可以应用于任何组合的传感器模态作为输入，证明其模块化。

【5】 Towards Open-World Co-Salient Object Detection with Generative Uncertainty-aware Group Selective Exchange-Masking

标题：基于产生式不确定性感知群体选择性交换掩蔽的开放世界共显目标检测

https://arxiv.org/abs/2310.10264

传统的共显著目标检测任务是分割一组相关图像中的共同显著目标。这种定义是基于群体一致性的假设，这在开放世界环境中并不总是合理的，这导致在处理输入图像组中的无关图像时，在开放词场景下的模型的鲁棒性问题。为了解决这个问题，我们引入了一个组选择性交换屏蔽（GSEM）的方法，以提高CoSOD模型的鲁棒性。GSEM将两组图像作为输入，每组图像包含不同类型的显著对象。基于我们设计的混合度量，GSEM使用一种新的基于学习的策略从每组图像中选择一个子集，然后交换所选择的图像。为了同时考虑不相关图像引入的不确定性和组中剩余相关图像的一致性特征，我们设计了潜变量生成器分支和CoSOD Transformer分支。前者是由一个矢量量化变分自动编码器产生随机的全局变量，模型的不确定性。后者的目的是捕捉基于相关性的本地功能，包括群体共识。最后，两个分支的输出被合并并传递到基于变换的解码器以生成鲁棒的预测。考虑到目前还没有专门针对开放世界场景设计的基准数据集，我们在现有数据集的基础上构建了三个开放世界基准数据集，即OWCoSal，OWCoSOD和OWCoCA。通过打破群体一致性假设，这些数据集提供了对真实世界场景的有效模拟，可以更好地评估模型的鲁棒性和实用性。

【6】 Mask wearing object detection algorithm based on improved YOLOv5

标题：基于改进YOLOv5的口罩佩戴目标检测算法

https://arxiv.org/abs/2310.10245

戴口罩是预防传染病的重要措施之一。但在人流量大的公共场所，很难检测到人们戴口罩的情况。针对上述问题，提出一种基于YOLOv 5l的戴面具人脸检测模型。首先，多头注意自卷积不仅提高了模型的收敛速度，而且提高了模型检测的准确性。其次，Swin Transformer Block的引入能够提取更多有用的特征信息，增强小目标的检测能力，提高模型的整体精度。我们设计的I-CBAM模块可以提高目标检测精度。此外，使用增强的特征融合使模型能够更好地适应不同尺度的目标检测任务。在MASK数据集上的实验中，结果表明，与YOLOv 5l模型相比，本文提出的模型在mAP（0.5）上提高了1.1%，在mAP（0.5：0.95）上提高了1.3%。我们提出的方法显着提高了戴口罩的检测能力。

【7】 The Road to On-board Change Detection: A Lightweight Patch-Level Change Detection Network via Exploring the Potential of Pruning and Pooling

标题：板载变化检测之路：一种通过挖掘剪枝和池化潜力的轻量级补丁级别变化检测网络

https://arxiv.org/abs/2310.10166

现有的卫星遥感变化检测（CD）方法通常将原始的大尺度双时相图像对裁剪成小的斑块对，然后使用像素级CD方法对所有斑块对进行公平处理。然而，由于大规模卫星遥感图像变化的稀疏性，现有的像素级CD方法在大量的不变区域上浪费了大量的计算成本和内存资源，降低了星载平台在计算和内存资源极其有限的情况下的处理效率。为了解决这个问题，我们提出了一个轻量级的补丁级CD网络（LPCDNet），以快速删除大量的大规模的双时图像对不变的补丁对。这有助于加速后续的像素级CD处理阶段并降低其存储成本。在我们的LPCDNet中，提出了一种灵敏度引导的信道修剪方法，以去除不重要的信道，并在ResNet 18网络的基础上构建轻量级骨干网络。然后，设计了多层特征压缩模块，对双时图像块的多层特征信息进行压缩和融合。MLFC模块的输出被馈送到全连接决策网络以生成预测的二进制标签。最后，在网络的训练过程中使用加权交叉熵损失来解决变化/不变类不平衡的问题。在两个CD数据集上的实验表明，我们的LPCDNet在边缘计算平台上实现了每秒超过1000帧的速度，即，NVIDIA Jetson AGX Orin，这是现有方法的3倍以上，而没有明显的CD性能损失。此外，我们的方法减少了超过60%的内存成本的后续像素级CD处理阶段。

【8】 Smart City Transportation: Deep Learning Ensemble Approach for Traffic Accident Detection

标题：智能城市交通：交通事故检测的深度学习集成方法

https://arxiv.org/abs/2310.10038

道路交通的动态性和不可预测性需要有效的事故检测方法来提高安全性和简化智能城市的交通管理。本文对当前的事故检测技术进行了全面的探索研究，揭示了其他最先进方法的细微差别，同时详细概述了不同的交通事故类型，如追尾碰撞，T型碰撞和正面碰撞事故。我们的新方法引入了I3 D-CONVLSTM 2D模型架构，这是一种轻量级的解决方案，通过将RGB帧与光流信息相结合，明确地为智能城市交通监控系统中的事故检测量身定制。我们的实验研究的实证分析强调了我们的方法的有效性，I3 D-CONVLSTM 2D RGB +光流（可训练）模型优于其同行，实现了令人印象深刻的87%平均精度（MAP）。我们的研究结果进一步阐述了数据不平衡所带来的挑战，特别是在处理数量有限的数据集、道路结构和交通场景时。最终，我们的研究阐明了通往复杂的基于视觉的事故检测系统的道路，该系统可实时集成到智能城市基础设施中的边缘物联网设备中。

【9】 Evading Detection Actively: Toward Anti-Forensics against Forgery Localization

标题：主动逃避侦查：走向反取证反伪证本土化

https://arxiv.org/abs/2310.10036

反取证试图消除或隐藏篡改工件的痕迹。通常，反取证方法被设计成欺骗二进制检测器，并说服他们误判图像的真实性。然而，据我们所知，没有尝试在像素级欺骗伪造检测器和错误定位伪造区域。传统的对抗性攻击方法由于存在以下缺陷而不能直接用于伪造定位：1）他们往往只是天真地诱导目标取证模型翻转其像素级原始或伪造的决策; 2）在面对不可见的取证模型时，其反取证性能会严重下降; 3）一旦目标取证模型被它们生成的反取证图像重新训练，它们就失去了有效性。为了解决这三个缺陷，我们提出了SEAR（Self-supervised Anti-forensics），这是一种新型的自监督和对抗性训练算法，可以有效地训练深度学习反取证模型以对抗伪造定位。SEAR为自监督学习设置了一个重构扰动的借口任务。在对抗训练中，SEAR采用伪造定位模型作为监督器来探索篡改特征，并构建深度学习隐藏器来删除相应的痕迹。我们在不同的数据集上进行了大规模的实验。实验结果表明，通过自监督学习和对抗学习的结合，SEAR成功地欺骗了现有的伪造定位方法，并解决了传统对抗攻击方法的上述三个缺陷。