【计算机视觉】计算机视觉与模式识别关于目标检测的学术速递[10.16]-摩杜云开发者社区

检测相关(6篇)

【1】 Time CNN and Graph Convolution Network for Epileptic Spike Detection in MEG Data

标题：时间CNN和图形卷积网络用于脑磁图数据中癫痫峰电位的检测

https://arxiv.org/abs/2310.09236

癫痫患者的脑磁图（MEG）记录显示尖峰，这是病理学的典型生物标志物。检测这些尖峰可以准确定位触发癫痫发作的大脑区域。尖峰检测通常手动执行。然而，由于MEG数据的复杂性，这是一项繁重且容易出错的任务。为了解决这个问题，我们提出了一个一维时间卷积神经网络（时间CNN）与图形卷积网络（GCN）耦合，以分类短时间帧的MEG记录包含尖峰或不。与其他最近的方法相比，我们的模型有更少的参数训练，我们建议使用GCN占脑磁传感器的空间关系。我们的模型产生了临床相关的结果，并优于基于深度学习的最先进方法，在平衡数据集上达到了76.7%的分类f1分数，在现实的高度不平衡数据集上达到了25.5%。

【2】 A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video Salient Object Detection

标题：一种用于全景视频显著目标检测的时空双模式混合流网络

https://arxiv.org/abs/2310.09016

全景视频中的显著目标检测（SOD）技术目前仍处于初步探索阶段。将二维视频SOD方法间接应用于全景视频中显著目标的检测，存在检测精度低、模型复杂度高、泛化性能差等问题。为了克服这些障碍，我们设计了一个层间注意力（ILA）模块，层间权重（ILW）模块和双模态注意力（BMA）模块。基于这些模块，我们提出了一个时空双模混合流网络（STDMMF-Net），利用全景视频的空间流和相应的光流SOD。首先，ILA模块计算全景视频的连续帧的相邻水平特征之间的注意力，以提高从空间流中提取显著对象特征的准确性。然后，ILW模块量化各层特征中包含的显著对象信息，以提高混合流中各层特征的融合效率。最后，BMA模块提高了STDMMF-Net的检测精度。大量的主观和客观实验结果表明，该方法具有更好的检测精度比国家的最先进的（SOTA）的方法。此外，所提出的方法是更好的模型推理所需的内存，测试时间，复杂度和泛化性能方面的综合性能。

【3】 VCL Challenges 2023 at ICCV 2023 Technical Report: Bi-level Adaptation Method for Test-time Adaptive Object Detection

标题：VCL在ICCV 2023上的挑战2023技术报告：用于测试时间自适应目标检测的两级自适应方法

https://arxiv.org/abs/2310.08986

本报告概述了我们团队参与VCL挑战B持续测试时间适应的情况，重点介绍了我们方法的技术细节。我们主要关注的是使用双级自适应的测试时自适应，包括image_level和detector_level自适应。在图像级，我们采用可调参数的图像滤波器，而在检测器级，我们利用可调参数的平均教师模块。最终，通过利用这些双水平自适应，我们在VCL挑战B内的测试集的目标域上实现了38.3%的mAP。值得注意的是，mAP的最小下降仅为4.2%，整体性能为32.5% mAP。

【4】 Rank-DETR for High Quality Object Detection

标题：用于高质量目标检测的RANK-DETR

https://arxiv.org/abs/2310.08854

现代检测Transformers（DETR）使用一组对象查询来预测边界框列表，根据其分类置信度得分对其进行排序，并选择排名最高的预测作为给定输入图像的最终检测结果。高性能的对象检测器需要对边界框预测进行准确的排名。对于基于DETR的检测器，由于分类分数和定位精度之间的不对准，排名靠前的边界框遭受较不准确的定位质量，从而阻碍了高质量检测器的构建。在这项工作中，我们介绍了一个简单的和高性能的基于DETR的对象检测器，提出了一系列面向秩的设计，结合称为秩DETR。我们的主要贡献包括：（i）面向排名的架构设计，其可以提示积极预测并抑制消极预测以确保较低的误报率，以及（ii）面向排名的损失函数和匹配成本设计，其在排名期间优先考虑更准确的定位精度的预测，以在高IoU阈值下提升AP。我们应用我们的方法来改进最近的SOTA方法（例如，H-DETR和DINO-DETR），并在使用ResNet- 【计算机视觉】计算机视觉与模式识别关于目标检测的学术速递[10.16]_自适应、Swin-T和Swin-L等不同主干时报告了强大的COCO对象检测结果，证明了我们方法的有效性。代码可以在\url{https：//github.com/LeapLabTHU/Rank-DETR}上找到。

【5】 Incremental Object Detection with CLIP

标题：基于CLIP的增量式目标检测

https://arxiv.org/abs/2310.08815

在增量检测任务中，与增量分类任务不同，由于图像在多个连续学习阶段中具有不同标记边界框的可能性，因此存在数据模糊性。这种现象通常会削弱模型学习新类的能力。然而，该模型的前向兼容性在现有的工作中考虑较少，这阻碍了该模型的增量学习的适用性。为了克服这个障碍，我们建议使用一个语言视觉模型，如CLIP生成不同的类集的文本特征嵌入，这增强了全局的特征空间。然后，我们采用广泛的类，以取代不可用的新类在早期学习阶段，以模拟实际的增量场景。最后，我们使用CLIP图像编码器来识别提案中的潜在对象，并通过模型将其分类到背景中。我们将这些建议的背景标签修改为已知类，并将框添加到训练集中，以减轻数据模糊性的问题。我们在PASCAL VOC 2007数据集上的各种增量学习设置上评估了我们的方法，我们的方法优于最先进的方法，特别是对于新类。

【6】 Histogram- and Diffusion-Based Medical Out-of-Distribution Detection

标题：基于直方图和扩散的医学离散性检测

https://arxiv.org/abs/2310.08654

OOD检测对于人工智能算法的安全性和可靠性至关重要，特别是在医疗领域。在2023年医学OOD（MOOD）检测挑战赛的背景下，我们提出了一种结合基于直方图的方法和基于扩散的方法的管道。基于直方图的方法旨在准确地检测挑战的玩具示例中的均匀异常，例如具有恒定强度值的斑点。基于扩散的方法是基于最新的无监督异常检测方法之一，称为DDPM-OOD。我们探索这种方法，并提出了广泛的后处理步骤，像素级和样本级异常检测的大脑MRI和腹部CT数据提供的挑战。我们的研究结果表明，所提出的DDPM方法是敏感的模糊和偏置场样本，但面临的挑战与解剖变形，黑色切片，和交换补丁。这些研究结果表明，需要进一步的研究，以提高性能的DDPM的OOD检测在医学图像。