【计算机视觉】计算机视觉与模式识别关于目标检测的学术速递[10.24]-摩杜云开发者社区

检测相关(12篇)

【1】 Online Detection of AI-Generated Images

标题：人工智能生成图像的在线检测

https://arxiv.org/abs/2310.15150

随着人工智能生成图像的不断进步，越来越难以区分传统来源的图像（例如，照片，艺术品）从AI生成的。以前的检测方法研究的泛化从一个单一的发电机到另一个孤立的。然而，在现实中，新的发电机是在流的基础上发布的。我们在这种情况下研究泛化，在N个模型上进行训练，在下一个（N+k）上进行测试，遵循众所周知的生成方法的历史发布日期。此外，图像越来越多地由真实和生成的组件组成，例如通过图像修复。因此，我们将这种方法扩展到像素预测，使用自动生成的修复数据展示了强大的性能。此外，对于商业模型不能公开用于自动数据生成的设置，我们评估像素检测器是否可以仅在整个合成图像上进行训练。

【2】 On the Detection of Image-Scaling Attacks in Machine Learning

标题：机器学习中图像缩放攻击的检测研究

https://arxiv.org/abs/2310.15085

图像缩放是机器学习和计算机视觉系统的一个组成部分。不幸的是，这个预处理步骤容易受到所谓的图像缩放攻击，攻击者对图像进行不明显的更改，使其在缩放后成为新图像。这为攻击者控制预测或改进中毒和后门攻击开辟了新的途径。虽然存在有效的技术来防止缩放攻击，但它们的检测尚未得到严格的研究。因此，目前不可能在实践中可靠地发现这些攻击。本文首次对图像缩放攻击的检测方法进行了深入的系统化和分析。我们确定了两个一般的检测范式，并从中获得新的方法，设计简单，但显着优于以前的工作。我们证明了这些方法的有效性，在一个全面的评估与所有主要的学习平台和缩放算法。首先，我们证明了即使在自适应对手下，修改整个缩放图像的图像缩放攻击也可以可靠地检测到。其次，我们发现，我们的方法提供了强大的检测性能，即使只有图像的小部分被操纵。因此，我们可以引入一个新的保护层，防止图像缩放攻击。

【3】 GRLib: An Open-Source Hand Gesture Detection and Recognition Python Library

标题：GRLib：一个开源的手势检测与识别Python库

https://arxiv.org/abs/2310.14919

手势识别系统为人类与计算机系统交互提供了一种自然的方式。虽然已经为这项任务设计了各种算法，但许多外部条件，例如光线不足或与相机的距离，使得很难创建在一系列环境中表现良好的算法。在这项工作中，我们提出GRLib：一个开源的Python库，能够检测和分类静态和动态手势。此外，可以在现有数据上训练库，以提高分类鲁棒性。所提出的解决方案利用来自RGB相机的馈送。然后，检索到的帧进行数据增强，并传递到MediaPipe Hands以执行手部地标检测。然后将地标分类到它们各自的手势类中。该库通过轨迹和关键帧提取支持动态手势。结果发现，该库在三个不同的真实世界数据集上的性能优于另一个公开可用的HGR系统- MediaPipe Solutions。该库可在https://github.com/mikhail-vlasenko/grlib上获得，并可通过pip安装。

【4】 Rethinking Scale Imbalance in Semi-supervised Object Detection for Aerial Images

标题：航空影像半监督目标检测中尺度不平衡问题的再思考

https://arxiv.org/abs/2310.14718

研究航空影像半监督目标检测中的尺度不平衡问题。与自然图像相比，航空图像中的物体在每张图像上显示出更小的尺寸和更大的数量，增加了人工标注的难度。同时，先进的SSOD技术可以利用有限的标记数据和大量的未标记数据训练优秀的检测器，节省标注成本。然而，作为一个未充分研究的任务，在航空图像，SSOD遭受从一个急剧的性能下降时，面对一个大比例的小对象。通过分析小对象和大对象之间的预测，我们确定了由尺度偏差引起的三个不平衡问题，即，伪标签不平衡、标签分配不平衡和负学习不平衡。为了解决这些问题，我们提出了一种新的用于航空图像的尺度区分半监督对象检测（S^{3OD）学习管道。在我们的S}3OD中，提出了三个关键组成部分，尺寸感知自适应标记保持（SAT），尺寸重新平衡标签分配（SLA）和教师指导的消极学习（TNL），以保证规模无偏学习。具体来说，SAT自适应地选择适当的阈值来过滤不同尺度下对象的伪标签。SLA通过重排序和重新加权来平衡不同尺度下的正样本。TNL通过利用教师模型生成的信息来消除负样本中的不平衡。在DOTA-v1.5基准上进行的大量实验证明了我们提出的方法优于最先进的竞争对手。代码将很快发布。

【5】 Online Out-of-Domain Detection for Automated Driving

标题：自动驾驶的在线域外检测

https://arxiv.org/abs/2310.14675

确保自动驾驶的安全性是汽车行业面临的主要挑战。特别关注人工智能，特别是深度神经网络（DNN），这被认为是实现高度自动驾驶的关键技术。DNN从训练数据中学习，这意味着它们只能在训练数据的底层数据分布中实现良好的准确性。当离开训练域时，会导致分布偏移，这可能导致准确度急剧下降。在这项工作中，我们提出了一个安全机制的概念证明，可以检测离开域在线，即在运行时。在我们对Synthia数据集的实验中，我们可以证明，实现了对输入数据是在域内还是域外的100%正确检测。检测车辆何时离开域的能力可能是认证的重要要求。

【6】 ADoPT: LiDAR Spoofing Attack Detection Based on Point-Level Temporal Consistency

标题：采用：基于点级时间一致性的激光雷达欺骗攻击检测

https://arxiv.org/abs/2310.14504

深度神经网络（DNN）越来越多地集成到基于LiDAR（光检测和测距）的自动驾驶汽车（AV）感知系统中，要求在对抗条件下具有强大的性能。我们的目标是解决LiDAR欺骗攻击的挑战，攻击者将虚假对象注入LiDAR数据，并欺骗AV误解其环境并做出错误的决定。然而，当前的防御算法主要依赖于感知输出（即，边界框）因此在检测攻击者时面临限制，假定边界框是由处理基于自我车辆的视点获取的有限点的不完美感知模型生成的。为了克服这些限制，我们提出了一种新的框架，称为ADoPT（基于点级时间一致性的异常检测），它定量测量连续帧的时间一致性，并根据点簇的一致性识别异常对象。在我们使用nuScenes数据集进行的评估中，我们的算法有效地对抗了各种LiDAR欺骗攻击，实现了低（< 10%）的假阳性率（FPR）和高（> 85%）的真阳性率（TPR），优于现有的最先进的防御方法CARLO和3D-TC 2。此外，我们的评估表明，在各种道路环境中进行准确的攻击检测的潜力很大。

【7】 Skipped Feature Pyramid Network with Grid Anchor for Object Detection

标题：基于栅格锚点的跳跃式特征金字塔网络目标检测

https://arxiv.org/abs/2310.14453

近年来，基于CNN的目标检测方法取得了重大进展。CNN的经典结构由于池化或其他重新缩放操作而产生类似于CNN的特征图。在特征金字塔的不同级别的特征图被用来检测具有不同尺度的对象。为了更准确的目标检测，具有最低分辨率并包含最强语义的最高级别特征被放大并与较低级别特征连接，以增强较低级别特征中的语义。然而，传统的特征连接方式将底层特征与上层特征相结合，可能导致语义退化。在本文中，我们提出了一个跳过的连接，以获得更强的语义在每个级别的特征金字塔。在我们的方法中，较低级别的特征只与最高级别的特征连接，使得每个级别负责检测具有固定尺度的对象更加合理。此外，我们简化了边界盒回归的锚点生成，这可以进一步提高目标检测的准确性。在MS COCO和Wider Face上的实验表明，该方法优于现有的方法。

【8】 The Importance of Anti-Aliasing in Tiny Object Detection

标题：抗走样在微小目标检测中的重要性

https://arxiv.org/abs/2310.14221

微小物体的检测在研究界得到了相当大的关注，因为微小物体在许多关键的现实世界场景中频繁出现。然而，卷积神经网络（CNN）用作对象检测架构的骨干，通常在下采样操作期间忽略奈奎斯特采样定理，导致混叠和性能下降。这可能是一个特殊的问题，微小的物体，占用很少的像素，因此具有高空间频率的功能。本文将现有的抗锯齿方法WaveCNet应用于微小目标检测。WaveCNet通过用小波池（WaveletPool）层取代CNN中的标准下采样过程来解决混叠问题，有效地抑制了混叠。我们修改了原始的WaveCNet，以便在ResNets中的残差块的两个路径中以一致的方式应用WaveletPool。此外，我们还提出了一个底层较重的主干版本，它进一步提高了微小目标检测的性能，同时将所需的参数数量减少了近一半。在TinyPerson、WiderFace和DOTA数据集上的实验结果证明了抗锯齿在微小物体检测中的重要性，以及所提出的方法的有效性，该方法在所有三个数据集上都取得了新的最先进的结果。代码和实验结果在https://github.com/freshn/Anti-aliasing-Tiny-Object-Detection.git上发布。

【9】 Concept-based Anomaly Detection in Retail Stores for Automatic Correction using Mobile Robots

标题：基于概念的零售店异常检测与移动机器人自动纠错

https://arxiv.org/abs/2310.14063

在零售环境中，跟踪库存和重新安排错放的物品是一些最劳动密集型的任务。虽然已经尝试将基于视觉的技术用于这些任务，但它们大多使用货架图合规性来检测任何异常，已经发现这种技术缺乏鲁棒性和可扩展性。此外，现有系统依赖于人为干预来在检测之后执行校正动作。在本文中，我们提出了共同AD，一个基于概念的异常检测方法，使用Vision Transformer（ViT），能够标记错位的对象，而不使用先验知识库，如货架图。它使用自动编码器架构，然后在潜在空间中进行离群值检测。Co-AD在从RP 2K数据集中提取的零售对象的异常检测图像集上的峰值成功率为89.90%，而在标准ViT自动编码器的最佳性能基线上的峰值成功率为80.81%。为了证明它的实用性，我们描述了一个机器人移动操作管道，自主纠正由Co-AD标记的异常。这项工作的最终目标是开发自主移动机器人解决方案，减少零售店管理中的人工干预需求。

【10】 Fuzzy-NMS: Improving 3D Object Detection with Fuzzy Classification in NMS

标题： Fuzzy-NMS：在NMS中使用模糊分类改进3D对象检测

https://arxiv.org/abs/2310.13951

非最大值抑制（NMS）是许多3D对象检测框架中用于去除重叠候选边界框的重要后处理模块。然而，过度依赖分类分数和难以确定适当的阈值可能会直接影响结果的准确性。为了解决这些问题，我们将模糊学习引入NMS，并提出了一种新的广义模糊NMS模块，以实现更精细的候选包围盒过滤。建议的Fuzzy-NMS模块结合了候选包围盒的体积和聚类密度，用模糊分类方法对其进行细化，并优化适当的抑制阈值，以减少NMS过程中的不确定性。使用主流的KITTI和大规模Waymo 3D对象检测基准进行了充分的验证实验。这些测试的结果表明，所提出的Fuzzy-NMS模块可以显着提高许多最近基于NMS的检测器的准确性，包括PointPillars，PV-RCNN和IA-SSD等，这种效果对于行人和自行车等小物体尤其明显。作为一个即插即用的模块，Fuzzy-NMS不需要重新训练，也不会明显增加推理时间。

【11】 StenUNet: Automatic Stenosis Detection from X-ray Coronary Angiography

标题：StenUNet：从X射线冠状动脉造影术自动检测狭窄

https://arxiv.org/abs/2310.14961

冠状动脉造影术仍然是诊断冠状动脉疾病（CAD）的主要方法，CAD是全球主要的死亡原因。CAD的严重程度通过位置、狭窄程度（狭窄）和涉及的动脉数量来量化。在目前的实践中，这种量化是使用目视检查手动执行的，因此具有较差的评分者间和评分者内可靠性。MICCAI大挑战：使用X射线血管造影图像（ARCADE）的基于区域的自动冠状动脉疾病诊断管理了具有狭窄注释的数据集，目的是创建自动狭窄检测算法。使用机器学习和其他计算机视觉技术的组合，我们提出了架构和算法StenUNet，以准确地检测X射线冠状动脉造影的狭窄。我们提交的ARCADE挑战赛在所有团队中排名第三。我们在测试集上获得了0.5348的F1分数，比第二名低0.0005。

【12】 Unleashing Modified Deep Learning Models in Efficient COVID19 Detection

标题：改进的深度学习模型在高效检测COVID19中的应用

https://arxiv.org/abs/2310.14081

COVID 19大流行是一种独特的毁灭性呼吸道疾病爆发，随着疾病迅速蔓延，已影响到全球人口。最近的深度学习突破可能会改善COVID 19的预测和预测，作为精确和快速检测的工具，然而，目前的方法仍在研究中，以实现更高的准确性和精度。本研究分析了包含8055个CT图像样本的集合，其中5427个是COVID病例，2628个是非COVID病例。9544个X射线样本包括4044个COVID患者和5500个非COVID病例。最准确的模型是MobileNet V3（97.872%），DenseNet201（97.567%）和GoogleNet Inception V1（97.643%）。高精度表明这些模型可以做出许多准确的预测，以及其他，对于MobileNetV3和DenseNet201也很高。在本研究中，使用准确度、精确度和召回率进行的广泛评估允许进行全面的比较，以通过将损失优化与可扩展的批量归一化相结合来改进预测模型。我们的分析表明，这些策略提高了模型的性能和弹性，以推进COVID 19的预测和检测，并展示了深度学习如何改善疾病处理。我们建议的方法将加强医疗保健系统，政策制定者和研究人员做出明智的决定，以减少COVID 19和其他传染病。 CCS CONCEPTS Covid，深度学习，图像处理关键词新冠肺炎，深度学习，DenseNet 201，MobileNet，ResNet，DenseNet，GoogleNet，图像处理，疾病检测。