2025年9月5日星期五

超越CNN:DETR如何开启目标检测新纪元?

在计算机视觉领域,目标检测一直是核心任务之一。从传统的 CNN 检测器到近年来的 Transformer 架构,学术界和工业界不断推动检测精度与效率的边界。

在计算机视觉领域,目标检测一直是核心任务之一。从传统的 CNN 检测器到近年来的 Transformer 架构,学术界和工业界不断推动检测精度与效率的边界。尤其是 2020 年 Facebook AI 提出的 DETR(Detection Transformer),通过将目标检测转化为集合预测问题,彻底改变了检测范式。它以端到端的方式摒弃了手工设计的候选框机制,开启了"Transformer 统一视觉任务"的新篇章。

四年多来,DETR 已成为目标检测研究的热门方向,衍生出众多改进与创新版本:如何加速收敛、如何提升小目标检测、如何在实时推理中保持高精度,甚至如何扩展到无人机影像、多模态场景与半监督学习。这些探索不仅推动了学术研究,更直接影响了智能安防、自动驾驶、遥感测绘等应用落地。

在本文中,我们整理了15篇DETR相关研究论文,涵盖 实时检测、训练优化、小目标检测、多模态融合、半监督学习等前沿方向。需要的同学可以扫码领取

扫码回复【DETR目标检测】
免费领取论文合集
图片
1.Mr. DETR: Instructive Multi-Route Training for Detection Transformers
图片

【要点】本文提出了一种新型的多路线训练机制Mr. DETR,通过同时进行一对一和一对多预测,显著提高了检测变换器的训练效果,并引入了指导性自注意力机制和路由感知的混合专家模型来优化训练过程。

【方法】通过将检测变换器视为多任务框架,本文的方法在解码器中同时学习一对一和一对多预测任务,并对每个组件(自注意力、交叉注意力和前馈网络)的作用进行了研究。

【实验】本文在多个对象检测基线上进行了广泛实验,使用的数据集未明确提及,但根据常见的对象检测基准测试,可能包括COCO等。实验结果表明所提方法具有一致性改进,并且在实例分割和全景分割任务上也展示了其灵活性及有效性。

2.DEIM: DETR with Improved Matching for Fast Convergence
图片

【要点】本文提出了一种名为DEIM的训练框架,通过采用密集一对一匹配策略和匹配度感知损失函数,加速基于Transformer架构的目标检测模型收敛速度,提高了实时物体检测性能。

【方法】DEIM通过使用密集一对一匹配策略增加每幅图像的正样本数量,并引入了匹配度感知损失函数来优化不同质量级别的匹配,从而提高模型训练的有效性。

【实验】作者在COCO数据集上进行了广泛实验,证明了DEIM的有效性,与RT-DETR和D-FINE集成使用时,能够提高性能同时减少训练时间50%以上,DEIM-D-FINE-L和DEIM-D-FINE-X在NVIDIA T4 GPU上分别达到了54.7 FPS的检测速度。

3.RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer
图片

【要点】RT-DETRv2是对实时检测Transformer(RT-DETR)的改进,引入了一系列自由选项来提高灵活性和实用性,并通过优化训练策略提升性能,其创新之处在于通过不同的采样点提高了解码器对多尺度特征提取的选择性,并引入了可选的离散采样操作符以替代特定于RT-DETR的网格采样,简化了部署,同时提出了动态数据增强和适应性超参数调整的训练策略。

【方法】方法上,RT-DETRv2优化了变压器模型,通过在变形注意力中为不同尺度的特征设置不同的采样点,实现了解码器端的特征多尺度选择。

【实验】实验上,RT-DETRv2使用了COCO数据集,并通过动态数据增强和比例自适应的超参数调整,在不牺牲速度的情况下提高了检测性能,其源代码和预训练模型将发布在GitHub上。

4.DETRs Beat YOLOs on Real-time Object Detection

图片

【要点】本文提出了RT-DETR,一种首个实现实时端到端对象检测的Transformer-based模型,有效解决了YOLO系列因NMS导致的速度和精度损失问题。

【方法】通过设计高效的混合编码器来快速处理多尺度特征,并引入不确定性最小化查询选择以提高初始查询质量,同时支持通过调整解码器层数实现灵活的速度调整。

【实验】RT-DETR-R50 / R101在COCO数据集上分别实现了53.1% / 54.3%的AP和108 / 74 FPS的帧率,优于先前先进的YOLO模型,同时在速度和精度上都超过了DINO-R50。在Objects365预训练后,RT-DETR-R50 / R101的AP分别达到55.3% / 56.2%。

5.LP-DETR: Layer-wise Progressive Relations for Object Detection
图片

【要点】本文提出了一种名为LP-DETR的新型物体检测方法,通过多层逐步关系建模提升了基于DETR的物体检测性能,实现了更快的收敛速度和更高的检测精度。

【方法】LP-DETR通过引入关系感知的自注意力机制,在解码器层之间学习可学习的空间关系,自适应平衡不同尺度(局部、中等、全局)的关系。

【实验】在COCO 2017数据集上的实验表明,所提方法使用ResNet-50骨干网络在12个和24个训练周期下分别达到52.3%和52.5%的AP,使用Swin-L骨干网络进一步改善到58.0%的AP,显示了方法的有效性。

扫码回复【DETR目标检测】
免费领取论文合集
图片
【!大模型安全直播来袭】生成式 AI 普及浪潮下,安全隐患如影随形!9.10晚19点这场直播带你直击大模型安全前沿。
图片

扫码预约直播

图片


领取福利

科研资料大放送:

1.《申博咨询规划一次》

2.《1000+热门idea合集》

3.《往期大牛热点分析直播课》

4.《全方向顶会顶刊论文合集》

图片
图片
图片

扫码领取

科研福利大礼包

图片

图片

没有评论:

发表评论

N8N重大升级!手把手教你升级:复制指令,3分钟搞定(含避坑指南)

点击上方卡片关注 不要错过精彩文章 📌 持续更新有关Agent的最新搭建思路和工作流分享,希望能给您带来帮助,点一点上方的🔵蓝色小字关注,你的支持是我最大的动力!🙏谢谢啦!🌟"  大家好!我是唐舰长🙏 这两天好多小伙伴找到舰长,说 "舰长教的流程...