






论文题目:Real-Time Object Detection Meets DINOv3
论文链接:https://arxiv.org/pdf/2509.20787
代码链接:https://github.com/Intellindust-AI-Lab/DEIMv2
这篇论文提出了DEIMv2,一种新一代实时目标检测器,通过将DINOv3的强大语义特征与轻量化的空间调谐适配器(STA)相结合,显著提升了检测性能与效率的平衡。DEIMv2涵盖了从X到Atto的八种模型规模,适应GPU、边缘设备和移动端等多种部署场景。对于较大模型(X、L、M、S),作者采用DINOv3预训练或蒸馏的主干网络,并引入STA模块,以无参方式将DINOv3的单尺度输出转换为多尺度特征,同时补充细粒度细节,增强检测能力。对于超轻量模型(Nano、Pico、Femto、Atto),则基于HGNetv2进行深度和宽度剪枝,结合简化解码器和升级的Dense O2O机制,实现在严格资源预算下的高效检测。
实验结果表明,DEIMv2在COCO数据集上全面超越了现有实时检测器。其中,DEIMv2-X仅用50.3M参数就达到57.8 AP,优于此前需要60M以上参数的同类模型;DEIMv2-S则以9.71M参数首次突破50 AP大关,达到50.9 AP;超轻量级的DEIMv2-Pico仅用1.5M参数实现38.5 AP,性能匹配参数多一倍的YOLOv10-Nano。这些成果凸显了DEIMv2在广泛计算需求下的优越可扩展性和实用性,为实时目标检测在实际应用中的推广提供了有力支持。#计算机视觉 #深度学习 #科研 #大模型 #目标检测 #DINOV3 #DEIMv2 #文献 #科研学习
论文链接:https://arxiv.org/pdf/2509.20787
代码链接:https://github.com/Intellindust-AI-Lab/DEIMv2
这篇论文提出了DEIMv2,一种新一代实时目标检测器,通过将DINOv3的强大语义特征与轻量化的空间调谐适配器(STA)相结合,显著提升了检测性能与效率的平衡。DEIMv2涵盖了从X到Atto的八种模型规模,适应GPU、边缘设备和移动端等多种部署场景。对于较大模型(X、L、M、S),作者采用DINOv3预训练或蒸馏的主干网络,并引入STA模块,以无参方式将DINOv3的单尺度输出转换为多尺度特征,同时补充细粒度细节,增强检测能力。对于超轻量模型(Nano、Pico、Femto、Atto),则基于HGNetv2进行深度和宽度剪枝,结合简化解码器和升级的Dense O2O机制,实现在严格资源预算下的高效检测。
实验结果表明,DEIMv2在COCO数据集上全面超越了现有实时检测器。其中,DEIMv2-X仅用50.3M参数就达到57.8 AP,优于此前需要60M以上参数的同类模型;DEIMv2-S则以9.71M参数首次突破50 AP大关,达到50.9 AP;超轻量级的DEIMv2-Pico仅用1.5M参数实现38.5 AP,性能匹配参数多一倍的YOLOv10-Nano。这些成果凸显了DEIMv2在广泛计算需求下的优越可扩展性和实用性,为实时目标检测在实际应用中的推广提供了有力支持。#计算机视觉 #深度学习 #科研 #大模型 #目标检测 #DINOV3 #DEIMv2 #文献 #科研学习


