Cascade-DETR


Cascade-DETR: Delving into High-Quality Universal Object Detection

Abstract

  • Transformer-based检测器在coco上占主导地位,但是在其它domain不具有竞争力——在复杂环境下泛化能力不佳
  • 本文提出了Cascade Attention layer, 通过限制注意力到先前的box预测来隐式地将物体中心信息整合到检测解码器。为了进一步提升准确率,预测查询的预期 IoU,从而大大提高了校准过的可信度
  • UDB10 Benchmark包含10类不同数据集, spanning traffic, medical, art, open-world, etc.
  • DETR-based Object Detection
    • CNN-based
    • DETR-based :超过了CNN-based
      • DN-DETR: as baseline
      • DINO
  • Cross-attention in DETR-based Decoder
    • Deformable DETR: deformable attention
    • Mask2Former: mask attention for segmentation
  • High-quality Object Detection
    • R-CNN based
      • Cascade R-CNN
      • Dynamic R-CNN
      • FCOS
    • DETR-based
      • first one
  • DETR-based Universal Object Detection
    • COCO
    • UDB10

Contributions

  • Cascade Attention
  • IoU-aware Query Recalibration

Methodology

Overview

image-20230801161017608

image-20230801164536052

Cascade Attention

  • Why
    • 标准的DETR decoder中利用的是全局图像特征,本文认为(假设)query领域的local信息更加重要。在COCO上,交叉注意力map收敛到object位置的周边区域。之所以网络可以学习这种inductive bias,是因为数据量很大。所以对小批量数据或者多样性的数据并不合适。
  • How
    • 本文提出将目标中心prior作为已知约束整合到网络的初始化和训练过程,具体就是在decoder的每一层预测的box作为交叉注意力的范围进行约束。
    • image-20230801164253653
  • What

image-20230801161702452

​ 上图可见,attention map区域就是box区域,这种inductive bias使得DETR快速收敛且提升性能,尤其是在小数据集和多样性数据集上

IoU-aware Query Recalibration

  • Why
    • 分类得分没有显示考虑到预测的bbox准确率, 而高质量的propasals需要高的IOU
  • How
    • 在网络的最后一层增加了一个由linear layer构成的branch,用来预测IOU的期望,采用L2 loss
    • image-20230801164218728
  • What
    • image-20230801163453254
    • re-calibrated 更接近,具有更好的定位质量

Experiments

image-20230801164121735

image-20230801164045970

image-20230801163942235

image-20230801164351031

image-20230801164801157

Conclusions

  • 很强

References


文章作者: Lee Jet
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Lee Jet !
评论
  目录