Cascade-DETR: Delving into High-Quality Universal Object Detection
Abstract
- Transformer-based检测器在coco上占主导地位,但是在其它domain不具有竞争力——在复杂环境下泛化能力不佳
- 本文提出了Cascade Attention layer, 通过限制注意力到先前的box预测来隐式地将物体中心信息整合到检测解码器。为了进一步提升准确率,预测查询的预期 IoU,从而大大提高了校准过的可信度
- UDB10 Benchmark包含10类不同数据集, spanning traffic, medical, art, open-world, etc.
Related Work
- DETR-based Object Detection
- CNN-based
- DETR-based :超过了CNN-based
- DN-DETR: as baseline
- DINO
- Cross-attention in DETR-based Decoder
- Deformable DETR: deformable attention
- Mask2Former: mask attention for segmentation
- High-quality Object Detection
- R-CNN based
- Cascade R-CNN
- Dynamic R-CNN
- FCOS
- DETR-based
- first one
- R-CNN based
- DETR-based Universal Object Detection
- COCO
- UDB10
Contributions
- Cascade Attention
- IoU-aware Query Recalibration
Methodology
Overview
Cascade Attention
- Why
- 标准的DETR decoder中利用的是全局图像特征,本文认为(假设)query领域的local信息更加重要。在COCO上,交叉注意力map收敛到object位置的周边区域。之所以网络可以学习这种inductive bias,是因为数据量很大。所以对小批量数据或者多样性的数据并不合适。
- How
- 本文提出将目标中心prior作为已知约束整合到网络的初始化和训练过程,具体就是在decoder的每一层预测的box作为交叉注意力的范围进行约束。
- What
上图可见,attention map区域就是box区域,这种inductive bias使得DETR快速收敛且提升性能,尤其是在小数据集和多样性数据集上
IoU-aware Query Recalibration
- Why
- 分类得分没有显示考虑到预测的bbox准确率, 而高质量的propasals需要高的IOU
- How
- 在网络的最后一层增加了一个由linear layer构成的branch,用来预测IOU的期望,采用L2 loss
- What
- re-calibrated 更接近,具有更好的定位质量
Experiments
Conclusions
- 很强