Cascade-DETR

Paper Reading

Paper Reading

发布日期: 2023-08-01

更新日期: 2023-08-01

文章字数: 497

阅读时长: 2 分

阅读次数:

Cascade-DETR: Delving into High-Quality Universal Object Detection

Paper
Code

Abstract

Transformer-based检测器在coco上占主导地位，但是在其它domain不具有竞争力——在复杂环境下泛化能力不佳
本文提出了Cascade Attention layer, 通过限制注意力到先前的box预测来隐式地将物体中心信息整合到检测解码器。为了进一步提升准确率，预测查询的预期 IoU，从而大大提高了校准过的可信度
UDB10 Benchmark包含10类不同数据集， spanning traffic, medical, art, open-world, etc.

DETR-based Object Detection
- CNN-based
- DETR-based ：超过了CNN-based
  - DN-DETR: as baseline
  - DINO
Cross-attention in DETR-based Decoder
- Deformable DETR: deformable attention
- Mask2Former: mask attention for segmentation
High-quality Object Detection
- R-CNN based
  - Cascade R-CNN
  - Dynamic R-CNN
  - FCOS
- DETR-based
  - first one
DETR-based Universal Object Detection
- COCO
- UDB10

Contributions

Cascade Attention
IoU-aware Query Recalibration

Methodology

Overview

Cascade Attention

Why
- 标准的DETR decoder中利用的是全局图像特征，本文认为（假设）query领域的local信息更加重要。在COCO上，交叉注意力map收敛到object位置的周边区域。之所以网络可以学习这种inductive bias，是因为数据量很大。所以对小批量数据或者多样性的数据并不合适。
How
- 本文提出将目标中心prior作为已知约束整合到网络的初始化和训练过程，具体就是在decoder的每一层预测的box作为交叉注意力的范围进行约束。
What

上图可见，attention map区域就是box区域，这种inductive bias使得DETR快速收敛且提升性能，尤其是在小数据集和多样性数据集上

IoU-aware Query Recalibration

Why
- 分类得分没有显示考虑到预测的bbox准确率, 而高质量的propasals需要高的IOU
How
- 在网络的最后一层增加了一个由linear layer构成的branch，用来预测IOU的期望，采用L2 loss
What
- re-calibrated 更接近，具有更好的定位质量

Experiments

Conclusions

很强

References

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

Lee Jet

https://lee-jet.github.io/2023/08/01/cascade-detr/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Lee Jet !

Paper Reading

评论

上一篇

OC-SORT

2023-08-02 Paper Reading

Paper Reading

下一篇

paper-reading

2023-08-01 Paper Reading

Paper Reading