v1v2v3v4 (latest)

Deformable DETR: Deformable Transformers for End-to-End Object Detection

International Conference on Learning Representations (ICLR), 2020

8 October 2020

Weijie Su

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (3553★)

Papers citing "Deformable DETR: Deformable Transformers for End-to-End Object Detection"

50 / 2,782 papers shown

Vision-based 3D occupancy prediction in autonomous driving: a review and outlook

Yanan Zhang

377

04 May 2024

ViTALS: Vision Transformer for Action Localization in Surgical Nephrectomy

Soumyadeep Chandra

Sayeed Shafayet Chowdhury

Courtney Yong

Chandru P. Sundaram

Kaushik Roy

183

04 May 2024

Development of Skip Connection in Deep Neural Networks for Computer Vision and Medical Image Analysis: A SurveyEngineering applications of artificial intelligence (EAAI), 2024

248

02 May 2024

Imagine the Unseen: Occluded Pedestrian Detection via Adversarial Feature Completion

320

02 May 2024

Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models

Keqiang Sun

249

01 May 2024

Model Quantization and Hardware Acceleration for Vision Transformers: A Comprehensive Survey

Dayou Du

Gu Gong

Xiaowen Chu

456

01 May 2024

Towards End-to-End Semi-Supervised Table Detection with Semantic Aligned Matching Transformer

Tahira Shehzadi

Shalini Sarode

Didier Stricker

Muhammad Zeshan Afzal

LMTD

332

30 Apr 2024

VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization

Yuliang Liu

Chunhua Shen

Lianwen Jin

Xiang Bai

241

30 Apr 2024

Reliable or Deceptive? Investigating Gated Features for Smooth Visual Explanations in CNNs

175

30 Apr 2024

Robust Pedestrian Detection via Constructing Versatile Pedestrian Knowledge Bank

Sungjune Park

Hyunjun Kim

Y. Ro

239

30 Apr 2024

C2FDrone: Coarse-to-Fine Drone-to-Drone Detection using Vision Transformer Networks

Sairam VC Rebbapragada

Pranoy Panda

Vineeth N. Balasubramanian

ViT

236

30 Apr 2024

Dexterous Grasp Transformer

Xiao-Ming Wu

261

28 Apr 2024

A Hybrid Approach for Document Layout Analysis in Document images

Tahira Shehzadi

Didier Stricker

Muhammad Zeshan Afzal

226

27 Apr 2024

Efficient Bi-manipulation using RGBD Multi-model Fusion based on Attention Mechanism

Jian Shen

Jiaxin Huang

Zhigong Song

102

27 Apr 2024

Sparse Reconstruction of Optical Doppler Tomography with Alternative State Space Model and Attention

257

26 Apr 2024

UniRGB-IR: A Unified Framework for Visible-Infrared Semantic Tasks via Adapter Tuning

367

26 Apr 2024

Features Fusion for Dual-View Mammography Mass Detection

160

25 Apr 2024

Multi-Scale Representations by Varying Window Attention for Semantic Segmentation

Haotian Yan

Ming Wu

Chuang Zhang

327

25 Apr 2024

BezierFormer: A Unified Architecture for 2D and 3D Lane Detection

258

25 Apr 2024

ChEX: Interactive Localization and Region Description in Chest X-rays

Philip Muller

Georgios Kaissis

Daniel Rueckert

252

24 Apr 2024

SRAGAN: Saliency Regularized and Attended Generative Adversarial Network for Chinese Ink-wash Painting Style TransferPattern Recognition (Pattern Recogn.), 2024

Yantao Du

Yuqi Zhang

GAN

336

24 Apr 2024

OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving

Chao Ma

231

23 Apr 2024

DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models

242

23 Apr 2024

Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation

452

23 Apr 2024

PM-VIS: High-Performance Box-Supervised Video Instance Segmentation

270

22 Apr 2024

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

Xiaojuan Qi

271

107

19 Apr 2024

FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving

238

19 Apr 2024

Performance Evaluation of Segment Anything Model with Variational Prompting for Application to Non-Visible Spectrum Imagery

Yona Falinie A. Gaus

Neelanjan Bhowmik

Brian K. S. Isaac-Medina

T. Breckon

VLM

210

18 Apr 2024

MLS-Track: Multilevel Semantic Interaction in RMOT

211

18 Apr 2024

Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation

Qiyuan Dai

Sibei Yang

218

18 Apr 2024

Not All Voxels Are Equal: Hardness-Aware Semantic Scene Completion with Self-Distillation

269

18 Apr 2024

Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition

433

18 Apr 2024

TempBEV: Improving Learned BEV Encoders with Combined Image and BEV Space Temporal Aggregation

181

17 Apr 2024

Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach

Mir Rayat Imtiaz Hossain

281

17 Apr 2024

Multi-resolution Rescored ByteTrack for Video Object Detection on Ultra-low-power Embedded Systems

Luca Benini

196

17 Apr 2024

CarcassFormer: An End-to-end Transformer-based Framework for Simultaneous Localization, Segmentation and Classification of Poultry Carcass Defect

Minh Q. Tran

Sang Truong

Arthur F. A. Fernandes

Michael Kidd

Ngan Le

ViT

279

17 Apr 2024

Improving Hierarchical Representations of Vectorized HD Maps with Perspective Clues

181

17 Apr 2024

OSR-ViT: A Simple and Modular Framework for Open-Set Object Detection and Discovery

Hao Yang

Yiran Chen

242

16 Apr 2024

No More Ambiguity in 360° Room Layout via Bi-Layout Estimation

Ming-Hsuan Yang

209

15 Apr 2024

Design and Analysis of Efficient Attention in Transformers for Social Group Activity Recognition

Masato Tamura

150

15 Apr 2024

STMixer: A One-Stage Sparse Action Detector

Tao Wu

Mengqing Cao

Ziteng Gao

Gangshan Wu

Limin Wang

229

15 Apr 2024

SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction

Chao Ma

230

15 Apr 2024

Q2A: Querying Implicit Fully Continuous Feature Pyramid to Align Features for Medical Image Segmentation

Jiahao Yu

Li Chen

294

15 Apr 2024

Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers

Diana-Nicoleta Grigore

Mariana-Iuliana Georgescu

J. A. Justo

T. Johansen

Andreea-Iuliana Ionescu

Radu Tudor Ionescu

340

14 Apr 2024

Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics

145

14 Apr 2024

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

Lewei Yao

Renjie Pi

Jianhua Han

Xiaodan Liang

Hang Xu

Wei Zhang

Zhenguo Li

Dan Xu

VLM ObjD

304

14 Apr 2024

MAProtoNet: A Multi-scale Attentive Interpretable Prototypical Part Network for 3D Magnetic Resonance Imaging Brain Tumor Classification

231

13 Apr 2024

188

11 Apr 2024

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

181

11 Apr 2024

GLID: Pre-training a Generalist Encoder-Decoder Vision Model

210

11 Apr 2024