v1v2v3v4 (latest)

Deformable DETR: Deformable Transformers for End-to-End Object Detection

International Conference on Learning Representations (ICLR), 2020

8 October 2020

Weijie Su

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (3553★)

Papers citing "Deformable DETR: Deformable Transformers for End-to-End Object Detection"

50 / 2,788 papers shown

IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object DetectionComputer Vision and Pattern Recognition (CVPR), 2024

425

22 Mar 2024

MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection

431

22 Mar 2024

Infrastructure-Assisted Collaborative Perception in Automated Valet Parking: A Safety PerspectiveIEEE Vehicular Technology Conference (VTC), 2024

234

22 Mar 2024

Vehicle Detection Performance in Nordic RegionInternational Conference on Pattern Recognition (ICPR), 2024

213

22 Mar 2024

Preventing Catastrophic Forgetting through Memory Networks in Continuous Detection

290

21 Mar 2024

LiFT: A Surprisingly Simple Lightweight Feature Transform for Dense ViT Descriptors

315

21 Mar 2024

ODTFormer: Efficient Obstacle Detection and Tracking with Stereo Cameras Based on Transformer

Tianye Ding

Hongyu Li

Huaizu Jiang

229

21 Mar 2024

T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

Lei Zhang

433

21 Mar 2024

LDTR: Transformer-based Lane Detection with Anchor-chain Representation

222

21 Mar 2024

Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection

Tim Salzmann

Markus Ryll

Alex Bewley

Matthias Minderer

346

21 Mar 2024

Volumetric Environment Representation for Vision-Language Navigation

Rui Liu

Wenguan Wang

Yi Yang

310

21 Mar 2024

Meta-Point Learning and Refining for Category-Agnostic Pose Estimation

362

20 Mar 2024

vid-TLDR: Training Free Token merging for Light-weight Video Transformer

350

20 Mar 2024

Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models

Jie Zhou

285

19 Mar 2024

TAPTR: Tracking Any Point with Transformers as Detection

Lei Zhang

261

19 Mar 2024

FaceXFormer: A Unified Transformer for Facial Analysis

553

19 Mar 2024

Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object SegmentationEuropean Conference on Computer Vision (ECCV), 2024

Zixin Zhu

Xuelu Feng

Dongdong Chen

Junsong Yuan

Chunming Qiao

Gang Hua

DiffM

352

18 Mar 2024

BEVCar: Camera-Radar Fusion for BEV Map and Object SegmentationIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024

Wolfram Burgard

Abhinav Valada

293

18 Mar 2024

Continual Forgetting for Pre-trained Vision ModelsComputer Vision and Pattern Recognition (CVPR), 2024

379

18 Mar 2024

GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection

Ziying Song

Lei Yang

Shaoqing Xu

Lin Liu

Dongyang Xu

Caiyan Jia

Feiyang Jia

Li-e Wang

3DPC

625

18 Mar 2024

Align and Distill: Unifying and Improving Domain Adaptive Object Detection

568

18 Mar 2024

Domain-Guided Masked Autoencoders for Unique Player Identification

Bavesh Balaji

Jerrin Bright

Sirisha Rambhatla

Yuhao Chen

Alexander Wong

John S. Zelek

David A Clausi

212

17 Mar 2024

NetTrack: Tracking Highly Dynamic Objects with a Net

Guang-Zheng Zheng

Shijie Lin

Haobo Zuo

Changhong Fu

Jia Pan

317

17 Mar 2024

Diffusion Models are Efficient Data Generators for Human Mesh Recovery

518

17 Mar 2024

SimPB: A Single Model for 2D and 3D Object Detection from Multiple CamerasEuropean Conference on Computer Vision (ECCV), 2024

278

15 Mar 2024

Generative Region-Language Pretraining for Open-Ended Object DetectionComputer Vision and Pattern Recognition (CVPR), 2024

Jianfei Cai

249

15 Mar 2024

TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model

332

15 Mar 2024

SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception

309

15 Mar 2024

Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2024

448

15 Mar 2024

ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real ImagesEuropean Conference on Computer Vision (ECCV), 2024

204

15 Mar 2024

EfficientVMamba: Atrous Selective Scan for Light Weight Visual MambaAAAI Conference on Artificial Intelligence (AAAI), 2024

347

221

15 Mar 2024

HyCTAS: Multi-Objective Hybrid Convolution-Transformer Architecture Search for Real-Time Image Segmentation

345

15 Mar 2024

Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

Yifei Huang

342

138

14 Mar 2024

Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive OptimizationBritish Machine Vision Conference (BMVC), 2024

273

14 Mar 2024

Efficient Transferability Assessment for Selection of Pre-trained DetectorsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

215

14 Mar 2024

GiT: Towards Generalist Vision Transformer through Universal Language InterfaceEuropean Conference on Computer Vision (ECCV), 2024

Muhammad Ferjad Naeem

Jiaming Song

Bernt Schiele

Liwei Wang

VLM

307

14 Mar 2024

PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest

Wanli Ouyang

341

14 Mar 2024

PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task AdaptationEuropean Conference on Computer Vision (ECCV), 2024

Hui Chen

Jungong Han

Yongjun Bao

416

14 Mar 2024

ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal ImagesACM International Conference on Embedded Networked Sensor Systems (SenSys), 2024

605

14 Mar 2024

MonoOcc: Digging into Monocular Semantic Occupancy PredictionIEEE International Conference on Robotics and Automation (ICRA), 2024

Xiang Li

Bu Jin

Hao Zhao

257

13 Mar 2024

MIM4D: Masked Modeling with Multi-View Video for Autonomous Driving Representation Learning

294

13 Mar 2024

Historical Astronomical Diagrams Decomposition in Geometric PrimitivesIEEE International Conference on Document Analysis and Recognition (ICDAR), 2024

192

13 Mar 2024

HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map ConstructionComputer Vision and Pattern Recognition (CVPR), 2024

Yifan Yang

316

13 Mar 2024

TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection

Hanning Chen

Wenjun Huang

Mohsen Imani

252

12 Mar 2024

A Survey of Vision Transformers in Autonomous Driving: Current Trends and Future Directions

Quoc-Vinh Lai-Dang

ViT

311

12 Mar 2024

ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense PredictionsComputer Vision and Pattern Recognition (CVPR), 2024

459

137

12 Mar 2024

SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object DetectionEuropean Conference on Computer Vision (ECCV), 2024

409

12 Mar 2024

Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D PerceptionIEEE International Conference on Robotics and Automation (ICRA), 2024

621

12 Mar 2024

Real-time Transformer-based Open-Vocabulary Detection with Efficient Fusion Head

213

11 Mar 2024

Genetic Learning for Designing Sim-to-Real Data Augmentations

Bram Vanherle

Nick Michiels

F. Reeth

164

11 Mar 2024