v1v2 (latest)

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

IEEE International Conference on Computer Vision (ICCV), 2021

26 April 2021

ArXiv (abs)PDF HTML Github (1008★)

Papers citing "MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding"

50 / 678 papers shown

Weakly-supervised segmentation of referring expressions

Robin Strudel

Ivan Laptev

Cordelia Schmid

238

10 May 2022

Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection

155

09 May 2022

Declaration-based Prompt Tuning for Visual Question AnsweringInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

118

05 May 2022

Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering

279

02 May 2022

A Multi-level Alignment Training Scheme for Video-and-Language Grounding

Govind Thattai

219

22 Apr 2022

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression ComprehensionIEEE Transactions on Image Processing (IEEE TIP), 2022

Xi Li

335

21 Apr 2022

A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of One-Stage Referring Expression ComprehensionIEEE transactions on multimedia (IEEE TMM), 2022

248

17 Apr 2022

ReCLIP: A Strong Zero-Shot Baseline for Referring Expression ComprehensionAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

285

157

12 Apr 2022

X-DETR: A Versatile Architecture for Instance-wise Vision-Language TasksEuropean Conference on Computer Vision (ECCV), 2022

151

12 Apr 2022

Domain-Agnostic Prior for Transfer Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2022

220

06 Apr 2022

"This is my unicorn, Fluffy": Personalizing frozen vision-language representationsEuropean Conference on Computer Vision (ECCV), 2022

355

104

04 Apr 2022

MultiMAE: Multi-modal Multi-task Masked AutoencodersEuropean Conference on Computer Vision (ECCV), 2022

423

349

04 Apr 2022

Socratic Models: Composing Zero-Shot Multimodal Reasoning with LanguageInternational Conference on Learning Representations (ICLR), 2022

...

594

684

01 Apr 2022

FindIt: Generalized Localization with Natural Language QueriesEuropean Conference on Computer Vision (ECCV), 2022

210

31 Mar 2022

ReSTR: Convolution-free Referring Image Segmentation Using TransformersComputer Vision and Pattern Recognition (CVPR), 2022

345

178

31 Mar 2022

TubeDETR: Spatio-Temporal Video Grounding with TransformersComputer Vision and Pattern Recognition (CVPR), 2022

341

121

30 Mar 2022

Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2022

Jiabo Ye

Ji Zhang

230

29 Mar 2022

Open-Vocabulary DETR with Conditional MatchingEuropean Conference on Computer Vision (ECCV), 2022

382

263

22 Mar 2022

CoWs on Pasture: Baselines and Benchmarks for Language-Driven Zero-Shot Object NavigationComputer Vision and Pattern Recognition (CVPR), 2022

Shuran Song

339

235

20 Mar 2022

Local-Global Context Aware Transformer for Language-Guided Video SegmentationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

322

101

18 Mar 2022

End-to-End Modeling via Information Tree for One-Shot Natural Language Spatial Video GroundingAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Zhou Zhao

...

Peng Wang

292

15 Mar 2022

Can you even tell left from right? Presenting a new challenge for VQAIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

177

15 Mar 2022

Backbone is All Your Need: A Simplified Architecture for Visual Object TrackingEuropean Conference on Computer Vision (ECCV), 2022

Wanli Ouyang

272

269

10 Mar 2022

CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers

Kailun Yang

417

519

09 Mar 2022

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object DetectionInternational Conference on Learning Representations (ICLR), 2022

Hao Zhang

Feng Li

Shilong Liu

Lei Zhang

Hang Su

Jun Zhu

L. Ni

H. Shum

ViT

744

2,208

07 Mar 2022

DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local ExplanationsAAAI/ACM Conference on AI, Ethics, and Society (AIES), 2022

Louis-Philippe Morency

237

03 Mar 2022

Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

Lei Zhang

211

03 Mar 2022

CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud UnderstandingComputer Vision and Pattern Recognition (CVPR), 2022

Kanchana Thilakarathna

Ranga Rodrigo

3DPC

332

318

01 Mar 2022

Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular AlignmentComputer Vision and Pattern Recognition (CVPR), 2022

Amanpreet Singh

158

01 Mar 2022

Measuring CLEVRness: Blackbox testing of Visual Reasoning ModelsInternational Conference on Learning Representations (ICLR), 2022

Spyridon Mouselinos

Henryk Michalewski

Mateusz Malinowski

270

24 Feb 2022

GroupViT: Semantic Segmentation Emerges from Text SupervisionComputer Vision and Pattern Recognition (CVPR), 2022

760

631

22 Feb 2022

VLP: A Survey on Vision-Language Pre-trainingMachine Intelligence Research (MIR), 2022

Minglun Han

393

289

18 Feb 2022

Delving Deeper into Cross-lingual Visual Question AnsweringFindings (Findings), 2022

300

15 Feb 2022

An experimental study of the vision-bottleneck in VQASocial Science Research Network (SSRN), 2022

250

14 Feb 2022

OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning FrameworkInternational Conference on Machine Learning (ICML), 2022

Peng Wang

An Yang

Rui Men

Junyang Lin

Shuai Bai

Zhikang Li

Jianxin Ma

Chang Zhou

Jingren Zhou

Hongxia Yang

MLLM ObjD

521

1,014

07 Feb 2022

Transformers in Medical Imaging: A Survey

Salman Khan

Muhammad Haris Khan

322

958

24 Jan 2022

Omnivore: A Single Model for Many Visual ModalitiesComputer Vision and Pattern Recognition (CVPR), 2022

Rohit Girdhar

Mannat Singh

Nikhil Ravi

Laurens van der Maaten

Armand Joulin

Ishan Misra

599

287

20 Jan 2022

Label-dependent and event-guided interpretable disease risk prediction using EHRsIEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2021

106

18 Jan 2022

Unpaired Referring Expression Grounding via Bidirectional Cross-Modal MatchingNeurocomputing (Neurocomputing), 2022

Hengcan Shi

Munawar Hayat

Jianfei Cai

ObjD

207

18 Jan 2022

Multi-Query Video RetrievalEuropean Conference on Computer Vision (ECCV), 2022

285

10 Jan 2022

Language-driven Semantic SegmentationInternational Conference on Learning Representations (ICLR), 2022

Boyi Li

333

784

10 Jan 2022

Detecting Twenty-thousand Classes using Image-level SupervisionEuropean Conference on Computer Vision (ECCV), 2022

490

755

07 Jan 2022

Language as Queries for Referring Video Object SegmentationComputer Vision and Pattern Recognition (CVPR), 2022

516

220

03 Jan 2022

Scaling Open-Vocabulary Image Segmentation with Image-Level LabelsEuropean Conference on Computer Vision (ECCV), 2021

444

494

22 Dec 2021

Image Segmentation Using Text and Image PromptsComputer Vision and Pattern Recognition (CVPR), 2021

Timo Lüddecke

Alexander S. Ecker

CLIP VLM

710

647

18 Dec 2021

Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds

483

147

16 Dec 2021

Predicting Physical World Destinations for Commands Given to Self-Driving Cars

Matthew Blaschko

200

10 Dec 2021

PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning

Yining Hong

Li Yi

J. Tenenbaum

Antonio Torralba

Chuang Gan

168

09 Dec 2021

Grounded Language-Image Pre-training

Jianwei Yang

...

Lu Yuan

Lei Zhang

463

1,391

07 Dec 2021

From Coarse to Fine-grained Concept based Discrimination for Phrase Detection

Maan Qraitem

Bryan A. Plummer

ObjD

197

06 Dec 2021