v1v2 (latest)

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

IEEE International Conference on Computer Vision (ICCV), 2021

26 April 2021

ArXiv (abs)PDF HTML Github (1008★)

Papers citing "MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding"

50 / 678 papers shown

detrex: Benchmarking Detection Transformers

Ailing Zeng

...

Zhaoyang Zeng

Xianbiao Qi

Yuhui Yuan

Jianwei Yang

Lei Zhang

219

12 Jun 2023

EventCLIP: Adapting CLIP for Event-based Object Recognition

288

10 Jun 2023

Multi-Modal Classifiers for Open-Vocabulary Object DetectionInternational Conference on Machine Learning (ICML), 2023

201

08 Jun 2023

245

08 Jun 2023

ScaleDet: A Scalable Multi-Dataset Object DetectorComputer Vision and Pattern Recognition (CVPR), 2023

168

08 Jun 2023

Fine-Grained Visual PromptingNeural Information Processing Systems (NeurIPS), 2023

Lingfeng Yang

Yueze Wang

Xiang Li

Xinlong Wang

Jian Yang

ObjD VLM

245

07 Jun 2023

Language Adaptive Weight Generation for Multi-task Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2023

Xi Li

292

06 Jun 2023

Referring Expression Comprehension Using Language Adaptive InferenceAAAI Conference on Artificial Intelligence (AAAI), 2023

Xi Li

252

06 Jun 2023

DisCLIP: Open-Vocabulary Referring Expression GenerationBritish Machine Vision Conference (BMVC), 2023

243

30 May 2023

Multi-modal Queried Object Detection in the WildNeural Information Processing Systems (NeurIPS), 2023

364

30 May 2023

Contextual Object Detection with Multimodal Large Language ModelsInternational Journal of Computer Vision (IJCV), 2023

325

140

29 May 2023

Z-GMOT: Zero-shot Generic Multiple Object Tracking

Kim Hoang Tran

Ngan Hoang Le

290

28 May 2023

Modularized Zero-shot VQA with Pre-trained ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Rui Cao

Jing Jiang

LRM

254

27 May 2023

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object SegmentationAAAI Conference on Artificial Intelligence (AAAI), 2023

Ziyu Guo

Wei Zhang

Yu Qiao

Zhongjiang He

322

25 May 2023

Multi-Modal Mutual Attention and Iterative Interaction for Referring Image SegmentationIEEE Transactions on Image Processing (IEEE TIP), 2023

279

24 May 2023

GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions

Ahmed Hassan Awadallah

Damien Jose

Xiang Ren

ObjD VLM

206

24 May 2023

Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D ScansInternational Conference on 3D Vision (3DV), 2023

293

23 May 2023

Perception Test: A Diagnostic Benchmark for Multimodal Video ModelsNeural Information Processing Systems (NeurIPS), 2023

Viorica Puatruaucean

Lucas Smaira

Ankush Gupta

Adrià Recasens Continente

...

Dima Damen

437

264

23 May 2023

Type-to-Track: Retrieve Any Object via Prompt-based TrackingNeural Information Processing Systems (NeurIPS), 2023

283

22 May 2023

Multimodal Web Navigation with Instruction-Finetuned Foundation ModelsInternational Conference on Learning Representations (ICLR), 2023

Hiroki Furuta

413

142

19 May 2023

TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding

Lei Chen

171

19 May 2023

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric TasksNeural Information Processing Systems (NeurIPS), 2023

...

Yu Qiao

302

617

18 May 2023

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

Peng Wang

Shijie Wang

Junyang Lin

Shuai Bai

Xiaohuan Zhou

Jingren Zhou

Xinggang Wang

Chang Zhou

VLM MLLM ObjD

579

154

18 May 2023

Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature

Ana Claudia Akemi Matsuki de Faria

Felype de Castro Bastos

Jose Victor Nogueira Alves da Silva

Vitor Lopes Fabris

Valeska Uchôa

Décio Gonccalves de Aguiar Neto

C. F. G. Santos

263

18 May 2023

Annotation-free Audio-Visual SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

392

18 May 2023

Weakly-Supervised Visual-Textual Grounding with Semantic Prior RefinementBritish Machine Vision Conference (BMVC), 2023

188

18 May 2023

UniS-MMC: Multimodal Classification via Unimodality-supervised Multimodal Contrastive LearningAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Heqing Zou

Meng Shen

Chen Chen

Yuchen Hu

D. Rajan

Chng Eng Siong

SSL

225

16 May 2023

CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual GroundingIEEE transactions on multimedia (IEEE TMM), 2023

Linhui Xiao

Xiaoshan Yang

Fang Peng

Ming Yan

Yaowei Wang

Changsheng Xu

ObjD VLM

448

15 May 2023

COLA: A Benchmark for Compositional Text-to-image RetrievalNeural Information Processing Systems (NeurIPS), 2023

426

05 May 2023

Unified Model Learning for Various Neural Machine Translation

Jie Zhou

211

04 May 2023

Energy-based Models are Zero-Shot Planners for Compositional Scene Rearrangement

416

27 Apr 2023

$π$-Tuning: Transferring Multimodal Foundation Models with Optimal
Multi-task Interpolation

π

-Tuning: Transferring Multimodal Foundation Models with Optimal Multi-task InterpolationInternational Conference on Machine Learning (ICML), 2023

Zeyu Lu

Ying Shan

Ping Luo

MoMe

214

27 Apr 2023

Zero-shot Unsupervised Transfer Instance Segmentation

299

27 Apr 2023

Multimodal Grounding for Embodied AI via Augmented Reality Headsets for Natural Language Driven Task Planning

179

26 Apr 2023

A Cookbook of Self-Supervised Learning

...

Pierre Fernandez

429

362

24 Apr 2023

OmniLabel: A Challenging Benchmark for Language-Based Object DetectionIEEE International Conference on Computer Vision (ICCV), 2023

S. Schulter

G. VijayKumarB.

Yumin Suh

Konstantinos M. Dafnis

184

22 Apr 2023

Domain Generalization for Mammographic Image Analysis with Contrastive Learning

...

572

20 Apr 2023

Transformer-Based Visual Segmentation: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Xiangtai Li

370

247

19 Apr 2023

Delving into Shape-aware Zero-shot Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2023

Hao Zhao

282

17 Apr 2023

On the Opportunities and Challenges of Foundation Models for Geospatial Artificial Intelligence

...

318

154

13 Apr 2023

What does CLIP know about a red circle? Visual prompt engineering for VLMsIEEE International Conference on Computer Vision (ICCV), 2023

Aleksandar Shtedritski

Christian Rupprecht

Andrea Vedaldi

VLM MLLM

379

231

13 Apr 2023

Verbs in Action: Improving verb understanding in video-language modelsIEEE International Conference on Computer Vision (ICCV), 2023

373

13 Apr 2023

WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural LanguageEuropean Conference on Computer Vision (ECCV), 2023

Xinge Zhu

Yuexin Ma

302

12 Apr 2023

MoMo: A shared encoder Model for text, image and multi-Modal representations

112

11 Apr 2023

Detection Transformer with Stable MatchingIEEE International Conference on Computer Vision (ICCV), 2023

...

Hang Su

Jun Zhu

Lei Zhang

220

10 Apr 2023

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region AlignmentComputer Vision and Pattern Recognition (CVPR), 2023

Lewei Yao

Jianhua Han

Xiaodan Liang

Danqian Xu

Wei Zhang

Zhenguo Li

Hang Xu

VLM ObjD CLIP

292

102

10 Apr 2023

CAVL: Learning Contrastive and Adaptive Representations of Vision and Language

Shentong Mo

Jingfei Xia

Ihor Markevych

CLIP VLM

199

10 Apr 2023

ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D ScenesIEEE International Conference on Computer Vision (ICCV), 2023

Jiangyong Huang

...

Baoxiong Jia

286

09 Apr 2023

Mitigating Spurious Correlations in Multi-modal Models during Fine-tuningInternational Conference on Machine Learning (ICML), 2023

Yu Yang

Besmira Nushi

Hamid Palangi

Baharan Mirzasoleiman

261

08 Apr 2023

V3Det: Vast Vocabulary Visual Detection DatasetIEEE International Conference on Computer Vision (ICCV), 2023

Conghui He

317

07 Apr 2023