v1v2 (latest)

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

IEEE International Conference on Computer Vision (ICCV), 2021

26 April 2021

ArXiv (abs)PDF HTML Github (1008★)

Papers citing "MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding"

50 / 678 papers shown

Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras

316

23 Jul 2025

ReMeREC: Relation-aware and Multi-entity Referring Expression Comprehension

146

22 Jul 2025

Advancing Visual Large Language Model for Multi-granular Versatile Perception

223

22 Jul 2025

Audio-3DVG: Unified Audio -- Point Cloud Fusion for 3D Visual Grounding

238

01 Jul 2025

MDC-R: The Minecraft Dialogue Corpus with Reference

Chris Madge

Maris Camilleri

Paloma Carretero García

129

27 Jun 2025

Referring Expression Instance Retrieval and A Strong End-to-End Baseline

303

23 Jun 2025

HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models

Amit K. Roy-Chowdhury

Chengyu Song

LLMAG HILM LRM

251

18 Jun 2025

Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs

308

13 Jun 2025

Auto-Labeling Data for Object Detection

260

03 Jun 2025

Argus: Vision-Centric Reasoning with Grounded Chain-of-ThoughtComputer Vision and Pattern Recognition (CVPR), 2025

335

29 May 2025

Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models

271

27 May 2025

Open-Det: An Efficient Learning Framework for Open-Ended Detection

202

27 May 2025

Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model

Alaa Dalaq

Muzammil Behzad

VLM

412

25 May 2025

VLC Fusion: Vision-Language Conditioned Sensor Fusion for Robust Object Detection

266

19 May 2025

VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning

476

17 May 2025

Disambiguating Reference in Visually Grounded Dialogues through Joint Modeling of Textual and Multimodal Semantic StructuresAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

349

16 May 2025

Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation

500

22 Apr 2025

Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D

Krishna Murthy Jatavallabhula

...

280

19 Apr 2025

Visual Intention Grounding for Egocentric Assistants

279

18 Apr 2025

Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions

...

456

16 Apr 2025

LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation

263

15 Apr 2025

NTIRE 2025 Challenge on Cross-Domain Few-Shot Object Detection: Methods and Results

...

253

14 Apr 2025

Perception-R1: Pioneering Perception Policy with Reinforcement Learning

...

318

10 Apr 2025

Few-Shot Adaptation of Grounding DINO for Agricultural Domain

309

09 Apr 2025

Towards Visual Text Grounding of Multimodal Large Language Model

435

07 Apr 2025

Feedback-Enhanced Hallucination-Resistant Vision-Language Model for Real-Time Scene Understanding

Zahir Alsulaimawi

140

07 Apr 2025

Multimodal Reference Visual Grounding

329

02 Apr 2025

BOOTPLACE: Bootstrapped Object Placement with Detection TransformersComputer Vision and Pattern Recognition (CVPR), 2025

278

27 Mar 2025

CTRL-O: Language-Controllable Object-Centric Visual Representation LearningComputer Vision and Pattern Recognition (CVPR), 2025

427

27 Mar 2025

Beyond Object Categories: Multi-Attribute Reference Understanding for Visual Grounding

227

25 Mar 2025

Visual Position Prompt for MLLM based Visual Grounding

534

19 Mar 2025

OmniSTVG: Toward Spatio-Temporal Omni-Object Video Grounding

420

13 Mar 2025

DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection

561

12 Mar 2025

LLaFEA: Frame-Event Complementary Fusion for Fine-Grained Spatiotemporal Understanding in LMMs

Hanyu Zhou

Gim Hee Lee

255

10 Mar 2025

REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding

212

10 Mar 2025

YOLOE: Real-Time Seeing Anything

544

10 Mar 2025

Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2025

300

08 Mar 2025

Generative Artificial Intelligence in Robotic Manipulation: A Survey

...

665

05 Mar 2025

UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface

454

03 Mar 2025

New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM CollaborationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

491

27 Feb 2025

From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs

...

343

27 Feb 2025

SwimVG: Step-wise Multimodal Fusion and Adaption for Visual Grounding

395

24 Feb 2025

Anatomical grounding pre-training for medical phrase groundingIEEE International Symposium on Biomedical Imaging (ISBI), 2025

191

23 Feb 2025

Predicate Hierarchies Improve Few-Shot State ClassificationInternational Conference on Learning Representations (ICLR), 2025

437

18 Feb 2025

Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video GroundingInternational Conference on Learning Representations (ICLR), 2025

283

16 Feb 2025

VIKSER: Visual Knowledge-Driven Self-Reinforcing Reasoning Framework

416

02 Feb 2025

LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language ModelsComputer Vision and Pattern Recognition (CVPR), 2025

453

31 Jan 2025

Multi-task Visual Grounding with Coarse-to-Fine Consistency ConstraintsAAAI Conference on Artificial Intelligence (AAAI), 2025

370

12 Jan 2025

BTGenBot: Behavior Tree Generation for Robotic Tasks with Lightweight LLMsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024

291

08 Jan 2025

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language TasksNeural Information Processing Systems (NeurIPS), 2024

...

844

119

03 Jan 2025