v1v2 (latest)

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

IEEE International Conference on Computer Vision (ICCV), 2021

26 April 2021

ArXiv (abs)PDF HTML Github (1008★)

Papers citing "MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding"

50 / 678 papers shown

An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual GroundingEuropean Conference on Computer Vision (ECCV), 2024

Wei Chen

Mahdieh Hatamian

Yu Wu

241

02 Aug 2024

Look Hear: Gaze Prediction for Speech-directed Human AttentionEuropean Conference on Computer Vision (ECCV), 2024

Sounak Mondal

Seoyoung Ahn

Zhibo Yang

Niranjan Balasubramanian

Dimitris Samaras

G. Zelinsky

Minh Hoai

407

28 Jul 2024

PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects

229

23 Jul 2024

HAPFI: History-Aware Planning based on Fused Information

Sujin Jeon

Suyeon Shin

Byoung-Tak Zhang

197

23 Jul 2024

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

Jingdong Chen

Ming Yang

LRM

226

22 Jul 2024

Weak-to-Strong Compositional Learning from Generative Models for Language-based Object Detection

251

21 Jul 2024

Learning Visual Grounding from Generative Vision and Language Model

Shijie Wang

286

18 Jul 2024

SDPT: Synchronous Dual Prompt Tuning for Fusion-based Visual-Language Pre-trained Models

Yan Xu

225

16 Jul 2024

OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer

Errui Ding

Jingdong Wang

101

15 Jul 2024

Pathformer3D: A 3D Scanpath Transformer for 360° Images

197

15 Jul 2024

Plain-Det: A Plain Multi-Dataset Object Detector

238

14 Jul 2024

Layer-Wise Relevance Propagation with Conservation Property for ResNet

Komei Sugiura

308

12 Jul 2024

Textual Query-Driven Mask Transformer for Domain Generalized Segmentation

420

12 Jul 2024

SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning

Xu Jia

240

10 Jul 2024

ActionVOS: Actions as Prompts for Video Object Segmentation

212

10 Jul 2024

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

Xiaodan Liang

Liang Lin

619

190

09 Jul 2024

Multi-Object Hallucination in Vision-Language Models

Joyce Chai

304

08 Jul 2024

Described Spatial-Temporal Video Detection

You Qin

278

08 Jul 2024

FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance

329

08 Jul 2024

Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image

Yu-Gang Jiang

257

07 Jul 2024

Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model

Trung Q. Nguyen

Tai Nguyen

201

05 Jul 2024

VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation

I-Chun Arthur Liu

270

04 Jul 2024

SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation

Sayan Nag

Koustava Goswami

Srikrishna Karanam

295

02 Jul 2024

Camera-LiDAR Cross-modality Gait Recognition

296

02 Jul 2024

The Solution for the ICCV 2023 Perception Test Challenge 2023 -- Task 6 -- Grounded videoQA

Hailiang Zhang

Dian Chao

Zhihao Guan

Yang Yang

224

02 Jul 2024

Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models

Takayuki Nishimura

Katsuyuki Kuyo

Motonari Kambara

Komei Sugiura

DiffM

261

01 Jul 2024

Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language

Yicheng Chen

Xiangtai Li

Yining Li

Kai Chen

427

28 Jun 2024

EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model

Lianghui Zhu

Wenyu Liu

Xinggang Wang

VLM

600

28 Jun 2024

Lifelong Robot Library Learning: Bootstrapping Composable and Generalizable Skills for Embodied Control with Language Models

Georgios Tziafas

Hamidreza Kasaei

KELM LM&Ro

317

26 Jun 2024

Towards Open-World Grasping with Large Vision-Language Models

Georgios Tziafas

Hamidreza Kasaei

LM&Ro LRM

339

26 Jun 2024

ScanFormer: Referring Expression Comprehension by Iteratively Scanning

278

26 Jun 2024

Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models

255

24 Jun 2024

LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning

Trevor Darrell

247

17 Jun 2024

A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future DirectionsIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

Wei Hu

360

09 Jun 2024

One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models

Hao Fang

Bin Chen

Hao Wu

424

08 Jun 2024

Bootstrapping Referring Multi-Object Tracking

378

07 Jun 2024

Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following

Dimitris Samaras

347

04 Jun 2024

Multi-layer Learnable Attention Mask for Multimodal Tasks

Wayner Barrios

SouYoung Jin

183

04 Jun 2024

ELSA: Evaluating Localization of Social Activities in Urban Streets

193

03 Jun 2024

SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation

Jiayi Ji

339

03 Jun 2024

Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection

329

02 Jun 2024

RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection

Hao Chen

214

30 May 2024

Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention

Mubarak Shah

Yan Yan

LM&Ro 3DPC

274

28 May 2024

LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

292

27 May 2024

VICtoR: Learning Hierarchical Vision-Instruction Correlation Rewards for Long-horizon Manipulation

409

26 May 2024

V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM

Ishaan Bhola

327

24 May 2024

A Survey on Vision-Language-Action Models for Embodied AI

889

166

23 May 2024

Open-Vocabulary Spatio-Temporal Action Detection

Tao Wu

Gangshan Wu

195

17 May 2024

Grounded 3D-LLM with Referent Tokens

Dahua Lin

336

16 May 2024

Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection

...

Lei Zhang

387

16 May 2024