Visual Grounding of Whole Radiology Reports for 3D CT ImagesInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2023

Akimichi Ichinose

Taro Hatsutani

Keigo Nakamura

Yoshiro Kitamura

225

08 Dec 2023

Improved Visual Grounding through Self-Consistent Explanations

Ruozhen He

Paola Cascante-Bonilla

275

07 Dec 2023

GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models

Haicheng Liao

Chengzhong Xu

238

06 Dec 2023

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

...

Lei Zhang

Jianwei Yang

343

112

05 Dec 2023

Lenna: Language Enhanced Reasoning Detection Assistant

267

05 Dec 2023

Aligning and Prompting Everything All at Once for Universal Visual PerceptionComputer Vision and Pattern Recognition (CVPR), 2023

Rongrong Ji

287

04 Dec 2023

Towards Generalizable Referring Image Segmentation via Target Prompt and Visual CoherenceInternational Conference on Information Photonics (ICIP), 2023

Qingjie Liu

Yunhong Wang

198

01 Dec 2023

InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation

208

30 Nov 2023

Language-conditioned Detection TransformerComputer Vision and Pattern Recognition (CVPR), 2023

Jang Hyun Cho

Philipp Krahenbuhl

VLM ObjD

187

29 Nov 2023

The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understandingComputer Vision and Pattern Recognition (CVPR), 2023

349

29 Nov 2023

No Representation Rules Them All in Category DiscoveryNeural Information Processing Systems (NeurIPS), 2023

S. Vaze

Andrea Vedaldi

Andrew Zisserman

OOD

253

28 Nov 2023

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and CaptionsComputer Vision and Pattern Recognition (CVPR), 2023

411

28 Nov 2023

Griffon: Spelling out All Object Locations at Any Granularity with Large Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

242

24 Nov 2023

Visual In-Context PromptingComputer Vision and Pattern Recognition (CVPR), 2023

...

Jianwei Yang

Lei Zhang

Jianfeng Gao

VLM LRM MLLM

187

22 Nov 2023

Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models

432

21 Nov 2023

To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

Zuxuan Wu

268

135

13 Nov 2023

PerceptionGPT: Effectively Fusing Visual Perception into LLMComputer Vision and Pattern Recognition (CVPR), 2023

Jiahui Gao

Tong Zhang

194

11 Nov 2023

Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in ClutterConference on Robot Learning (CoRL), 2023

240

09 Nov 2023

DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D Facial Animation

235

08 Nov 2023

GLaMM: Pixel Grounding Large Multimodal ModelComputer Vision and Pattern Recognition (CVPR), 2023

H. Rasheed

Muhammad Maaz

Sahal Shaji Mullappilly

Abdelrahman M. Shaker

Salman Khan

Hisham Cholakkal

Rao M. Anwer

Erix Xing

Ming-Hsuan Yang

Fahad S. Khan

MLLM VLM

434

396

06 Nov 2023

Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language ModelsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

283

05 Nov 2023