v1v2v3v4v5 (latest)

Visual Dialog

26 November 2016

Devi Parikh

Papers citing "Visual Dialog"

50 / 597 papers shown

Align-KD: Distilling Cross-Modal Alignment Knowledge for Mobile Vision-Language Model

331

02 Dec 2024

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile DevicesComputer Vision and Pattern Recognition (CVPR), 2024

...

214

16 Nov 2024

Ño' Matters: Out-of-Distribution Detection in Multimodality Long Dialogue

343

31 Oct 2024

Situational Scene Graph for Structured Human-centric Situation UnderstandingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

1.0K

30 Oct 2024

Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

...

Yufeng Cui

Xinlong Wang

Yaoqi Liu

Fangxiang Feng

Guang Liu

SyDa VLM MLLM

448

24 Oct 2024

On the Use of Audio to Improve Dialogue PoliciesIberSPEECH Conference (IberSPEECH), 2024

Daniel Roncel

Federico Costa

Javier Hernando

192

17 Oct 2024

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2024

Zhaokai Wang

Yu Qiao

Xizhou Zhu

VLM MLLM

383

10 Oct 2024

AuroraCap: Efficient, Performant Video Detailed Captioning and a New BenchmarkInternational Conference on Learning Representations (ICLR), 2024

Christopher D. Manning

3DV

654

102

04 Oct 2024

From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding

...

Huaijian Zhang

299

27 Sep 2024

Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Javier Chiyah-Garcia

Alessandro Suglia

Arash Eshghi

KELM

190

21 Sep 2024

KVPruner: Structural Pruning for Faster and Memory-Efficient Large Language ModelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

199

17 Sep 2024

An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation

Meishan Zhang

343

16 Aug 2024

Multi-Modal Dialogue State Tracking for Playing GuessWhich GameCAAI International Conference on Artificial Intelligence (ICCAI), 2024

Wei Pang

Ruixue Duan

Jinfu Yang

Ning Li

164

15 Aug 2024

Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations

Wei Pang

Ruixue Duan

Jinfu Yang

Ning Li

148

13 Aug 2024

BI-MDRG: Bridging Image History in Multimodal Dialogue Response GenerationEuropean Conference on Computer Vision (ECCV), 2024

Yu-Jung Heo

Chang D. Yoo

229

12 Aug 2024

User-in-the-loop Evaluation of Multimodal LLMs for Activity AssistanceIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Ruta Desai

325

04 Aug 2024

LLAVADI: What Matters For Multimodal Large Language Models Distillation

Xiangtai Li

Ming-Hsuan Yang

225

28 Jul 2024

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

Jiayi Ji

244

23 Jul 2024

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

Runhui Huang

210

11 Jul 2024

OmChat: A Recipe to Train Multimodal Language Models with Strong Long Context and Video Understanding

267

06 Jul 2024

Stark: Social Long-Term Multi-Modal Conversation with Persona Commonsense Knowledge

296

04 Jul 2024

Visualizing Dialogues: Enhancing Image Selection through Dialogue Understanding with Large Language Models

Chang-Sheng Kao

Yun-Nung Chen

204

04 Jul 2024

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

Pan Zhang

Xiaoyi Dong

Yuhang Zang

Yuhang Cao

Rui Qian

...

Kai Chen

Jifeng Dai

Yu Qiao

Dahua Lin

Jiaqi Wang

305

172

03 Jul 2024

Multi-Modal Video Dialog State Tracking in the Wild

Adnen Abdessaied

Lei Shi

Andreas Bulling

362

02 Jul 2024

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

Yuxuan Wang

Yijun Liu

Fei Yu

164

01 Jul 2024

S3: A Simple Strong Sample-effective Multimodal Dialog System

Elisei Rykov

Egor Malkershin

Ilseyar Alimova

236

26 Jun 2024

VideoLLM-online: Online Video Large Language Model for Streaming Video

Joya Chen

Kevin Qinghong Lin

Difei Gao

Mike Zheng Shou

314

112

17 Jun 2024

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

...

Yujiu Yang

Yingchun Wang

293

11 Jun 2024

Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach

Junsung Park

Sungroh Yoon

271

05 Jun 2024

SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model

Xiaolong Wang

285

192

03 Jun 2024

Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases

Xiangzhe Xu

199

30 May 2024

Multi-modal Generation via Cross-Modal In-Context Learning

Amandeep Kumar

Muzammal Naseer

Sanath Narayan

Rao Muhammad Anwer

Salman Khan

Hisham Cholakkal

MLLM

185

28 May 2024

The Evolution of Multimodal Model Architectures

325

28 May 2024

DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception

Run Luo

Yunshui Li

Longze Chen

Wanwei He

Ting-En Lin

...

Xiaobo Xia

Min Yang

483

24 May 2024

Rethinking Overlooked Aspects in Vision-Language Models

Yuan Liu

Le Tian

Xiao Zhou

Jie Zhou

VLM

243

20 May 2024

Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue GenerationInformation Fusion (Inf. Fusion), 2024

230

16 May 2024

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

...

Dahua Lin

Yu Qiao

Jifeng Dai

Wenhai Wang

MLLM VLM

534

1,004

25 Apr 2024

Resilience through Scene Context in Visual Referring Expression Generation

Simeon Junker

Sina Zarrieß

135

18 Apr 2024

Beyond Average: Individualized Visual Scanpath Prediction

Xianyu Chen

Ming Jiang

Qi Zhao

275

18 Apr 2024

Bridging Vision and Language Spaces with Assignment Prediction

313

15 Apr 2024

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HDNeural Information Processing Systems (NeurIPS), 2024

...

Dahua Lin

284

162

09 Apr 2024

Dialogue with Robots: Proposals for Broadening Participation and Research in the SLIVAR Community

...

286

01 Apr 2024

Continual Learning for Smart City: A Survey

276

01 Apr 2024

A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions

220

26 Mar 2024

Towards Multimodal In-Context Learning for Vision & Language Models

388

19 Mar 2024

Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Xiaodan Liang

234

09 Mar 2024

Adaptive Task Balancing for Visual Instruction Tuning via Inter-Task Contribution and Intra-Task Difficulty

Xiangxiang Chu

Zhiwu Lu

347

07 Mar 2024

CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially Observable Environments

Savitha Sam Abraham

Marjan Alirezaie

Luc de Raedt

292

05 Mar 2024

ShapeLLM: Universal 3D Object Understanding for Embodied Interaction

Chunrui Han

530

114

27 Feb 2024

Evaluating Very Long-Term Conversational Memory of LLM Agents

Mohit Bansal

541

238

27 Feb 2024