v1v2v3v4v5 (latest)

Visual Dialog

26 November 2016

Devi Parikh

Papers citing "Visual Dialog"

50 / 597 papers shown

Foundational Models Defining a New Era in Vision: A Survey and Outlook

Muhammad Awais

Muzammal Naseer

Salman Khan

Rao Muhammad Anwer

Hisham Cholakkal

420

152

25 Jul 2023

Emu: Generative Pretraining in MultimodalityInternational Conference on Learning Representations (ICLR), 2023

Hongcheng Gao

358

155

11 Jul 2023

SimpleMTOD: A Simple Language Model for Multimodal Task-Oriented Dialogue with Symbolic Scene RepresentationInternational Conference on Computational Semantics (IWCS), 2023

134

10 Jul 2023

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text DocumentsNeural Information Processing Systems (NeurIPS), 2023

Amanpreet Singh

...

Douwe Kiela

351

317

21 Jun 2023

LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language ModelsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Yu Qiao

Ping Luo

ELM MLLM

309

230

15 Jun 2023

Multimodal Explainable Artificial Intelligence: A Comprehensive Review of Methodological Advances and Future Research DirectionsIEEE Access (IEEE Access), 2023

N. Rodis

Christos Sardianos

Panagiotis I. Radoglou-Grammatikis

Panagiotis G. Sarigiannidis

Iraklis Varlamis

Georgios Th. Papadopoulos

333

09 Jun 2023

Dealing with Semantic Underspecification in Multimodal NLPAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Sandro Pezzelle

164

08 Jun 2023

^3

IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

Lei Li

Yuwei Yin

Shicheng Li

Liang Chen

Peiyi Wang

...

Yazheng Yang

Jingjing Xu

Xu Sun

Lingpeng Kong

Qi Liu

MLLM VLM

376

136

07 Jun 2023

Chatting Makes Perfect: Chat-based Image RetrievalNeural Information Processing Systems (NeurIPS), 2023

364

31 May 2023

VILAS: Exploring the Effects of Vision and Language Context in Automatic Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Minglun Han

Bo Xu

184

31 May 2023

VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic Understanding with Scene and Topic TransitionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Yuxuan Wang

Dongyan Zhao

177

30 May 2023

A Unified Framework for Slot based Response Generation in a Multimodal Dialogue System

Mauajama Firdaus

Avinash Madasu

Asif Ekbal

284

27 May 2023

MPCHAT: Towards Multimodal Persona-Grounded ConversationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

177

27 May 2023

Generating Images with Multimodal Language ModelsNeural Information Processing Systems (NeurIPS), 2023

Jing Yu Koh

Daniel Fried

Ruslan Salakhutdinov

MLLM

359

326

26 May 2023

BIG-C: a Multimodal Multi-Purpose Dataset for BembaAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Claytone Sikasote

Eunice Mukonde

Md Mahfuz Ibn Alam

Antonios Anastasopoulos

171

26 May 2023

Learning to Imagine: Visually-Augmented Natural Language GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

421

26 May 2023

PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional ExpertsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Yunshui Li

Binyuan Hui

Zhichao Yin

Min Yang

Fei Huang

Yongbin Li

MoE

199

24 May 2023

ReSee: Responding through Seeing Fine-grained Visual Knowledge in Open-domain DialogueConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

173

23 May 2023

SuperDialseg: A Large-scale Dataset for Supervised Dialogue SegmentationConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Junfeng Jiang

Chengzhang Dong

Sadao Kurohashi

Akiko Aizawa

114

15 May 2023

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction TuningNeural Information Processing Systems (NeurIPS), 2023

1.4K

2,884

11 May 2023

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages

Minglun Han

Bo Xu

334

150

07 May 2023

VCD: Visual Causality Discovery for Cross-Modal Question ReasoningChinese Conference on Pattern Recognition and Computer Vision (CPRCV), 2023

288

17 Apr 2023

Grounding 3D Object Affordance from 2D Interactions in ImagesIEEE International Conference on Computer Vision (ICCV), 2023

Yang Cao

273

18 Mar 2023

CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web VideosIEEE International Conference on Computer Vision (ICCV), 2023

Yejin Choi

194

17 Mar 2023

Data Roaming and Quality Assessment for Composed Image RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2023

249

16 Mar 2023

ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions

236

123

12 Mar 2023

Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation

Zhiwei Zhang

Yuliang Liu

MLLM

367

10 Mar 2023

Which One Are You Referring To? Multimodal Object Identification in Situated DialogueConference of the European Chapter of the Association for Computational Linguistics (EACL), 2023

Holy Lovenia

Samuel Cahyawijaya

Pascale Fung

170

28 Feb 2023

Large-scale Multi-Modal Pre-trained Models: A Comprehensive SurveyMachine Intelligence Research (MIR), 2023

Yaowei Wang

Yonghong Tian

Wen Gao

AI4CE VLM

464

272

20 Feb 2023

Interactive Video Corpus Moment Retrieval using Reinforcement LearningACM Multimedia (ACM MM), 2022

Zhixin Ma

Chong-Wah Ngo

164

19 Feb 2023

What A Situated Language-Using Agent Must be Able to Do: A Top-Down Analysis

David Schlangen

LLMAG LM&Ro

120

16 Feb 2023

Grounding Language Models to Images for Multimodal Inputs and OutputsInternational Conference on Machine Learning (ICML), 2023

Jing Yu Koh

Ruslan Salakhutdinov

Daniel Fried

MLLM

444

150

31 Jan 2023

Style-Aware Contrastive Learning for Multi-Style Image CaptioningFindings (Findings), 2023

Yucheng Zhou

Guodong Long

144

26 Jan 2023

TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real WorldACM Multimedia (ACM MM), 2023

...

Qin Jin

202

14 Jan 2023

SPRING: Situated Conversation Agent Pretrained with Multimodal Questions from Incremental Layout GraphAAAI Conference on Artificial Intelligence (AAAI), 2023

205

05 Jan 2023

MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction TuningAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

362

132

21 Dec 2022

Modularity through Attention: Efficient Training and Transfer of Language-Conditioned Policies for Robot ManipulationConference on Robot Learning (CoRL), 2022

241

08 Dec 2022

DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue DatasetNorth American Chapter of the Association for Computational Linguistics (NAACL), 2022

296

08 Dec 2022

Compound Tokens: Channel Fusion for Vision-Language Representation Learning

Maxwell Mbabilla Aladago

A. Piergiovanni

203

02 Dec 2022

Improving Commonsense in Vision-Language Models via Knowledge Graph RiddlesComputer Vision and Pattern Recognition (CVPR), 2022

Lu Yuan

135

29 Nov 2022

Who are you referring to? Coreference resolution in image narrationsIEEE International Conference on Computer Vision (ICCV), 2022

272

26 Nov 2022

Unified Multimodal Model with Unlikelihood Training for Visual DialogACM Multimedia (ACM MM), 2022

180

23 Nov 2022

Aligning Source Visual and Target Language Domains for Unpaired Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

242

22 Nov 2022

Progressive Tree-Structured Prototype Network for End-to-End Image CaptioningACM Multimedia (ACM MM), 2022

Pengpeng Zeng

Jinkuan Zhu

Jingkuan Song

Lianli Gao

VLM

181

17 Nov 2022

Navigating Connected Memories with a Task-oriented Dialog SystemConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Seungwhan Moon

Satwik Kottur

A. Geramifard

Babak Damavandi

125

15 Nov 2022

Pragmatics in Language Grounding: Phenomena, Tasks, and Modeling ApproachesConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Daniel Fried

244

15 Nov 2022

MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain ConversationAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Dongyan Zhao

251

10 Nov 2022

Going for GOAL: A Resource for Grounded Football Commentaries

Malvina Nikandrou

125

08 Nov 2022

Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity Recognition

122

08 Nov 2022

End-to-End Multimodal Representation Learning for Video Dialog

205

26 Oct 2022