v1v2v3v4v5 (latest)

Visual Dialog

26 November 2016

Devi Parikh

Papers citing "Visual Dialog"

50 / 597 papers shown

Spot the Difference: A Cooperative Object-Referring Game in Non-Perfectly Co-Observable Scene

Jie Zhou

183

16 Mar 2022

Taking an Emotional Look at Video Paragraph Captioning

191

12 Mar 2022

AssistQ: Affordance-centric Question-driven Task Completion for Egocentric AssistantEuropean Conference on Computer Vision (ECCV), 2022

456

08 Mar 2022

Towards Building an Open-Domain Dialogue System Incorporated with Internet MemesIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2022

182

08 Mar 2022

Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept RecognitionIEEE transactions on multimedia (IEEE TMM), 2022

Yaowei Wang

217

07 Mar 2022

Modeling Coreference Relations in Visual DialogConference of the European Chapter of the Association for Computational Linguistics (EACL), 2022

Mingxiao Li

Marie-Francine Moens

127

06 Mar 2022

Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

Lei Zhang

211

03 Mar 2022

CAISE: Conversational Agent for Image Search and EditingAAAI Conference on Artificial Intelligence (AAAI), 2022

212

24 Feb 2022

VU-BERT: A Unified framework for Visual DialogIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

181

22 Feb 2022

VLP: A Survey on Vision-Language Pre-trainingMachine Intelligence Research (MIR), 2022

Minglun Han

393

289

18 Feb 2022

The slurk Interaction Server Framework: Better Data for Better Dialog ModelsInternational Conference on Language Resources and Evaluation (LREC), 2022

Jana Gotze

Maike Paetzel-Prusmann

155

02 Feb 2022

Debiased-CAM to mitigate systematic error with faithful visual explanations of machine learning

210

30 Jan 2022

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and GenerationInternational Conference on Machine Learning (ICML), 2022

1.3K

5,818

28 Jan 2022

Interpretable Learned Emergent Communication for Human-Agent TeamsIEEE Transactions on Cognitive and Developmental Systems (IEEE TCDS), 2022

265

19 Jan 2022

Self-directed Machine LearningAI Open (AO), 2022

Wenwu Zhu

Xin Eric Wang

P. Xie

155

04 Jan 2022

Ditch the Gold Standard: Re-evaluating Conversational Question Answering

201

16 Dec 2021

3D Question Answering

260

15 Dec 2021

VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena

302

135

14 Dec 2021

Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0

Joosung Lee

Kijong Han

227

10 Dec 2021

Self-Supervised Image-to-Text and Text-to-Image Synthesis

Anindya Sundar Das

S. Saha

SSL

09 Dec 2021

Iconary: A Pictionary-Based Game for Testing Multimodal Communication with Drawings and Text

...

141

01 Dec 2021

Classification-Regression for Chart Comprehension

Matan Levy

Rami Ben-Ari

Dani Lischinski

156

29 Nov 2021

Building Goal-Oriented Dialogue Systems with Situated Visual ContextAAAI Conference on Artificial Intelligence (AAAI), 2021

171

22 Nov 2021

CoLLIE: Continual Learning of Language Grounding from Language-Image EmbeddingsJournal of Artificial Intelligence Research (JAIR), 2021

Gabriel Skantze

Bram Willemsen

VLM

215

15 Nov 2021

NarrationBot and InfoBot: A Hybrid System for Automated Video Description

110

07 Nov 2021

Perceptual Score: What Data Modalities Does Your Model Perceive?

Itai Gat

Idan Schwartz

Alex Schwing

207

27 Oct 2021

Simple Dialogue System with AUDITEDBritish Machine Vision Conference (BMVC), 2021

Eugenio Clerico

Piotr Koniusz

205

22 Oct 2021

Evaluating and Improving Interactions with Hazy Oracles

Stephan J. Lemmer

Jason J. Corso

175

19 Oct 2021

Multimodal Dialogue Response Generation

Yujing Wang

248

16 Oct 2021

A Framework for Learning to Request Rich and Contextually Useful Information from Humans

Khanh Nguyen

Yonatan Bisk

Hal Daumé

477

14 Oct 2021

Audio-Visual Scene-Aware Dialog and Reasoning using Audio-Visual Transformers with Joint Student-Teacher Learning

206

13 Oct 2021

Collecting and Characterizing Natural Language Utterances for Specifying Data Visualizations

189

01 Oct 2021

The JDDC 2.0 Corpus: A Large-Scale Multimodal Multi-Turn Chinese Dialogue Dataset for E-commerce Customer Service

143

27 Sep 2021

CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

Yuan Yao

Ao Zhang

Zhengyan Zhang

Zhiyuan Liu

Tat-Seng Chua

Maosong Sun

MLLM VPVLM VLM

580

244

24 Sep 2021

Learning Natural Language Generation from Scratch

Olivier Pietquin

149

20 Sep 2021

Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation

Feilong Chen

Fandong Meng

Xiuyi Chen

Peng Li

Jie Zhou

183

17 Sep 2021

GoG: Relation-aware Graph-over-Graph Network for Visual Dialog

Feilong Chen

Xiuyi Chen

Fandong Meng

Peng Li

Jie Zhou

272

17 Sep 2021

Knowledge-based Embodied Question Answering

Sinan Tan

266

16 Sep 2021

Learning to Ground Visual Objects for Visual Dialog

192

13 Sep 2021

Reference-Centric Models for Grounded Collaborative DialogueConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Daniel Fried

Justin T. Chiu

Dan Klein

179

10 Sep 2021

We went to look for meaning and all we got were these lousy representations: aspects of meaning representation for computational semantics

138

10 Sep 2021

Exophoric Pronoun Resolution in Dialogues with Topic RegularizationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Kun Xu

Dong Yu

151

10 Sep 2021

Enhancing Visual Dialog Questioner with Entity-based Strategy Learning and Augmented GuesserConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Jie Zhou

140

06 Sep 2021

Towards Expressive Communication with Internet Memes: A New Multimodal Conversation Dataset and Benchmark

Zhengcong Fei

Zekang Li

Jinchao Zhang

Yang Feng

Jie Zhou

135

04 Sep 2021

MMChat: Multi-Modal Chat Dataset on Social Media

333

16 Aug 2021

Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion

Govind Thattai

284

10 Aug 2021

Hybrid Reasoning Network for Video-based Commonsense CaptioningACM Multimedia (ACM MM), 2021

193

05 Aug 2021

O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video CaptioningFindings (Findings), 2021

Xuancheng Ren

246

05 Aug 2021

Chest ImaGenome Dataset for Clinical Reasoning

...

247

31 Jul 2021

Adversarial Reinforced Instruction Attacker for Robust Vision-Language NavigationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Xiaodan Liang

204

23 Jul 2021