v1v2v3v4v5 (latest)

Visual Dialog

26 November 2016

Devi Parikh

Papers citing "Visual Dialog"

50 / 597 papers shown

Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions

Radhika Dua

Sai Srinivas Kancheti

V. Balasubramanian

LRM

266

24 Oct 2020

Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional EntropiesNeural Information Processing Systems (NeurIPS), 2020

261

100

21 Oct 2020

Multimodal Research in Vision and Language: A Review of Current and Emerging Trends

Roger Zimmermann

277

19 Oct 2020

Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question AnsweringInternational Conference on Pattern Recognition (ICPR), 2020

136

17 Oct 2020

A Linguistic Analysis of Visually Grounded Dialogues Based on Spatial Expressions

Takuma Udagawa

T. Yamazaki

Akiko Aizawa

224

07 Oct 2020

Multi-Modal Open-Domain DialogueConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Jason Weston

287

02 Oct 2020

Likelihood Landscapes: A Unifying Principle Behind Many Adversarial Defenses

Fu-Huei Lin

Rohit Mittapalli

Prithvijit Chattopadhyay

Daniel Bolya

Judy Hoffman

AAML

156

25 Aug 2020

Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents

Ye Zhu

Yu Wu

Yi Yang

Yan Yan

264

18 Aug 2020

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual DialogueACM Multimedia (ACM MM), 2020

269

11 Aug 2020

SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation SpaceWorkshop on Document-grounded Dialogue and Conversational Question Answering (DialDoc), 2020

Liu Yang

VLM

179

02 Aug 2020

Towards Ecologically Valid Research on Language User Interfaces

H. D. Vries

Dzmitry Bahdanau

Christopher D. Manning

468

28 Jul 2020

Dialog without Dialog Data: Learning Visual Dialog Agents from VQA DataNeural Information Processing Systems (NeurIPS), 2020

Devi Parikh

141

24 Jul 2020

Active Visual Information Gathering for Vision-Language NavigationEuropean Conference on Computer Vision (ECCV), 2020

278

15 Jul 2020

Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers

235

08 Jul 2020

DAM: Deliberation, Abandon and Memory Networks for Generating Detailed and Non-repetitive Responses in Visual Dialogue

Qi Wu

261

07 Jul 2020

Comprehensive Information Integration Modeling Framework for Video TitlingKnowledge Discovery and Data Mining (KDD), 2020

Zhou Zhao

Jingren Zhou

Hongxia Yang

Leilei Gan

171

24 Jun 2020

Open-Domain Conversational Agents: Current Progress, Open Problems, and Future Directions

Jason Weston

...

231

22 Jun 2020

ORD: Object Relationship Discovery for Visual Dialogue Generation

Ziwei Wang

Zi Huang

Yadan Luo

Huimin Lu

186

15 Jun 2020

Report from the NSF Future Directions Workshop, Toward User-Oriented Agents: Research Directions and Challenges

M. Eskénazi

Tiancheng Zhao

LLMAG AI4TS AI4CE

228

10 Jun 2020

Counterfactual VQA: A Cause-Effect Look at Language Bias

537

478

08 Jun 2020

Situated and Interactive Multimodal ConversationsInternational Conference on Computational Linguistics (COLING), 2020

...

224

02 Jun 2020

Probing Emergent Semantics in Predictive Agents via Question AnsweringInternational Conference on Machine Learning (ICML), 2020

...

Arun Ahuja

226

01 Jun 2020

The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes

Douwe Kiela

Amanpreet Singh

333

763

10 May 2020

History for Visual Dialog: Do we really need it?

133

08 May 2020

RMM: A Recursive Mental Model for Dialog NavigationFindings (Findings), 2020

219

02 May 2020

VD-BERT: A Unified Vision and Dialog Transformer with BERTConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Yue Wang

Shafiq Joty

Michael R. Lyu

Irwin King

Caiming Xiong

Guosheng Lin

378

107

28 Apr 2020

VisualCOMET: Reasoning about the Dynamic Context of a Still Image

Yejin Choi

216

22 Apr 2020

A Revised Generative Evaluation of Visual Dialogue

166

20 Apr 2020

Learning What Makes a Difference from Counterfactual Examples and Gradient SupervisionEuropean Conference on Computer Vision (ECCV), 2020

223

125

20 Apr 2020

Reasoning Visual Dialog with Sparse Graph Learning and Knowledge TransferConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

203

14 Apr 2020

An Entropy Clustering Approach for Assessing Visual Question DifficultyIEEE Access (IEEE Access), 2020

Shuníchi Satoh

304

12 Apr 2020

Rephrasing visual questions by specifying the entropy of the answer distribution

156

10 Apr 2020

Iterative Context-Aware Graph Inference for Visual DialogComputer Vision and Pattern Recognition (CVPR), 2020

Meng Wang

219

05 Apr 2020

Open Domain Dialogue Generation with Latent ImagesAAAI Conference on Artificial Intelligence (AAAI), 2020

Zhoujun Li

190

04 Apr 2020

DSTC8-AVSD: Multimodal Semantic Transformer Network with Retrieval Style Word Generator

174

01 Apr 2020

VIOLIN: A Large-Scale Dataset for Video-and-Language InferenceComputer Vision and Pattern Recognition (CVPR), 2020

276

25 Mar 2020

Vision-Dialog Navigation by Exploring Cross-modal MemoryComputer Vision and Pattern Recognition (CVPR), 2020

Xiaojun Chang

Xiaodan Liang

VLM

179

15 Mar 2020

CRWIZ: A Framework for Crowdsourcing Real-Time Wizard-of-Oz DialoguesInternational Conference on Language Resources and Evaluation (LREC), 2020

108

12 Mar 2020

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn DialogThe Web Conference (WWW), 2020

Dongyan Zhao

Rui Yan

219

10 Mar 2020

MQA: Answering the Question via Robotic Manipulation

254

10 Mar 2020

Deconfounded Image Captioning: A Causal RetrospectIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2020

Xu Yang

Hanwang Zhang

Jianfei Cai

CML

186

149

09 Mar 2020

Captioning Images with Novel Objects via Online Vocabulary Expansion

Mikihiro Tanaka

Tatsuya Harada

3DV

211

06 Mar 2020

Environment-agnostic Multitask Learning for Natural Language Grounded NavigationEuropean Conference on Computer Vision (ECCV), 2020

303

01 Mar 2020

Cops-Ref: A new Dataset and Task on Compositional Referring Expression ComprehensionComputer Vision and Pattern Recognition (CVPR), 2020

Peng Wang

Qi Wu

250

01 Mar 2020

Unshuffling Data for Improved GeneralizationIEEE International Conference on Computer Vision (ICCV), 2020

248

27 Feb 2020

What BERT Sees: Cross-Modal Transfer for Visual Question Generation

252

25 Feb 2020

Guessing State Tracking for Visual DialogueEuropean Conference on Computer Vision (ECCV), 2020

Wei Pang

Xiaojie Wang

OOD

379

24 Feb 2020

A Multimodal Dialogue System for Conversational Image Editing

Tzu-Hsiang Lin

Trung Bui

Doo Soon Kim

Jean Oh

128

16 Feb 2020

Looking Enhances Listening: Recovering Missing Speech Using ImagesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

Tejas Srinivasan

Ramon Sanabria

Florian Metze

129

13 Feb 2020

Multimodal Matching Transformer for Live CommentingEuropean Conference on Artificial Intelligence (ECAI), 2020

114

07 Feb 2020