v1v2v3 (latest)

Dual Attention Networks for Visual Reference Resolution in Visual Dialog

25 February 2019

Papers citing "Dual Attention Networks for Visual Reference Resolution in Visual Dialog"

36 / 36 papers shown

Take That for Me: Multimodal Exophora Resolution with Interactive Questioning for Ambiguous Out-of-View Instructions

141

22 Aug 2025

Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations

Wei Pang

Ruixue Duan

Jinfu Yang

Ning Li

180

13 Aug 2024

ReALM: Reference Resolution As Language Modeling

Joel Ruben Antony Moniz

313

29 Mar 2024

$$\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual $\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal $\mathbb{GR}$aphs$

\mathbb{VD}

\mathbb{GR}

: Boosting

\mathbb{V}

isual

\mathbb{D}

ialog with Cascaded Spatial-Temporal Multi-Modal

\mathbb{GR}

aphsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

243

25 Oct 2023

Thought Cloning: Learning to Think while Acting by Imitating Human ThinkingNeural Information Processing Systems (NeurIPS), 2023

Shengran Hu

Jeff Clune

LM&Ro OffRL LRM AI4CE

578

01 Jun 2023

Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review

320

02 Jul 2022

VD-PCR: Improving Visual Dialog with Pronoun Coreference ResolutionPattern Recognition (Pattern Recogn.), 2022

248

29 May 2022

The Dialog Must Go On: Improving Visual Dialog via Generative Self-TrainingComputer Vision and Pattern Recognition (CVPR), 2022

337

25 May 2022

UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual DialogComputer Vision and Pattern Recognition (CVPR), 2022

Xin Jiang

Qun Liu

X. Gu

334

01 May 2022

Affective Feedback Synthesis Towards Multimodal Text and Image Data

Balasubramanian Raman

EGVM

301

23 Mar 2022

Modeling Coreference Relations in Visual DialogConference of the European Chapter of the Association for Computational Linguistics (EACL), 2022

Mingxiao Li

Marie-Francine Moens

175

06 Mar 2022

OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts

Jiwei Li

268

27 Sep 2021

Productivity, Portability, Performance: Data-Centric Python

468

116

01 Jul 2021

Attend What You Need: Motion-Appearance Synergistic Networks for Video Question AnsweringAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

250

19 Jun 2021

Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation

Rui Yan

Jiwei Li

257

30 May 2021

Ensemble of MRR and NDCG models for Visual DialogNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Idan Schwartz

329

15 Apr 2021

Learning Reasoning Paths over Semantic Graphs for Video-grounded DialoguesInternational Conference on Learning Representations (ICLR), 2021

Hung Le

Nancy F. Chen

Guosheng Lin

262

01 Mar 2021

OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts

Rui Yan

Jiwei Li

453

30 Dec 2020

Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings

Yue Wang

Jing Li

Michael R. Lyu

Irwin King

291

03 Nov 2020

Multimodal Research in Vision and Language: A Review of Current and Emerging Trends

Roger Zimmermann

366

19 Oct 2020

A Linguistic Analysis of Visually Grounded Dialogues Based on Spatial Expressions

Takuma Udagawa

T. Yamazaki

Akiko Aizawa

290

07 Oct 2020

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual DialogueACM Multimedia (ACM MM), 2020

355

11 Aug 2020

Video Question Answering on Screencast TutorialsInternational Joint Conference on Artificial Intelligence (IJCAI), 2020

180

02 Aug 2020

SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation SpaceWorkshop on Document-grounded Dialogue and Conversational Question Answering (DialDoc), 2020

Liu Yang

VLM

239

02 Aug 2020

History for Visual Dialog: Do we really need it?

290

08 May 2020

VD-BERT: A Unified Vision and Dialog Transformer with BERTConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Yue Wang

Shafiq Joty

Michael R. Lyu

Irwin King

Caiming Xiong

Guosheng Lin

469

110

28 Apr 2020

Reasoning Visual Dialog with Sparse Graph Learning and Knowledge TransferConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

289

14 Apr 2020

Iterative Context-Aware Graph Inference for Visual DialogComputer Vision and Pattern Recognition (CVPR), 2020

Meng Wang

336

05 Apr 2020

Vision-Dialog Navigation by Exploring Cross-modal MemoryComputer Vision and Pattern Recognition (CVPR), 2020

Xiaojun Chang

Xiaodan Liang

VLM

207

15 Mar 2020

Modality-Balanced Models for Visual DialogueAAAI Conference on Artificial Intelligence (AAAI), 2020

Hyounghun Kim

Hao Tan

Joey Tianyi Zhou

155

17 Jan 2020

Multi-step Joint-Modality Attention Network for Scene-Aware Dialogue System

Yun-Wei Chu

Kuan-Yen Lin

Chao-Chun Hsu

Lun-Wei Ku

291

17 Jan 2020

DMRM: A Dual-channel Multi-hop Reasoning Model for Visual DialogAAAI Conference on Artificial Intelligence (AAAI), 2019

Feilong Chen

Fandong Meng

Jiaming Xu

Peng Li

Bo Xu

Jie Zhou

225

18 Dec 2019

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art BaselineEuropean Conference on Computer Vision (ECCV), 2019

Devi Parikh

427

122

05 Dec 2019

Efficient Attention Mechanism for Visual Dialog that can Handle All the Interactions between Multiple Inputs

Van-Quang Nguyen

Masanori Suganuma

Takayuki Okatani

384

26 Nov 2019

Two Causal Principles for Improving Visual DialogComputer Vision and Pattern Recognition (CVPR), 2019

738

162

24 Nov 2019

Multi-step Reasoning via Recurrent Dual Attention for Visual DialogAnnual Meeting of the Association for Computational Linguistics (ACL), 2019

476

109

01 Feb 2019