v1v2v3v4v5 (latest)

Visual Dialog

26 November 2016

Devi Parikh

Papers citing "Visual Dialog"

50 / 597 papers shown

Dialogue Object Search

160

22 Jul 2021

Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant ImagesAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

179

19 Jul 2021

Modeling Explicit Concerning States for Reinforcement Learning in Visual Dialogue

Jie Zhou

175

12 Jul 2021

Evaluating Large Language Models Trained on Code

...

2.2K

8,106

07 Jul 2021

Productivity, Portability, Performance: Data-Centric Python

416

112

01 Jul 2021

Unified Questioner Transformer for Descriptive Question Generation in Goal-Oriented Visual DialogueIEEE International Conference on Computer Vision (ICCV), 2021

184

29 Jun 2021

Saying the Unseen: Video Descriptions via Dialog AgentsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Ye Zhu

Yu Wu

Yi Yang

Yan Yan

213

26 Jun 2021

Exploring Semantic Relationships for Unpaired Image Captioning

316

20 Jun 2021

C^3

: Compositional Counterfactual Contrastive Learning for Video-grounded Dialogues

Hung Le

Nancy F. Chen

Guosheng Lin

151

16 Jun 2021

Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused InterventionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

276

08 Jun 2021

Maria: A Visual Experience Powered Conversational AgentAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

204

27 May 2021

Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic RepresentationComputer Vision and Pattern Recognition (CVPR), 2021

Govind Thattai

188

24 May 2021

Conversational AI Systems for Social Good: Opportunities and Challenges

242

13 May 2021

SIMMC 2.0: A Task-oriented Dialog Dataset for Immersive Multimodal ConversationsConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Satwik Kottur

Seungwhan Moon

A. Geramifard

Babak Damavandi

243

18 Apr 2021

Worst of Both Worlds: Biases Compound in Pre-trained Vision-and-Language Models

Tejas Srinivasan

Yonatan Bisk

VLM

309

18 Apr 2021

Ensemble of MRR and NDCG models for Visual DialogNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Idan Schwartz

273

15 Apr 2021

BERT Embeddings Can Track Context in Conversational Search

130

13 Apr 2021

Action-Based Conversations Dataset: A Corpus for Building More In-Depth Task-Oriented Dialogue SystemsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Yi Yang

215

01 Apr 2021

Towards General Purpose Vision SystemsComputer Vision and Pattern Recognition (CVPR), 2021

298

01 Apr 2021

Kaleido-BERT: Vision-Language Pre-training on Fashion DomainComputer Vision and Pattern Recognition (CVPR), 2021

350

135

30 Mar 2021

Structured Co-reference Graph Attention for Video-grounded DialogueAAAI Conference on Artificial Intelligence (AAAI), 2021

203

24 Mar 2021

The Interplay of Task Success and Dialogue Quality: An in-depth Evaluation in Task-Oriented Visual DialoguesConference of the European Chapter of the Association for Computational Linguistics (EACL), 2021

A. Testoni

Raffaella Bernardi

20 Mar 2021

Overprotective Training Environments Fall Short at Testing Time: Let Models Contribute to Their Own TrainingItalian Conference on Computational Linguistics (CLiC-it), 2021

A. Testoni

Raffaella Bernardi

126

20 Mar 2021

What is Multimodality?

Letitia Parcalabescu

Nils Trost

Anette Frank

230

10 Mar 2021

MultiSubs: A Large-scale Multimodal and Multilingual DatasetInternational Conference on Language Resources and Evaluation (LREC), 2021

Pranava Madhyastha

197

02 Mar 2021

Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial QueryIEEE International Conference on Computer Vision (ICCV), 2021

236

02 Mar 2021

Learning Reasoning Paths over Semantic Graphs for Video-grounded DialoguesInternational Conference on Learning Representations (ICLR), 2021

Hung Le

Nancy F. Chen

Guosheng Lin

190

01 Mar 2021

Learning Compositional Representation for Few-shot Visual Question Answering

Dalu Guo

Dacheng Tao

OOD CoGe

153

21 Feb 2021

I Want This Product but Different : Multimodal Retrieval with Synthetic Query Expansion

Ivona Tautkute

Tomasz Trzciñski

235

17 Feb 2021

An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing GamesConference of the European Chapter of the Association for Computational Linguistics (EACL), 2021

152

31 Jan 2021

VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal InputsComputer Vision and Pattern Recognition (CVPR), 2021

Gedas Bertasius

Devi Parikh

252

28 Jan 2021

DOC2PPT: Automatic Presentation Slides Generation from Scientific DocumentsAAAI Conference on Artificial Intelligence (AAAI), 2021

305

28 Jan 2021

Adversarial Text-to-Image Synthesis: A ReviewNeural Networks (NN), 2021

322

202

25 Jan 2021

DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded DialogueAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

272

01 Jan 2021

Image-to-Image Retrieval by Learning Similarity between Scene GraphsAAAI Conference on Artificial Intelligence (AAAI), 2020

220

29 Dec 2020

On Modality Bias in the TVQA DatasetBritish Machine Vision Conference (BMVC), 2020

T. Winterbottom

S. Xiao

A. McLean

Noura Al Moubayed

174

18 Dec 2020

A Response Retrieval Approach for Dialogue Using a Multi-Attentive Transformer

117

15 Dec 2020

Learning Contextual Causality from Time-consecutive Images

147

13 Dec 2020

Look Before you Speak: Visually Contextualized UtterancesComputer Vision and Pattern Recognition (CVPR), 2020

Paul Hongsuck Seo

Arsha Nagrani

Cordelia Schmid

313

10 Dec 2020

Debiased-CAM to mitigate image perturbations with faithful visual explanations of machine learningInternational Conference on Human Factors in Computing Systems (CHI), 2020

377

10 Dec 2020

Point and Ask: Incorporating Pointing into Visual Question Answering

397

27 Nov 2020

A Recurrent Vision-and-Language BERT for NavigationComputer Vision and Pattern Recognition (CVPR), 2020

Yicong Hong

Qi Wu

Yuankai Qi

Cristian Rodriguez-Opazo

Stephen Gould

LM&Ro

326

385

26 Nov 2020

Improving Calibration in Deep Metric Learning With Cross-Example Softmax

Andreas Veit

Kimberly Wilber

17 Nov 2020

Where Are You? Localization from Embodied DialogConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Devi Parikh

195

16 Nov 2020

Refer, Reuse, Reduce: Generating Subsequent References in Visual and Conversational Contexts

149

09 Nov 2020

DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image Generation

Zhenxing Zhang

Lambert Schomaker

GAN

266

05 Nov 2020

Learning to Respond with Your Favorite Stickers: A Framework of Unifying Multi-Modality and User Preference in Multi-Turn Dialog

Rui Yan

207

05 Nov 2020

Reasoning Over History: Context Aware Visual Dialog

Muhammad A. Shah

Shikib Mehri

Tejas Srinivasan

158

02 Nov 2020

Co-attentional Transformers for Story-Based Video UnderstandingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

Björn Bebensee

Byoung-Tak Zhang

144

27 Oct 2020

Reading Between the Lines: Exploring Infilling in Visual NarrativesConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Khyathi Chandu

Ruo-Ping Dong

A. Black

153

26 Oct 2020