v1v2 (latest)

Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog

Annual Meeting of the Association for Computational Linguistics (ACL), 2019

1 February 2019

Papers citing "Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog"

50 / 62 papers shown

Title
Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations Wei Pang Ruixue Duan Jinfu Yang Ning Li 116 0 0 13 Aug 2024
BI-MDRG: Bridging Image History in Multimodal Dialogue Response GenerationEuropean Conference on Computer Vision (ECCV), 2024 Hee Suk Yoon Eunseop Yoon Joshua Tian Jin Tee Kang Zhang Yu-Jung Heo Du-Seong Chang Chang D. Yoo 198 6 0 12 Aug 2024
VideoLLM-online: Online Video Large Language Model for Streaming Video Joya Chen Zhaoyang Lv Shiwei Wu Kevin Qinghong Lin Chenan Song Difei Gao Jia-Wei Liu Ziteng Gao Dongxing Mao Mike Zheng Shou MLLM MoMe 287 102 0 17 Jun 2024
InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large Multimodal and Language Models Bingbing Wen Zhengyuan Yang Jianfeng Wang Zhe Gan Bill Howe Lijuan Wang MLLM 164 3 0 21 Dec 2023
VDialogUE: A Unified Evaluation Benchmark for Visually-grounded Dialogue Yunshui Li Binyuan Hui Zhaochao Yin Wanwei He Run Luo Yuxing Long Min Yang Fei Huang Yongbin Li 132 1 0 14 Sep 2023
A Unified Framework for Slot based Response Generation in a Multimodal Dialogue System Mauajama Firdaus Avinash Madasu Asif Ekbal 272 9 0 27 May 2023
FaceChat: An Emotion-Aware Face-to-face Dialogue Framework Deema Alnuhait Qingyang Wu Zhou Yu 144 7 0 08 Mar 2023
Unified Multimodal Model with Unlikelihood Training for Visual DialogACM Multimedia (ACM MM), 2022 Zihao Wang Junli Wang Changjun Jiang MLLM 171 12 0 23 Nov 2022
MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain ConversationAnnual Meeting of the Association for Computational Linguistics (ACL), 2022 Jiazhan Feng Qingfeng Sun Can Xu Lu Wang Yaming Yang Chongyang Tao Dongyan Zhao Qingwei Lin 235 66 0 10 Nov 2022
Vision+X: A Survey on Multimodal Learning in the Light of DataIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022 Ye Zhu Yuehua Wu Andrii Zadaianchuk Yan Yan 326 37 0 05 Oct 2022
Neuro-Symbolic Visual DialogInternational Conference on Computational Linguistics (COLING), 2022 Adnen Abdessaied Mihai Bâce Andreas Bulling NAI 147 4 0 22 Aug 2022
Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review Hao Wang Bin Guo Y. Zeng Yasan Ding Chen Qiu Ying Zhang Li Yao Zhiwen Yu 217 2 0 02 Jul 2022
Dual Decomposition of Convex Optimization Layers for Consistent Attention in Medical ImagesInternational Conference on Machine Learning (ICML), 2022 Tom Ron M. Weiler-Sagie Tamir Hazan FAtt MedIm 190 7 0 06 Jun 2022
VD-PCR: Improving Visual Dialog with Pronoun Coreference ResolutionPattern Recognition (Pattern Recogn.), 2022 Xintong Yu Hongming Zhang Ruixin Hong Yangqiu Song Changshui Zhang 180 17 0 29 May 2022
The Dialog Must Go On: Improving Visual Dialog via Generative Self-TrainingComputer Vision and Pattern Recognition (CVPR), 2022 Gi-Cheon Kang Sungdong Kim Jin-Hwa Kim Donghyun Kwak Byoung-Tak Zhang 246 14 0 25 May 2022
META-GUI: Towards Multi-modal Conversational Agents on Mobile GUIConference on Empirical Methods in Natural Language Processing (EMNLP), 2022 Liangtai Sun Xingyu Chen Lu Chen Tianle Dai Zichen Zhu Kai Yu LLMAG 232 83 0 23 May 2022
UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual DialogComputer Vision and Pattern Recognition (CVPR), 2022 Cheng Chen Yudong Zhu Zhenshan Tan Qingrong Cheng Xin Jiang Qun Liu X. Gu 206 43 0 01 May 2022
Improving Cross-Modal Understanding in Visual Dialog via Contrastive LearningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022 Feilong Chen Xiuyi Chen Shuang Xu Bo Xu VLM 154 19 0 15 Apr 2022
Spot the Difference: A Cooperative Object-Referring Game in Non-Perfectly Co-Observable Scene Duo Zheng Fandong Meng Q. Si Hairun Fan Zipeng Xu Jie Zhou Fangxiang Feng Xiaojie Wang 158 0 0 16 Mar 2022
Modeling Coreference Relations in Visual DialogConference of the European Chapter of the Association for Computational Linguistics (EACL), 2022 Mingxiao Li Marie-Francine Moens 99 10 0 06 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and GenerationInternational Conference on Machine Learning (ICML), 2022 Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 1.3K 5,628 0 28 Jan 2022
Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation Feilong Chen Fandong Meng Xiuyi Chen Peng Li Jie Zhou 175 24 0 17 Sep 2021
GoG: Relation-aware Graph-over-Graph Network for Visual Dialog Feilong Chen Xiuyi Chen Fandong Meng Peng Li Jie Zhou 253 36 0 17 Sep 2021
Learning to Ground Visual Objects for Visual Dialog Feilong Chen Xiuyi Chen Can Xu Daxin Jiang OOD 162 18 0 13 Sep 2021
Enhancing Visual Dialog Questioner with Entity-based Strategy Learning and Augmented GuesserConference on Empirical Methods in Natural Language Processing (EMNLP), 2021 Duo Zheng Zipeng Xu Fandong Meng Caixia Yuan Jiaan Wang Jie Zhou 102 13 0 06 Sep 2021
Productivity, Portability, Performance: Data-Centric Python Yiheng Wang Yao Zhang Yanzhang Wang Yan Wan Jiao Wang Zhongyuan Wu Yuhao Yang Bowen She 394 110 0 01 Jul 2021
Saying the Unseen: Video Descriptions via Dialog AgentsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021 Ye Zhu Yu Wu Yi Yang Yan Yan 170 8 0 26 Jun 2021
Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation Shuhe Wang Yuxian Meng Xiaofei Sun Leilei Gan Rongbin Ouyang Rui Yan Tianwei Zhang Jiwei Li 208 15 0 30 May 2021
Recent Advances in Deep Learning Based Dialogue Systems: A Systematic SurveyArtificial Intelligence Review (AIR), 2021 Jinjie Ni Tom Young Vlad Pandelea Fuzhao Xue Xiaoshi Zhong 743 319 0 10 May 2021
Ensemble of MRR and NDCG models for Visual DialogNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021 Idan Schwartz 214 10 0 15 Apr 2021
Attention, please! A survey of Neural Attention Models in Deep LearningArtificial Intelligence Review (AIR), 2021 Alana de Santana Correia Esther Luna Colombini HAI 308 249 0 31 Mar 2021
The Interplay of Task Success and Dialogue Quality: An in-depth Evaluation in Task-Oriented Visual DialoguesConference of the European Chapter of the Association for Computational Linguistics (EACL), 2021 A. Testoni Raffaella Bernardi 82 4 0 20 Mar 2021
Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm Laria Reynolds Kyle McDonell 456 1,144 0 15 Feb 2021
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts Yuxian Meng Shuhe Wang Qinghong Han Xiaofei Sun Leilei Gan Rui Yan Jiwei Li 353 31 0 30 Dec 2020
DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image Generation Zhenxing Zhang Lambert Schomaker GAN 222 43 0 05 Nov 2020
Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions Radhika Dua Sai Srinivas Kancheti V. Balasubramanian LRM 242 26 0 24 Oct 2020
Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games Yunqiu Xu Meng Fang Ling-Hao Chen Yali Du Qiufeng Wang Chengqi Zhang OffRL 270 48 0 22 Oct 2020
New Ideas and Trends in Deep Multimodal Content Understanding: A ReviewNeurocomputing (Neurocomputing), 2020 Wei Chen Weiping Wang Tianpeng Liu M. Lew VLM 305 36 0 16 Oct 2020
A Linguistic Analysis of Visually Grounded Dialogues Based on Spatial Expressions Takuma Udagawa T. Yamazaki Akiko Aizawa 168 12 0 07 Oct 2020
Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents Ye Zhu Yu Wu Yi Yang Yan Yan 213 13 0 18 Aug 2020
KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual DialogueACM Multimedia (ACM MM), 2020 X. Jiang Siyi Du Zengchang Qin Yajing Sun Jiahao Yu 240 38 0 11 Aug 2020
SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation SpaceWorkshop on Document-grounded Dialogue and Conversational Question Answering (DialDoc), 2020 Liu Yang VLM 147 5 0 02 Aug 2020
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers Shijie Geng Shiyang Feng Moitreya Chatterjee Chiori Hori Jonathan Le Roux Zelong Li Jiaming Song A. Cherian 206 11 0 08 Jul 2020
DAM: Deliberation, Abandon and Memory Networks for Generating Detailed and Non-repetitive Responses in Visual Dialogue X. Jiang Jiahao Yu Yajing Sun Zengchang Qin Zihao Zhu Yue Hu Qi Wu MLLM 243 19 0 07 Jul 2020
Large-Scale Adversarial Training for Vision-and-Language Representation LearningNeural Information Processing Systems (NeurIPS), 2020 Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 338 535 0 11 Jun 2020
History for Visual Dialog: Do we really need it? Shubham Agarwal Trung Bui Joon-Young Lee Ioannis Konstas Verena Rieser VLM 121 73 0 08 May 2020
VD-BERT: A Unified Vision and Dialog Transformer with BERTConference on Empirical Methods in Natural Language Processing (EMNLP), 2020 Yue Wang Shafiq Joty Michael R. Lyu Irwin King Caiming Xiong Guosheng Lin 307 106 0 28 Apr 2020
Reasoning Visual Dialog with Sparse Graph Learning and Knowledge TransferConference on Empirical Methods in Natural Language Processing (EMNLP), 2020 Gi-Cheon Kang Junseok Park Hwaran Lee Byoung-Tak Zhang Jin-Hwa Kim VLM 177 10 0 14 Apr 2020
Iterative Context-Aware Graph Inference for Visual DialogComputer Vision and Pattern Recognition (CVPR), 2020 Dan Guo Haibo Wang Hanwang Zhang Zhengjun Zha Meng Wang 183 51 0 05 Apr 2020
VIOLIN: A Large-Scale Dataset for Video-and-Language InferenceComputer Vision and Pattern Recognition (CVPR), 2020 J. Liu Wenhu Chen Yu Cheng Zhe Gan Licheng Yu Yiming Yang Jingjing Liu MLLM VGen 242 75 0 25 Mar 2020