Interpretable Visual Question Answering by Reasoning on Dependency Trees

6 September 2018

Xiaodan Liang

Papers citing "Interpretable Visual Question Answering by Reasoning on Dependency Trees"

23 / 23 papers shown

Title
A Review of Multimodal Explainable Artificial Intelligence: Past, Present and Future Shilin Sun Wenbin An Feng Tian Fang Nan Qidong Liu J. Liu N. Shah Ping Chen 83 2 0 18 Dec 2024
A Comprehensive Survey on Visual Question Answering Datasets and Algorithms Raihan Kabir Naznin Haque Md. Saiful Islam Marium-E. Jannat CoGe 29 1 0 17 Nov 2024
Parse Trees Guided LLM Prompt Compression Wenhao Mao Chengbin Hou Tianyu Zhang Xinyu Lin Ke Tang Hairong Lv 21 0 0 23 Sep 2024
R2G: Reasoning to Ground in 3D Scenes Yixuan Li Zan Wang Wei Liang 41 2 0 24 Aug 2024
Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference Kai Shen Lingfei Wu Siliang Tang Fangli Xu Bo Long Yueting Zhuang Jian Pei 20 0 0 06 Jul 2024
Robust Visual Question Answering: Datasets, Methods, and Future Challenges Jie Ma Pinghui Wang Dechen Kong Zewei Wang Jun Liu Hongbin Pei Junzhou Zhao OOD 19 18 0 21 Jul 2023
ViperGPT: Visual Inference via Python Execution for Reasoning Dídac Surís Sachit Menon Carl Vondrick MLLM LRM ReLM 45 429 0 14 Mar 2023
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering Hao Li Jinfa Huang Peng Jin Guoli Song Qi Wu Jie Chen 27 20 0 21 Sep 2022
MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via Mixing Recurrent Soft Decision Trees Zichuan Liu Zichuan Liu Zhi Wang Yuanyang Zhu Chunlin Chen 50 5 0 15 Sep 2022
Joint learning of object graph and relation graph for visual question answering Hao Li Xu Li Belhal Karimi Jie Chen Mingming Sun GNN 28 21 0 09 May 2022
A Survey of Natural Language Generation Chenhe Dong Yinghui Li Haifan Gong M. Chen Junxin Li Ying Shen Min Yang 3DV 19 43 0 22 Dec 2021
Temporal-Spatial Causal Interpretations for Vision-Based Reinforcement Learning Wenjie Shi Gao Huang Shiji Song Cheng Wu 21 9 0 06 Dec 2021
MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided Multimodal Attention for Textbook Question Answering Fangzhi Xu Qika Lin J. Liu Lingling Zhang Tianzhe Zhao Qianyi Chai Yudai Pan 9 2 0 06 Dec 2021
Discontinuous Grammar as a Foreign Language Daniel Fernández-González Carlos Gómez-Rodríguez 45 9 0 20 Oct 2021
Knowledge-based Embodied Question Answering Sinan Tan Mengmeng Ge Di Guo Huaping Liu F. Sun 22 20 0 16 Sep 2021
Dependency Parsing with Bottom-up Hierarchical Pointer Networks Daniel Fernández-González Carlos Gómez-Rodríguez 26 13 0 20 May 2021
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 18 6 0 19 Oct 2020
Graph-based Heuristic Search for Module Selection Procedure in Neural Module Network Yuxuan Wu Hideki Nakayama GNN 10 3 0 30 Sep 2020
Multitask Pointer Network for Multi-Representational Parsing Daniel Fernández-González Carlos Gómez-Rodríguez 30 24 0 21 Sep 2020
Self-Supervised Discovering of Interpretable Features for Reinforcement Learning Wenjie Shi Gao Huang Shiji Song Zhuoyuan Wang Tingyu Lin Cheng Wu SSL 20 18 0 16 Mar 2020
Joint Visual Grounding with Language Scene Graphs Daqing Liu Hanwang Zhang Zhengjun Zha Meng Wang Qianru Sun 17 6 0 09 Jun 2019
Challenges and Prospects in Vision and Language Research Kushal Kafle Robik Shrestha Christopher Kanan 14 41 0 19 Apr 2019
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 144 1,464 0 06 Jun 2016