Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering

1 December 2017

Devi Parikh

Papers citing "Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering"

50 / 330 papers shown

Title
Distraction-free Embeddings for Robust VQA Atharvan Dogra Deeksha Varshney A. Kalyan A. Deshpande Neeraj Kumar 11 0 0 31 Aug 2023
Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations Kilichbek Haydarov Xiaoqian Shen Avinash Madasu Mahmoud Salem Jia Li Gamaleldin F. Elsayed Mohamed Elhoseiny 28 4 0 30 Aug 2023
Artificial-Spiking Hierarchical Networks for Vision-Language Representation Learning Ye-Ting Chen Siyu Zhang Yaoru Sun Weijian Liang Haoran Wang 33 0 0 18 Aug 2023
Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models Dohwan Ko Ji Soo Lee M. Choi Jaewon Chu Jihwan Park Hyunwoo J. Kim 20 5 0 18 Aug 2023
From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition Maan Qraitem Kate Saenko Bryan A. Plummer 39 4 0 08 Aug 2023
Grounded Image Text Matching with Mismatched Relation Reasoning Yu Wu Yan-Tao Wei Haozhe Jasper Wang Yongfei Liu Sibei Yang Xuming He 18 6 0 02 Aug 2023
Making the V in Text-VQA Matter Shamanthak Hegde Soumya Jahagirdar Shankar Gangisetty CoGe 26 4 0 01 Aug 2023
LOIS: Looking Out of Instance Semantics for Visual Question Answering Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 23 4 0 26 Jul 2023
Robust Visual Question Answering: Datasets, Methods, and Future Challenges Jie Ma Pinghui Wang Dechen Kong Zewei Wang Jun Liu Hongbin Pei Junzhou Zhao OOD 19 18 0 21 Jul 2023
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion Isha Rawal Alexander Matyasko Shantanu Jaiswal Basura Fernando Cheston Tan 14 1 0 15 Jun 2023
Improving Selective Visual Question Answering by Learning from Your Peers Corentin Dancette Spencer Whitehead Rishabh Maheshwary Ramakrishna Vedantam Stefan Scherer Xinlei Chen Matthieu Cord Marcus Rohrbach AAML OOD 22 15 0 14 Jun 2023
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes Alexandros Delitzas Maria Parelli Nikolas Hars G. Vlassis Sotiris Anagnostidis Gregor Bachmann Thomas Hofmann CLIP 12 19 0 04 Jun 2023
Unveiling Cross Modality Bias in Visual Question Answering: A Causal View with Possible Worlds VQA A. Vosoughi Shijian Deng Songyang Zhang Yapeng Tian Chenliang Xu Jiebo Luo CML 23 3 0 31 May 2023
Fighting Bias with Bias: Promoting Model Robustness by Amplifying Dataset Biases Yuval Reif Roy Schwartz 15 7 0 30 May 2023
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language Shantipriya Parida Idris Abdulmumin Shamsuddeen Hassan Muhammad Aneesh Bose Guneet Singh Kohli I. Ahmad Ketan Kotwal S. Sarkar Ondrej Bojar Habeebah Adamu Kakudi 17 4 0 28 May 2023
Large Language Models Can be Lazy Learners: Analyze Shortcuts in In-Context Learning Ruixiang Tang Dehan Kong Lo-li Huang Hui Xue 24 47 0 26 May 2023
Measuring Faithful and Plausible Visual Grounding in VQA Daniel Reich F. Putze Tanja Schultz 10 5 0 24 May 2023
Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature Ana Claudia Akemi Matsuki de Faria Felype de Castro Bastos Jose Victor Nogueira Alves da Silva Vitor Lopes Fabris Valeska Uchôa Décio Gonccalves de Aguiar Neto C. F. G. Santos 25 22 0 18 May 2023
An Empirical Study on the Language Modal in Visual Question Answering Daowan Peng Wei Wei Xian-Ling Mao Yuanyuan Fu Dangyang Chen 32 4 0 17 May 2023
Iterative Adversarial Attack on Image-guided Story Ending Generation Youze Wang Wenbo Hu Richang Hong 32 3 0 16 May 2023
Simple Token-Level Confidence Improves Caption Correctness Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach 18 7 0 11 May 2023
Combo of Thinking and Observing for Outside-Knowledge VQA Q. Si Yuchen Mo Zheng Lin Huishan Ji Weiping Wang 19 12 0 10 May 2023
Distribution-aware Fairness Test Generation Sai Sathiesh Rajan E. Soremekun Yves Le Traon Sudipta Chattopadhyay 16 0 0 08 May 2023
Adaptive loose optimization for robust question answering Jie Ma Pinghui Wang Ze-you Wang Dechen Kong Min Hu Tingxu Han Jun Liu OOD 27 4 0 06 May 2023
On Uni-Modal Feature Learning in Supervised Multi-Modal Learning Chenzhuang Du Jiaye Teng Tingle Li Yichen Liu Tianyuan Yuan Yue Wang Yang Yuan Hang Zhao 54 38 0 02 May 2023
VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias Stefanos-Iordanis Papadopoulos C. Koutlis Symeon Papadopoulos P. Petrantonakis 72 19 0 27 Apr 2023
Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics Kuo-Hao Zeng Luca Weihs Roozbeh Mottaghi Ali Farhadi 19 2 0 24 Apr 2023
Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions Jia-Hong Huang Modar Alfadly Bernard Ghanem M. Worring OOD AAML 33 5 0 06 Apr 2023
SC-ML: Self-supervised Counterfactual Metric Learning for Debiased Visual Question Answering Xinyao Shu Shiyang Yan Xu Yang Ziheng Wu Zhongfeng Chen Zhenyu Lu SSL 19 0 0 04 Apr 2023
Self-Supervised Multimodal Learning: A Survey Yongshuo Zong Oisin Mac Aodha Timothy M. Hospedales SSL 16 43 0 31 Mar 2023
Divide and Conquer: Answering Questions with Object Factorization and Compositional Reasoning Shi Chen Qi Zhao 36 2 0 18 Mar 2023
Logical Implications for Visual Question Answering Consistency Sergio Tascon-Morales Pablo Márquez-Neila Raphael Sznitman 13 9 0 16 Mar 2023
Describe me an Aucklet: Generating Grounded Perceptual Category Descriptions Bill Noble N. Ilinykh 21 0 0 07 Mar 2023
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? Yang Chen Hexiang Hu Yi Luan Haitian Sun Soravit Changpinyo Alan Ritter Ming-Wei Chang 27 79 0 23 Feb 2023
A Review of the Role of Causality in Developing Trustworthy AI Systems Niloy Ganguly Dren Fazlija Maryam Badar M. Fisichella Sandipan Sikdar ... Koustav Rudra Manolis Koubarakis Gourab K. Patro W. Z. E. Amri Wolfgang Nejdl CML 26 23 0 14 Feb 2023
Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications Muhammad Arslan Manzoor S. Albarri Ziting Xian Zaiqiao Meng Preslav Nakov Shangsong Liang AI4TS 21 26 0 01 Feb 2023
Debiased Fine-Tuning for Vision-language Models by Prompt Regularization Beier Zhu Yulei Niu Saeil Lee Minhoe Hur Hanwang Zhang VLM VPVLM 19 22 0 29 Jan 2023
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models Ali Borji CoGe 10 1 0 28 Jan 2023
VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges R. Zakari Jim Wilson Owusu Hailin Wang Ke Qin Zaharaddeen Karami Lawal Yue-hong Dong LRM 14 16 0 26 Dec 2022
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models Jiaxian Guo Junnan Li Dongxu Li A. M. H. Tiong Boyang Albert Li Dacheng Tao Steven C. H. Hoi VLM MLLM 24 106 0 21 Dec 2022
Debiasing Stance Detection Models with Counterfactual Reasoning and Adversarial Bias Learning Jianhua Yuan Yanyan Zhao Bing Qin 33 4 0 20 Dec 2022
Benchmarking Spatial Relationships in Text-to-Image Generation Tejas Gokhale Hamid Palangi Besmira Nushi Vibhav Vineet Eric Horvitz Ece Kamar Chitta Baral Yezhou Yang EGVM 30 66 0 20 Dec 2022
Successive Prompting for Decomposing Complex Questions Dheeru Dua Shivanshu Gupta Sameer Singh Matt Gardner ReLM LRM 24 108 0 08 Dec 2022
Going Beyond XAI: A Systematic Survey for Explanation-Guided Learning Yuyang Gao Siyi Gu Junji Jiang S. Hong Dazhou Yu Liang Zhao 24 38 0 07 Dec 2022
Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning Zhuowan Li Xingrui Wang Elias Stengel-Eskin Adam Kortylewski Wufei Ma Benjamin Van Durme Max Planck Institute for Informatics OOD LRM 19 56 0 01 Dec 2022
Cross-Modal Contrastive Learning for Robust Reasoning in VQA Qinjie Zheng Chaoyue Wang Daqing Liu Dadong Wang Dacheng Tao LRM 19 0 0 21 Nov 2022
Visually Grounded VQA by Lattice-based Retrieval Daniel Reich F. Putze Tanja Schultz 11 2 0 15 Nov 2022
Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense Zhecan Wang Haoxuan You Yicheng He Wenhao Li Kai-Wei Chang Shih-Fu Chang 15 5 0 10 Nov 2022
Investigating Ensemble Methods for Model Robustness Improvement of Text Classifiers Jieyu Zhao Xuezhi Wang Yao Qin Jilin Chen Kai-Wei Chang UQCV 50 2 0 28 Oct 2022
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering Q. Si Yuanxin Liu Zheng Lin Peng Fu Weiping Wang VLM 29 1 0 26 Oct 2022