Analyzing the Behavior of Visual Question Answering Models

23 June 2016

Devi Parikh

Papers citing "Analyzing the Behavior of Visual Question Answering Models"

50 / 67 papers shown

Title
EventHallusion: Diagnosing Event Hallucinations in Video LLMs Jiacheng Zhang Yang Jiao Shaoxiang Chen Jingjing Chen Zhiyu Tan Hao Li Jingjing Chen MLLM 61 18 0 25 Sep 2024
Causal Understanding For Video Question Answering Bhanu Prakash Reddy Guda Tanmay Kulkarni Adithya Sampath Swarnashree Mysore Sathyendra CML 54 0 0 23 Jul 2024
VideoDistill: Language-aware Vision Distillation for Video Question Answering Bo Zou Chao Yang Yu Qiao Chengbin Quan Youjian Zhao VGen 47 1 0 01 Apr 2024
3D-Aware Visual Question Answering about Parts, Poses and Occlusions Xingrui Wang Wufei Ma Zhuowan Li Adam Kortylewski Alan L. Yuille CoGe 27 12 0 27 Oct 2023
GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models' Over-Reliance on Superficial Clue Yanrui Du Sendong Zhao Yuhan Chen Rai Bai Jing Liu Huaqin Wu Haifeng Wang Bing Qin 40 2 0 08 Sep 2023
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models Noriyuki Kojima Hadar Averbuch-Elor Yoav Artzi 26 2 0 06 Sep 2023
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion Isha Rawal Alexander Matyasko Shantanu Jaiswal Basura Fernando Cheston Tan 21 1 0 15 Jun 2023
Are Diffusion Models Vision-And-Language Reasoners? Benno Krojer Elinor Poole-Dayan Vikram S. Voleti Christopher Pal Siva Reddy 37 13 0 25 May 2023
Pento-DIARef: A Diagnostic Dataset for Learning the Incremental Algorithm for Referring Expression Generation from Examples P. Sadler David Schlangen 21 2 0 24 May 2023
Combo of Thinking and Observing for Outside-Knowledge VQA Q. Si Yuchen Mo Zheng Lin Huishan Ji Weiping Wang 43 13 0 10 May 2023
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models Ali Borji CoGe 10 1 0 28 Jan 2023
Feature-Level Debiased Natural Language Understanding Yougang Lyu Piji Li Yechang Yang Maarten de Rijke Pengjie Ren Yukun Zhao Dawei Yin Z. Ren 32 10 0 11 Dec 2022
Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning Zhuowan Li Xingrui Wang Elias Stengel-Eskin Adam Kortylewski Wufei Ma Benjamin Van Durme Max Planck Institute for Informatics OOD LRM 23 57 0 01 Dec 2022
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering Q. Si Yuanxin Liu Zheng Lin Peng Fu Weiping Wang VLM 36 1 0 26 Oct 2022
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning Q. Si Yuanxin Liu Fandong Meng Zheng Lin Peng Fu Yanan Cao Weiping Wang Jie Zhou 37 23 0 10 Oct 2022
ChemAlgebra: Algebraic Reasoning on Chemical Reactions Andrea Valenti D. Bacciu Antonio Vergari OOD LRM 32 0 0 05 Oct 2022
Revisiting the Importance of Amplifying Bias for Debiasing Jungsoo Lee Jeonghoon Park Daeyoung Kim Juyoung Lee E. Choi Jaegul Choo 42 21 0 29 May 2022
Learning to Retrieve Videos by Asking Questions Avinash Madasu Junier Oliva Gedas Bertasius VGen 30 16 0 11 May 2022
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata LRM NAI 27 20 0 05 Apr 2022
Delving Deeper into Cross-lingual Visual Question Answering Chen Cecilia Liu Jonas Pfeiffer Anna Korhonen Ivan Vulić Iryna Gurevych 28 8 0 15 Feb 2022
Saving Dense Retriever from Shortcut Dependency in Conversational Search Sungdong Kim Gangwoo Kim 17 26 0 15 Feb 2022
3D Question Answering Shuquan Ye Dongdong Chen Songfang Han Jing Liao ViT 26 46 0 15 Dec 2021
Understanding Out-of-distribution: A Perspective of Data Dynamics Dyah Adila Dongyeop Kang 38 12 0 29 Nov 2021
Diagnosing Errors in Video Relation Detectors Shuo Chen Pascal Mettes Cees G. M. Snoek 28 5 0 25 Oct 2021
Multimodal Integration of Human-Like Attention in Visual Question Answering Ekta Sood Fabian Kögel Philippe Muller Dominike Thomas Mihai Bâce Andreas Bulling 38 16 0 27 Sep 2021
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering Ekta Sood Fabian Kögel Florian Strohm Prajit Dhar Andreas Bulling 40 19 0 27 Sep 2021
Raising context awareness in motion forecasting H. Ben-younes Éloi Zablocki Mickaël Chen P. Pérez Matthieu Cord TTA 36 11 0 16 Sep 2021
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering Jihyung Kil Cheng Zhang D. Xuan Wei-Lun Chao 61 20 0 13 Sep 2021
Interactive Machine Comprehension with Dynamic Knowledge Graphs Xingdi Yuan 31 3 0 31 Aug 2021
On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering K. Gouthaman Anurag Mittal CML 42 0 0 28 Aug 2021
Chest ImaGenome Dataset for Clinical Reasoning Joy T. Wu Nkechinyere N. Agu Ismini Lourentzou Arjun Sharma J. Paguio ... William Mitchell Satyananda Kashyap Andrea Giovannini L. A. Celi Mehdi Moradi 16 64 0 31 Jul 2021
MultiBench: Multiscale Benchmarks for Multimodal Representation Learning Paul Pu Liang Yiwei Lyu Xiang Fan Zetian Wu Yun Cheng ... Peter Wu Michelle A. Lee Yuke Zhu Ruslan Salakhutdinov Louis-Philippe Morency VLM 29 159 0 15 Jul 2021
Learning Debiased Representation via Disentangled Feature Augmentation Jungsoo Lee Eungyeup Kim Juyoung Lee Jihyeon Janel Lee Jaegul Choo CML 17 148 0 03 Jul 2021
Ethics Sheets for AI Tasks Saif M. Mohammad 11 31 0 02 Jul 2021
Towards Robust Classification Model by Counterfactual and Invariant Data Generation C. Chang George Adam Anna Goldenberg OOD CML 19 31 0 02 Jun 2021
A First Look: Towards Explainable TextVQA Models via Visual and Textual Explanations Varun Nagaraj Rao Xingjian Zhen K. Hovsepian Mingwei Shen 29 17 0 29 Apr 2021
VisQA: X-raying Vision and Language Reasoning in Transformers Theo Jaunet Corentin Kervadec Romain Vuillemot G. Antipov M. Baccouche Christian Wolf 8 26 0 02 Apr 2021
SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering Bo Liu Li-Ming Zhan Li Xu Lin Ma Y. Yang Xiao-Ming Wu 31 234 0 18 Feb 2021
DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue Hung Le Chinnadhurai Sankar Seungwhan Moon Ahmad Beirami A. Geramifard Satwik Kottur VGen 31 18 0 01 Jan 2021
Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies Itai Gat Idan Schwartz A. Schwing Tamir Hazan 55 89 0 21 Oct 2020
Uncovering Hidden Challenges in Query-Based Video Moment Retrieval Mayu Otani Yuta Nakashima Esa Rahtu J. Heikkilä 15 74 0 01 Sep 2020
Estimating semantic structure for the VQA answer space Corentin Kervadec G. Antipov M. Baccouche Christian Wolf 18 4 0 10 Jun 2020
Counterfactual VQA: A Cause-Effect Look at Language Bias Yulei Niu Kaihua Tang Hanwang Zhang Zhiwu Lu Xiansheng Hua Ji-Rong Wen CML 36 394 0 08 Jun 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 25 580 0 10 May 2020
Stress Test Evaluation of Transformer-based Models in Natural Language Understanding Tasks Carlos Aspillaga Andrés Carvallo Vladimir Araujo ELM 39 31 0 14 Feb 2020
RUBi: Reducing Unimodal Biases in Visual Question Answering Rémi Cadène Corentin Dancette H. Ben-younes Matthieu Cord Devi Parikh CML 19 368 0 24 Jun 2019
Answer Them All! Toward Universal Visual Question Answering Models Robik Shrestha Kushal Kafle Christopher Kanan 17 82 0 01 Mar 2019
Saliency Learning: Teaching the Model Where to Pay Attention Reza Ghaeini Xiaoli Z. Fern Hamed Shahbazi Prasad Tadepalli FAtt XAI 21 30 0 22 Feb 2019
From FiLM to Video: Multi-turn Question Answering with Multi-modal Context T. Nguyen Shikhar Sharma Hannes Schulz Layla El Asri 15 33 0 17 Dec 2018
Explicit Bias Discovery in Visual Question Answering Models Varun Manjunatha Nirat Saini L. Davis CML FAtt 19 92 0 19 Nov 2018