Dissecting Multimodality in VideoQA Transformer Models by Impairing
Modality Fusion

Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion

15 June 2023

Alexander Matyasko

Shantanu Jaiswal

Basura Fernando

Cheston Tan

Papers citing "Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion"

6 / 6 papers shown

Title
Perception Test: A Diagnostic Benchmark for Multimodal Video Models Viorica Puatruaucean Lucas Smaira Ankush Gupta Adrià Recasens Continente L. Markeeva ... Y. Aytar Simon Osindero Dima Damen Andrew Zisserman João Carreira VLM 110 138 0 23 May 2023
Test of Time: Instilling Video-Language Models with a Sense of Time Piyush Bagad Makarand Tapaswi Cees G. M. Snoek 67 36 0 05 Jan 2023
Video Graph Transformer for Video Question Answering Junbin Xiao Pan Zhou Tat-Seng Chua Shuicheng Yan ViT 131 73 0 12 Jul 2022
Gender and Racial Bias in Visual Question Answering Datasets Yusuke Hirota Yuta Nakashima Noa Garcia FaML 119 46 0 17 May 2022
Mitigating Dataset Harms Requires Stewardship: Lessons from 1000 Papers Kenny Peng Arunesh Mathur Arvind Narayanan 97 92 0 06 Aug 2021
Out of Order: How Important Is The Sequential Order of Words in a Sentence in Natural Language Understanding Tasks? Thang M. Pham Trung Bui Long Mai Anh Totti Nguyen 195 122 0 30 Dec 2020