MovieQA: Understanding Stories in Movies through Question-Answering

9 December 2015

Antonio Torralba

Sanja Fidler

Papers citing "MovieQA: Understanding Stories in Movies through Question-Answering"

50 / 166 papers shown

Title
Video Question Answering with Iterative Video-Text Co-Tokenization A. Piergiovanni K. Morton Weicheng Kuo Michael S. Ryoo A. Angelova 25 18 0 01 Aug 2022
Face-to-Face Contrastive Learning for Social Intelligence Question-Answering Alex Wilf Qianli Ma Paul Pu Liang Amir Zadeh Louis-Philippe Morency 36 10 0 29 Jul 2022
Meta Spatio-Temporal Debiasing for Video Scene Graph Generation Li Xu Haoxuan Qu Jason Kuen Jiuxiang Gu Jun Liu CML 29 27 0 23 Jul 2022
The Anatomy of Video Editing: A Dataset and Benchmark Suite for AI-Assisted Video Editing Dawit Mureja Argaw Fabian Caba Heilbron Joon-Young Lee Markus Woodson In So Kweon VGen 50 22 0 20 Jul 2022
CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination Hyounghun Kim Abhaysinh Zala Joey Tianyi Zhou 22 6 0 08 Jul 2022
Interactive Visual Reasoning under Uncertainty Manjie Xu Guangyuan Jiang Wei Liang Song-Chun Zhu Yixin Zhu LRM 47 5 0 18 Jun 2022
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid 36 228 0 16 Jun 2022
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge Dustin Schwenk Apoorv Khandelwal Christopher Clark Kenneth Marino Roozbeh Mottaghi 16 505 0 03 Jun 2022
Structured Two-stream Attention Network for Video Question Answering Lianli Gao Pengpeng Zeng Jingkuan Song Yuan-Fang Li Wu Liu Tao Mei Heng Tao Shen 37 68 0 02 Jun 2022
Multimodal Conversational AI: A Survey of Datasets and Approaches Anirudh S. Sundar Larry Heck 38 29 0 13 May 2022
Learning to Answer Visual Questions from Web Videos Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 34 33 0 10 May 2022
Episodic Memory Question Answering Samyak Datta Sameer Dharur Vincent Cartillier Ruta Desai Mukul Khanna Dhruv Batra Devi Parikh EgoV 16 31 0 03 May 2022
Hierarchical Self-supervised Representation Learning for Movie Understanding Fanyi Xiao Kaustav Kundu Joseph Tighe Davide Modolo SSL 44 24 0 06 Apr 2022
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation Wangbo Zhao Kai Wang Xiangxiang Chu Fuzhao Xue Xinchao Wang Yang You 29 21 0 06 Apr 2022
Long Movie Clip Classification with State-Space Video Models Md. Mohaiminul Islam Gedas Bertasius VLM 43 102 0 04 Apr 2022
Learning to Answer Questions in Dynamic Audio-Visual Scenarios Guangyao Li Yake Wei Yapeng Tian Chenliang Xu Ji-Rong Wen Di Hu 29 136 0 26 Mar 2022
Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding Yidan Sun Qin Chao Yangfeng Ji Boyang Albert Li VGen 33 10 0 11 Mar 2022
AssistQ: Affordance-centric Question-driven Task Completion for Egocentric Assistant B. Wong Joya Chen You Wu Stan Weixian Lei Dongxing Mao Difei Gao Mike Zheng Shou EgoV 32 27 0 08 Mar 2022
Video Question Answering: Datasets, Algorithms and Challenges Yaoyao Zhong Junbin Xiao Wei Ji Yicong Li Wei Deng Tat-Seng Chua 27 85 0 02 Mar 2022
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models Spyridon Mouselinos Henryk Michalewski Mateusz Malinowski 13 3 0 24 Feb 2022
NEWSKVQA: Knowledge-Aware News Video Question Answering Pranay Gupta Manish Gupta 22 7 0 08 Feb 2022
OpenQA: Hybrid QA System Relying on Structured Knowledge Base as well as Non-structured Data Gaochen Wu Bin Xu Yuxin Qin Yang Liu Lingyu Liu Ziwei Wang 19 0 0 31 Dec 2021
InstaIndoor and Multi-modal Deep Learning for Indoor Scene Recognition A. Glavan Estefanía Talavera 21 10 0 23 Dec 2021
3D Question Answering Shuquan Ye Dongdong Chen Songfang Han Jing Liao ViT 26 46 0 15 Dec 2021
V2C: Visual Voice Cloning Qi Chen Yuanqing Li Yuankai Qi Jiaqiu Zhou Mingkui Tan Qi Wu VGen 33 23 0 25 Nov 2021
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language Mingyu Ding Zhenfang Chen Tao Du Ping Luo J. Tenenbaum Chuang Gan VGen PINN OCL 30 74 0 28 Oct 2021
$Pano-AVQA: Grounded Audio-Visual Question Answering on 360$^\circ$ Videos$ Pano-AVQA: Grounded Audio-Visual Question Answering on 360 $^\circ$ Videos Heeseung Yun Youngjae Yu Wonsuk Yang Kangil Lee Gunhee Kim 25 78 0 11 Oct 2021
More Than Reading Comprehension: A Survey on Datasets and Metrics of Textual Question Answering Yang Bai D. Wang 93 10 0 25 Sep 2021
Self-supervised Learning for Semi-supervised Temporal Language Grounding Fan Luo Shaoxiang Chen Jingjing Chen Zuxuan Wu Yu-Gang Jiang VLM 51 11 0 23 Sep 2021
Survey: Transformer based Video-Language Pre-training Ludan Ruan Qin Jin VLM ViT 72 44 0 21 Sep 2021
M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining Xiao Dong Xunlin Zhan Yangxin Wu Yunchao Wei Michael C. Kampffmeyer Xiaoyong Wei Minlong Lu Yaowei Wang Xiaodan Liang 33 36 0 09 Sep 2021
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment Jianwei Yang Yonatan Bisk Jianfeng Gao 27 137 0 23 Aug 2021
Mounting Video Metadata on Transformer-based Language Model for Open-ended Video Question Answering Donggeon Lee Seongho Choi Youwon Jang Byoung-Tak Zhang 16 2 0 11 Aug 2021
Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference Juncheng Li Siliang Tang Linchao Zhu Haochen Shi Xuanwen Huang Fei Wu Yi Yang Yueting Zhuang 22 28 0 26 Jul 2021
Weakly Supervised Temporal Adjacent Network for Language Grounding Yuechen Wang Jiajun Deng Wen-gang Zhou Houqiang Li 26 67 0 30 Jun 2021
Towards Long-Form Video Understanding Chaoxia Wu Philipp Krahenbuhl VLM ViT 49 165 0 21 Jun 2021
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions Junbin Xiao Xindi Shang Angela Yao Tat-Seng Chua 45 440 0 18 May 2021
gComm: An environment for investigating generalization in Grounded Language Acquisition Rishi Hazra Sonu Dixit 23 0 0 09 May 2021
Bridge to Answer: Structure-aware Graph Interaction Network for Video Question Answering Jungin Park Jiyoung Lee Kwanghoon Sohn 165 100 0 29 Apr 2021
Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning Zhenfang Chen Jiayuan Mao Jiajun Wu Kwan-Yee K. Wong J. Tenenbaum Chuang Gan VGen 36 92 0 30 Mar 2021
Structured Co-reference Graph Attention for Video-grounded Dialogue Junyeong Kim Sunjae Yoon Dahyun Kim Chang D. Yoo 18 26 0 24 Mar 2021
English Machine Reading Comprehension Datasets: A Survey Daria Dzendzik Carl Vogel Jennifer Foster RALM AIMat 25 49 0 25 Jan 2021
MELINDA: A Multimodal Dataset for Biomedical Experiment Method Classification Te-Lin Wu Shikhar Singh S. Paul Gully A. Burns Nanyun Peng 24 18 0 16 Dec 2020
Movie Summarization via Sparse Graph Construction Pinelopi Papalampidi Frank Keller Mirella Lapata 19 32 0 14 Dec 2020
Intrinsically Motivated Compositional Language Emergence Rishi Hazra Sonu Dixit Sayambhu Sen 11 1 0 09 Dec 2020
CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions Tayfun Ates Muhammed Samil Atesoglu Cagatay Yigit .Ilker Kesen Mert Kobaş Erkut Erdem Aykut Erdem T. Goksun Deniz Yuret 24 31 0 08 Dec 2020
ActBERT: Learning Global-Local Video-Text Representations Linchao Zhu Yi Yang ViT 46 417 0 14 Nov 2020
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering Aisha Urooj Khan Amir Mazaheri N. Lobo M. Shah 32 56 0 27 Oct 2020
TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-aware Dialog Wubo Li Dongwei Jiang Wei Zou Xiangang Li 23 6 0 21 Oct 2020
BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues Hung Le Doyen Sahoo Nancy F. Chen S. Hoi 40 30 0 20 Oct 2020