Motion-Appearance Co-Memory Networks for Video Question Answering

29 March 2018

Papers citing "Motion-Appearance Co-Memory Networks for Video Question Answering"

50 / 118 papers shown

Title
A Lightweight Moment Retrieval System with Global Re-Ranking and Robust Adaptive Bidirectional Temporal Search Tinh-Anh Nguyen-Nhu H. Tran Nguyen-Khang Le Minh-Nhat Nguyen T. Nguyen ... Huu-Phong Phan-Nguyen Huy-Thach Pham Quan Nguyen Hoang M. Le Quang-Vinh Dinh 44 0 0 12 Apr 2025
Towards Fine-Grained Video Question Answering Wei Dai Alan Luo Zane Durante Debadutta Dash Arnold Milstein Kevin Schulman Ehsan Adeli L. Fei-Fei 60 1 0 10 Mar 2025
EgoLife: Towards Egocentric Life Assistant Jingkang Yang Shuai Liu Hongming Guo Yuhao Dong X. Zhang ... Joerg Widmer Francesco Gringoli Lei Yang Bo Li Z. Liu EgoV 49 2 0 05 Mar 2025
Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering Sai Bhargav Rongali M. Cui Ankit Jha Neha Bhargava Saurabh Prasad Biplab Banerjee 79 0 0 12 Dec 2024
Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey Jiayi Kuang Jingyou Xie Haohao Luo Ronghao Li Zhe Xu Xianfeng Cheng Yinghui Li Xika Lin Ying Shen LRM 85 8 0 26 Nov 2024
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering Ting Yu Kunhao Fu Shuhui Wang Qingming Huang Jun Yu 41 0 0 12 Oct 2024
Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering Ting Yu Kunhao Fu Jian Zhang Qingming Huang Jun Yu 28 2 0 12 Oct 2024
GMFL-Net: A Global Multi-geometric Feature Learning Network for Repetitive Action Counting Jun Li Jinying Wu Qiming Li Feifei Guo 33 0 0 31 Aug 2024
AHMF: Adaptive Hybrid-Memory-Fusion Model for Driver Attention Prediction Dongyang Xu Qingfan Wang Ji Ma Xiangyun Zeng Lei Chen 30 0 0 24 Jul 2024
Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering Zhaohe Liao Jiangtong Li Li Niu Liqing Zhang CoGe 35 3 0 03 Jul 2024
Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera Inpyo Song Minjun Joo Joonhyung Kwon Jangwon Lee EgoV 41 3 0 30 May 2024
CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes Paritosh Parmar Eric Peh Ruirui Chen Ting En Lam Yuhan Chen Elston Tan Basura Fernando CML 27 7 0 01 Apr 2024
VideoDistill: Language-aware Vision Distillation for Video Question Answering Bo Zou Chao Yang Yu Qiao Chengbin Quan Youjian Zhao VGen 42 1 0 01 Apr 2024
BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of Mind Yuanyuan Mao Xin Lin Qin Ni Liang He 21 3 0 12 Feb 2024
Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering Haibo Wang Chenghang Lai Yixuan Sun Weifeng Ge 17 5 0 19 Jan 2024
STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question Answering Yueqian Wang Yuxuan Wang Kai Chen Dongyan Zhao 25 2 0 08 Jan 2024
Glance and Focus: Memory Prompting for Multi-Event Video Question Answering Ziyi Bai Ruiping Wang Xilin Chen 89 8 0 03 Jan 2024
Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning for Video Question Answering Haopeng Li Qiuhong Ke Mingming Gong Tom Drummond 29 1 0 03 Jan 2024
Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports Haopeng Li Andong Deng Qiuhong Ke Jun Liu Hossein Rahmani Yulan Guo Mohammed Bennamoun Chen Chen 37 17 0 03 Jan 2024
Cross-Modal Reasoning with Event Correlation for Video Question Answering Chengxiang Yin Zhengping Che Kun Wu Zhiyuan Xu Qinru Qiu Jian Tang 29 0 0 20 Dec 2023
Zero-Shot Video Question Answering with Procedural Programs Rohan Choudhury Koichiro Niinuma Kris M. Kitani László A. Jeni 19 21 0 01 Dec 2023
Visual Commonsense based Heterogeneous Graph Contrastive Learning Zongzhao Li Xiangyu Zhu Xi Zhang Zhaoxiang Zhang Zhen Lei 14 1 0 11 Nov 2023
Modular Blended Attention Network for Video Question Answering Mingjie Zhou 22 0 0 02 Nov 2023
Long Story Short: a Summarize-then-Search Method for Long Video Question Answering Jiwan Chung Youngjae Yu 95 5 0 02 Nov 2023
Harvest Video Foundation Models via Efficient Post-Pretraining Yizhuo Li Kunchang Li Yinan He Yi Wang Yali Wang Limin Wang Yu Qiao Ping Luo CLIP VLM VGen 41 2 0 30 Oct 2023
Query-aware Long Video Localization and Relation Discrimination for Deep Video Understanding Yuanxing Xu Yuting Wei Bin Wu 25 0 0 19 Oct 2023
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools Huihui Gong Minjing Dong Siqi Ma S. Çamtepe Chang Xu Lei Hou Surya Nepal VLM MLLM 50 0 0 16 Oct 2023
ATM: Action Temporality Modeling for Video Question Answering Junwen Chen Jie Zhu Yu Kong 19 1 0 05 Sep 2023
Simple Baselines for Interactive Video Retrieval with Questions and Answers Kaiqu Liang Samuel Albanie 22 2 0 21 Aug 2023
Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer Guangyi Chen Xiao Liu Guangrun Wang Kun Zhang Philip H.S.Torr Xiaoping Zhang Yansong Tang 19 18 0 16 Aug 2023
Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question Answering Yi Cheng Hehe Fan Dongyun Lin Ying Sun Mohan S. Kankanhalli J. Lim 32 4 0 25 Jul 2023
Discovering Spatio-Temporal Rationales for Video Question Answering Yicong Li Junbin Xiao Chun Feng Xiang Wang Tat-Seng Chua 19 13 0 22 Jul 2023
Visual Causal Scene Refinement for Video Question Answering Yushen Wei Yang Liu Hongfei Yan Guanbin Li Liang Lin CML 12 21 0 07 May 2023
ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed Videos Zhou Yu Lixiang Zheng Zhou Zhao A. Fedoseev Jianping Fan Kui Ren Jun Yu CoGe 35 13 0 04 May 2023
Learning Situation Hyper-Graphs for Video Question Answering Aisha Urooj Khan Hilde Kuehne Bo Wu Kim Chheu Walid Bousselham Chuang Gan N. Lobo M. Shah 34 15 0 18 Apr 2023
VCD: Visual Causality Discovery for Cross-Modal Question Reasoning Y. Liu Guanbin Li Jingzhou Luo Liang Lin BDL LRM 38 5 0 17 Apr 2023
Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering Hung-Ting Su Yulei Niu Xudong Lin Winston H. Hsu Shih-Fu Chang VGen ELM 21 6 0 07 Apr 2023
Video Question Answering Using CLIP-Guided Visual-Text Attention Shuhong Ye Weikai Kong Chenglin Yao Jianfeng Ren Xudong Jiang 10 10 0 06 Mar 2023
Contrastive Video Question Answering via Video Graph Transformer Junbin Xiao Pan Zhou Angela Yao Yicong Li Richang Hong Shuicheng Yan Tat-Seng Chua ViT 19 35 0 27 Feb 2023
Efficient End-to-End Video Question Answering with Pyramidal Multimodal Transformer Min Peng Chongyang Wang Yu Shi Xiang-Dong Zhou ViT 42 7 0 04 Feb 2023
Follow the Timeline! Generating Abstractive and Extractive Timeline Summary in Chronological Order Xiuying Chen Li Mingzhe Shen Gao Zhangming Chan Dongyan Zhao Xin Gao Xiangliang Zhang Rui Yan 79 4 0 02 Jan 2023
MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering Difei Gao Luowei Zhou Lei Ji Linchao Zhu Yezhou Yang Mike Zheng Shou 36 60 0 19 Dec 2022
Visual Commonsense-aware Representation Network for Video Captioning Pengpeng Zeng Haonan Zhang Lianli Gao Xiangpeng Li Jin Qian Hengtao Shen 21 16 0 17 Nov 2022
Dense but Efficient VideoQA for Intricate Compositional Reasoning Jihyeon Janel Lee Wooyoung Kang Eun-Sol Kim CoGe 11 3 0 19 Oct 2022
Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal Modeling Hsin-Ying Lee Hung-Ting Su Bing-Chen Tsai Tsung-Han Wu Jia-Fong Yeh Winston H. Hsu 25 2 0 08 Oct 2022
AOE-Net: Entities Interactions Modeling with Adaptive Attention Mechanism for Temporal Action Proposals Generation Khoa T. Vo Sang Truong Kashu Yamazaki Bhiksha Raj Minh-Triet Tran Ngan Le 78 26 0 05 Oct 2022
Locate before Answering: Answer Guided Question Localization for Video Question Answering Tianwen Qian Ran Cui Jingjing Chen Pai Peng Xiao-Wei Guo Yu-Gang Jiang 18 17 0 05 Oct 2022
WildQA: In-the-Wild Video Question Answering Santiago Castro Naihao Deng Pingxuan Huang Mihai Burzo Rada Mihalcea 68 7 0 14 Sep 2022
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin William Yang Wang Lijuan Wang Zicheng Liu VLM 19 63 0 04 Sep 2022
Video Question Answering with Iterative Video-Text Co-Tokenization A. Piergiovanni K. Morton Weicheng Kuo Michael S. Ryoo A. Angelova 16 17 0 01 Aug 2022