Movie Description

12 May 2016

Aaron Courville

Bernt Schiele

3DV

VGen

ArXiv (abs)PDF HTML

Papers citing "Movie Description"

50 / 213 papers shown

Title
IVCR-200K: A Large-Scale Multi-turn Dialogue Benchmark for Interactive Video Corpus RetrievalAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025 Ning Han Yawen Zeng Shaohua Long Chengqing Li Sijie Yang Dun Tan Jianfeng Dong Jingjing Chen VGen 68 0 0 01 Dec 2025
InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision Chenting Wang Yuhan Zhu Yicheng Xu Jiange Yang Ziang Yan Yali Wang Yi Wang Limin Wang VGen 85 0 0 01 Dec 2025
More than a Moment: Towards Coherent Sequences of Audio Descriptions Eshika Khandelwal Junyu Xie Tengda Han Max Bain Arsha Nagrani Andrew Zisserman Gül Varol Makarand Tapaswi DiffM 80 0 0 29 Oct 2025
MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites Zhenxin Lei Zhangwei Gao Changyao Tian Erfei Cui Guanzhou Chen ... Xiangyu Zhao Jiayi Ji Yu Qiao Wenhai Wang Gen Luo VLM 209 0 0 14 Oct 2025
What You See is What You Ask: Evaluating Audio Descriptions Divy Kala Eshika Khandelwal Makarand Tapaswi DiffM 114 1 0 01 Oct 2025
Cinéaste: A Fine-grained Contextual Movie Question Answering Benchmark Nisarg A. Shah Amir Ziai Chaitanya Ekanadham Vishal M. Patel VGen CoGe ELM 105 0 0 17 Sep 2025
Video Understanding by Design: How Datasets Shape Architectures and Insights Lei Wang Piotr Koniusz Yongsheng Gao 3DV VGen AI4TS 213 0 0 11 Sep 2025
Representation Shift: Unifying Token Compression with FlashAttention Joonmyung Choi S. Lee Byungoh Ko Eunseo Kim Jihyung Kil Hyunwoo J. Kim 168 0 0 01 Aug 2025
Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval Dohwan Ko Ji Soo Lee M. Choi Zihang Meng Hyunwoo J. Kim 288 1 0 31 Jul 2025
Principled Multimodal Representation Learning Xiaohao Liu Xiaobo Xia See-Kiong Ng Tat-Seng Chua 203 6 0 23 Jul 2025
Can Vision Language Models Understand Mimed Actions?Annual Meeting of the Association for Computational Linguistics (ACL), 2025 Hyundong Justin Cho Spencer Lin Tejas Srinivasan Michael Saxon Deuksin Kwon Natali T. Chavez Jonathan May 160 3 0 17 Jun 2025
Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree SearchAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Linhao Yu Xinguang Ji Yahui Liu Fanheng Kong Chenxi Sun Jingyuan Zhang Hongzhi Zhang Victoria A. Webster-Wood Fuzheng Zhang Deyi Xiong 169 2 0 11 Jun 2025
BiMa: Towards Biases Mitigation for Text-Video Retrieval via Scene Element Guidance Huy Le Nhat Chung Tung Kieu A. Nguyen Ngan Le 348 1 0 04 Jun 2025
VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in VideosAAAI Conference on Artificial Intelligence (AAAI), 2025 Baoyu Liang Qile Su Shoutai Zhu Yuchen Liang Chao Tong VGen 207 2 0 03 Jun 2025
CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition Quynh Phung Long Mai Fabian Caba Heilbron Feng Liu Jia-Bin Huang Cusuh Ham DiffM VGen CoGe 263 4 0 28 Apr 2025
ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data StreamsComputer Vision and Pattern Recognition (CVPR), 2025 C. Kim Jihwan Moon Sangwoo Moon Heeseung Yun Sihaeng Lee Aniruddha Kembhavi Soonyoung Lee Gunhee Kim Sangho Lee Christopher Clark 303 0 0 21 Apr 2025
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model Yang Shi Jiaheng Liu Yushuo Guan Zhikai Wu Yujiao Shi ... Bohan Zeng Wei Zhang Fuzheng Zhang Wenjing Yang Di Zhang VGen VLM 331 11 0 14 Apr 2025
Multimodal Lengthy Videos Retrieval Framework and Evaluation Metric Mohamed Eltahir Osamah Sarraj Mohammed Bremoo Mohammed Khurd Abdulrahman Alfrihidi Taha Alshatiri Mohammad Almatrafi Tanveer Hussain 136 1 0 06 Apr 2025
Generative Modeling of Class Probability for Multi-Modal Representation LearningComputer Vision and Pattern Recognition (CVPR), 2025 Jungkyoo Shin Bumsoo Kim Eunwoo Kim 331 2 0 21 Mar 2025
Quantum EigenGame for excited state calculation David Quiroga Jason Han Anastasios Kyrillidis 248 4 0 17 Mar 2025
FilmComposer: LLM-Driven Music Production for Silent Film ClipsComputer Vision and Pattern Recognition (CVPR), 2025 Zhifeng Xie Qile He Youjia Zhu Qiwei He Mengtian Li VGen 304 2 0 11 Mar 2025
Audio-Language Datasets of Scenes and Events: A SurveyIEEE Access (IEEE Access), 2024 Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 422 6 0 10 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Jiayi Zhang Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 422 32 0 06 Jan 2025
Do Language Models Understand Time?The Web Conference (WWW), 2024 Xi Ding Lei Wang 740 9 0 18 Dec 2024
NowYouSee Me: Context-Aware Automatic Audio DescriptionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Seon-Ho Lee Jue Wang D. Fan Zhikang Zhang Linda Liu Xiang Hao Vimal Bhat Xinyu Li 274 2 0 13 Dec 2024
GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-grained Video-language LearningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Yanjie Wang Zhikang Zhang Jue Wang D. Fan Zhenlin Xu Linda Liu Xiang Hao Vimal Bhat Xinyu Li VLM 247 1 0 10 Dec 2024
Artificial Intelligence for Biomedical Video Generation Linyuan Li Jianing Qiu Anujit Saha Lin Li Poyuan Li Mengxian He Ziyu Guo Wu Yuan VGen 342 3 0 12 Nov 2024
Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI TechnologiesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024 Yingqiang Gao Lukas Fischer Alexa Lintner Sarah Ebling 186 4 0 11 Oct 2024
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2024 Gen Luo Xue Yang Wenhan Dou Zhaokai Wang Jifeng Dai Jifeng Dai Yu Qiao Xizhou Zhu VLM MLLM 333 64 0 10 Oct 2024
TokenBinder: Text-Video Retrieval with One-to-Many Alignment ParadigmIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Bingqing Zhang Zhuo Cao Heming Du Xin Yu Xue Li Jiajun Liu Sen Wang VGen 186 5 0 30 Sep 2024
SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama Jing Tang Quanlu Jia Yuqiang Xie Zeyu Gong Xiang Wen Jiayi Zhang Yalong Guo Guibin Chen Jiangping Yang VGen 201 2 0 18 Aug 2024
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions Yatian Wang Yatian Wang Aosong Cheng Pengjun Fang Zeyue Tian ... Wenhan Luo Qifeng Chen Shanghang Zhang Qi-fei Liu Yi-Ting Guo 257 8 0 30 Jul 2024
AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description Junyu Xie Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen 162 17 0 22 Jul 2024
VideoClusterNet: Self-Supervised and Adaptive Clustering For Videos Devesh Walawalkar Pablo Garrido CVBM 164 1 0 16 Jul 2024
Tarsier: Recipes for Training and Evaluating Large Video Description Models Jiawei Wang Liping Yuan Yuchen Zhang 275 112 0 30 Jun 2024
GUI Action Narrator: Where and When Did That Action Take Place? Qinchen Wu Difei Gao Kevin Qinghong Lin Zhuoyu Wu Xiangwu Guo Peiran Li Weichen Zhang Hengxu Wang Mike Zheng Shou 195 5 0 19 Jun 2024
Multilingual Synopses of Movie Narratives: A Dataset for Story UnderstandingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Yidan Sun Jianfei Yu Boyang Li 210 0 0 18 Jun 2024
Long Story Short: Story-level Video Understanding from 20K Short Films Ridouane Ghermi Xi Wang Vicky Kalogeiton Ivan Laptev VGen 108 2 0 14 Jun 2024
Unraveling the Mechanics of Learning-Based Demonstration Selection for In-Context LearningAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Hui Liu Wenya Wang Hao Sun Chris Xing Tian Chenqi Kong Xin Dong Haoliang Li 158 10 0 14 Jun 2024
Explore the Limits of Omni-modal Pretraining at Scale Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue VLM LRM 184 1 0 13 Jun 2024
Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges Daniel A. P. Oliveira Eugénio Ribeiro David Martins de Matos VGen 180 4 0 04 Jun 2024
A Survey of Multimodal Large Language Model from A Data-centric Perspective Tianyi Bai Hao Liang Binwang Wan Yanran Xu Xi Li ... Ping Huang Jiulong Shan Conghui He Binhang Yuan Wentao Zhang 323 64 0 26 May 2024
"Previously on ..." From Recaps to Story SummarizationComputer Vision and Pattern Recognition (CVPR), 2024 Aditya Kumar Singh Dhruv Srivastava Makarand Tapaswi 213 3 0 19 May 2024
MICap: A Unified Model for Identity-aware Movie DescriptionsComputer Vision and Pattern Recognition (CVPR), 2024 Haran Raajesh Naveen Reddy Desanur Zeeshan Khan Makarand Tapaswi 212 7 0 19 May 2024
From Sora What We Can See: A Survey of Text-to-Video Generation Rui Sun Yumin Zhang Tejal Shah Jiahao Sun Shuoying Zhang Wenqi Li Haoran Duan Bo Wei R. Ranjan EGVM 235 38 0 17 May 2024
Learning Long-form Video Prior via Generative Pre-Training Jinheng Xie Jiajun Feng Zhaoxu Tian Kevin Qinghong Lin Yawen Huang ... Nanxu Gong Xu Zuo Jiaqi Yang Yefeng Zheng Mike Zheng Shou 155 8 0 24 Apr 2024
AutoAD III: The Prequel -- Back to the Pixels Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 271 33 0 22 Apr 2024
EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning Mingjie Ma Zhihuan Yu Yichao Ma Guohui Li LRM 162 2 0 22 Apr 2024
Movie101v2: Improved Movie Narration Benchmark Zihao Yue Yepeng Zhang Ziheng Wang Qin Jin VGen 265 3 0 20 Apr 2024
ProTA: Probabilistic Token Aggregation for Text-Video Retrieval Han Fang Xianghao Zang Chao Ban Zerun Feng Lanxiang Zhou Zhongjiang He Yongxiang Li Hao Sun 262 3 0 18 Apr 2024