AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description

10 October 2023

Papers citing "AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description"

34 / 34 papers shown

Title
Integrating Video and Text: A Balanced Approach to Multimodal Summary Generation and Evaluation Galann Pennec Zhengyuan Liu Nicholas Asher Philippe Muller Nancy F. Chen VGen 9 0 0 10 May 2025
FocusedAD: Character-centric Movie Audio Description Xiaojun Ye C. Wang Yiren Song Sheng Zhou Liangcheng Li Jiajun Bu VGen 37 0 0 16 Apr 2025
Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset Elisa Ancarani Julie Tores L. Sassatelli Rémy Sun Hui-Yin Wu F. Precioso 21 0 0 15 Apr 2025
Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation Junyu Xie Tengda Han Max Bain Arsha Nagrani Eshika Khandelwal Gül Varol Weidi Xie Andrew Zisserman DiffM VGen 55 0 0 01 Apr 2025
Fair Dynamic Spectrum Access via Fully Decentralized Multi-Agent Reinforcement Learning Yubo Zhang Pedro Botelho Trevor Gordon Gil Zussman I. Kadota 45 0 0 31 Mar 2025
Learning to Generate Long-term Future Narrations Describing Activities of Daily Living Ramanathan Rajendiran Debaditya Roy Basura Fernando VGen 36 0 0 03 Mar 2025
Do Language Models Understand Time? Xi Ding Lei Wang 149 0 0 18 Dec 2024
NowYouSee Me: Context-Aware Automatic Audio Description Seon-Ho Lee Jue Wang D. Fan Zhikang Zhang Linda Liu Xiang Hao Vimal Bhat Xinyu Li 79 0 0 13 Dec 2024
Progress-Aware Video Frame Captioning Zihui Xue Joungbin An Xitong Yang Kristen Grauman 90 1 0 03 Dec 2024
MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation Weijia Wu Mingyu Liu Zeyu Zhu Xi Xia Haoen Feng Wen Wang Kevin Qinghong Lin Chunhua Shen Mike Zheng Shou DiffM VGen 111 1 0 22 Nov 2024
StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification Yichen He Yuan Lin Jianchao Wu Hanchong Zhang Yuchen Zhang Ruicheng Le VGen VLM 39 2 0 11 Nov 2024
Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies Yingqiang Gao Lukas Fischer Alexa Lintner Sarah Ebling 16 0 0 11 Oct 2024
Learning Video Context as Interleaved Multimodal Sequences S. Shao Pengchuan Zhang Y. Li Xide Xia A. Meso Ziteng Gao Jinheng Xie N. Holliman Mike Zheng Shou 35 5 0 31 Jul 2024
AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description Junyu Xie Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen 25 7 0 22 Jul 2024
MatchTime: Towards Automatic Soccer Game Commentary Generation Jiayuan Rao Haoning Wu Chang-rui Liu Yanfeng Wang Weidi Xie 16 0 0 26 Jun 2024
Multi-layer Learnable Attention Mask for Multimodal Tasks Wayner Barrios SouYoung Jin 20 0 0 04 Jun 2024
"Previously on ..." From Recaps to Story Summarization Aditya Kumar Singh Dhruv Srivastava Makarand Tapaswi 30 0 0 19 May 2024
MICap: A Unified Model for Identity-aware Movie Descriptions Haran Raajesh Naveen Reddy Desanur Zeeshan Khan Makarand Tapaswi 18 4 0 19 May 2024
LLM-AD: Large Language Model based Audio Description System Peng Chu Jiang Wang Andre Abrantes 24 4 0 02 May 2024
AutoAD III: The Prequel -- Back to the Pixels Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 33 4 0 22 Apr 2024
Movie101v2: Improved Movie Narration Benchmark Zihao Yue Yepeng Zhang Ziheng Wang Qin Jin VGen 14 1 0 20 Apr 2024
Streaming Dense Video Captioning Xingyi Zhou Anurag Arnab Shyamal Buch Shen Yan Austin Myers Xuehan Xiong Arsha Nagrani Cordelia Schmid VLM 21 30 0 01 Apr 2024
Contextual AD Narration with Interleaved Multimodal Sequence Hanlin Wang Zhan Tong Kecheng Zheng Yujun Shen Limin Wang VGen 43 3 0 19 Mar 2024
"It's Kind of Context Dependent": Understanding Blind and Low Vision People's Video Accessibility Preferences Across Viewing Scenarios Lucy Jiang Crescentia Jung Mahika Phutane Abigale Stangl Shiri Azenkot 33 2 0 16 Mar 2024
Visual Objectification in Films: Towards a New AI Task for Video Interpretation Julie Tores L. Sassatelli Hui-Yin Wu Clement Bergman Lea Andolfi ... F. Precioso Thierry Devars Magali Guaresi Virginie Julliard Sarah Lecossais 17 2 0 24 Jan 2024
FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild Zhi-Song Liu Robin Courant Vicky Kalogeiton 11 6 0 08 Jan 2024
Video Understanding with Large Language Models: A Survey Yunlong Tang Jing Bi Siting Xu Luchuan Song Susan Liang ... Feng Zheng Jianguo Zhang Ping Luo Jiebo Luo Chenliang Xu VLM 47 76 0 29 Dec 2023
Video Summarization: Towards Entity-Aware Captions Hammad A. Ayyubi Tianqi Liu Arsha Nagrani Xudong Lin Mingda Zhang Anurag Arnab Feng Han Yukun Zhu Jialu Liu Shih-Fu Chang 21 0 0 01 Dec 2023
MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning Chaoyi Zhang K. Lin Zhengyuan Yang Jianfeng Wang Linjie Li Chung-Ching Lin Zicheng Liu Lijuan Wang VGen 13 28 0 29 Nov 2023
Zero-shot audio captioning with audio-language model guidance and audio context keywords Leonard Salewski Stefan Fauth A. Sophia Koepke Zeynep Akata 8 10 0 14 Nov 2023
A Large-scale Dataset for Audio-Language Representation Learning Luoyi Sun Xuenan Xu Mengyue Wu Weidi Xie 10 20 0 20 Sep 2023
Learning Interactions and Relationships between Movie Characters Anna Kukleva Makarand Tapaswi Ivan Laptev 29 43 0 29 Mar 2020
TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal 103 268 0 24 Jan 2020
pyannote.audio: neural building blocks for speaker diarization H. Bredin Ruiqing Yin Juan Manuel Coria G. Gelly Pavel Korshunov Marvin Lavechin D. Fustes Hadrien Titeux Wassim Bouaziz Marie-Philippe Gill 164 307 0 04 Nov 2019