Title
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment Edson Araujo Andrew Rouditchenko Yuan Gong Saurabhchand Bhati Samuel Thomas Brian Kingsbury Leonid Karlinsky Rogerio Feris James Glass 27 0 0 02 May 2025
AdCare-VLM: Leveraging Large Vision Language Model (LVLM) to Monitor Long-Term Medication Adherence and Care Md Asaduzzaman Jabin Hanqi Jiang Y. Li Patrick Kaggwa Eugene Douglass Juliet N. Sekandi Tianming Liu LM&MA 69 0 0 01 May 2025
4D Multimodal Co-attention Fusion Network with Latent Contrastive Alignment for Alzheimer's Diagnosis Yuxiang Wei Y. Zhang Xi Xiao Tianyang Wang X. Wang Vince D. Calhoun 54 0 0 23 Apr 2025
Towards Understanding Camera Motions in Any Video Zhiqiu Lin Siyuan Cen Daniel Jiang Jay Karhade Hewei Wang ... Rushikesh Zawar Xue Bai Yilun Du Chuang Gan Deva Ramanan VGen 23 0 0 21 Apr 2025
ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams C. Kim Jihwan Moon Sangwoo Moon Heeseung Yun Sihaeng Lee Aniruddha Kembhavi Soonyoung Lee Gunhee Kim Sangho Lee Christopher Clark 23 0 0 21 Apr 2025
Transformation of audio embeddings into interpretable, concept-based representations Alice Zhang Edison Thomaz Lie Lu 27 0 0 18 Apr 2025
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models Haojian Huang Haodong Chen Shengqiong Wu Meng Luo Jinlan Fu Xinya Du H. Zhang Hao Fei AI4TS 85 0 0 17 Apr 2025
DMPT: Decoupled Modality-aware Prompt Tuning for Multi-modal Object Re-identification Minghui Lin Shu Wang Xiang Wang Jianhua Tang Longbin Fu Zhengrong Zuo Nong Sang VLM 42 0 0 15 Apr 2025
Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning Ashutosh Chaubey Xulang Guan Mohammad Soleymani CVBM MLLM VLM 66 0 0 09 Apr 2025
LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding Ziyi Wang Haoran Wu Yiming Rong Deyang Jiang Yixin Zhang Y. Zhao Shuang Xu Bo Xu VLM 41 0 0 09 Apr 2025
PaMi-VDPO: Mitigating Video Hallucinations by Prompt-Aware Multi-Instance Video Preference Learning Xinpeng Ding K. Zhang Jinahua Han Lanqing Hong Hang Xu X. Li MLLM VLM 97 0 0 08 Apr 2025
A Large-Scale Analysis on Contextual Self-Supervised Video Representation Learning Akash Kumar Ashlesha Kumar Vibhav Vineet Y. S. Rawat SSL 117 0 0 08 Apr 2025
InstructionBench: An Instructional Video Understanding Benchmark Haiwan Wei Yitian Yuan Xiaohan Lan Wei Ke Lin Ma ELM 29 0 0 07 Apr 2025
Advancing Egocentric Video Question Answering with Multimodal Large Language Models Alkesh Patel Vibhav Chitalia Yinfei Yang 23 0 0 06 Apr 2025
Post-processing for Fair Regression via Explainable SVD Zhiqun Zuo Ding Zhu Mohammad Mahdi Khalili 80 0 0 04 Apr 2025
VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence Hao Li Hao Fei Zechao Hu Zhengwei Yang Zheng Wang 45 0 0 03 Apr 2025
Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards Hanping Zhang Yuhong Guo OffRL 31 0 0 03 Apr 2025
Aligned Better, Listen Better for Audio-Visual Large Language Models Yuxin Guo Shuailei Ma Shijie Ma Xiaoyi Bao Chen-Wei Xie Kecheng Zheng Tingyu Weng Siyang Sun Yun Zheng Wei Zou MLLM AuLLM 58 2 0 02 Apr 2025
Towards Understanding How Knowledge Evolves in Large Vision-Language Models Sudong Wang Y. Zhang Yao Zhu Jianing Li Zizhe Wang Y. Liu Xiangyang Ji 60 0 0 31 Mar 2025
Understanding Co-speech Gestures in-the-wild Sindhu B. Hegde KR Prajwal Taein Kwon Andrew Zisserman SLR 52 0 0 28 Mar 2025
StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion Ziyu Guo Young Yoon Lee Joseph Liu Yizhak Ben-Shabat Victor Zordan Mubbasir Kapadia DiffM VGen 66 0 0 27 Mar 2025
MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion Saron Samuel Dan DeGenaro Jimena Guallar-Blasco Kate Sanders Oluwaseun Eisape ... David Etter Efsun Kayi Matthew Wiesner Kenton W. Murray Reno Kriz 83 0 0 26 Mar 2025
PAVE: Patching and Adapting Video Large Language Models Zhuoming Liu Yiquan Li Khoi Duc Nguyen Yiwu Zhong Yin Li KELM LRM 79 0 0 25 Mar 2025
Can Text-to-Video Generation help Video-Language Alignment? Luca Zanella Massimiliano Mancini Willi Menapace Sergey Tulyakov Yiming Wang Elisa Ricci DiffM VGen 55 0 0 24 Mar 2025
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation Qihui Zhang Munan Ning Zheyuan Liu Yanbo Wang Jiayi Ye Yue Huang Shuo Yang Xiao Chen Y. Song Li Yuan LRM 56 0 0 19 Mar 2025
Universal Scene Graph Generation Shengqiong Wu Hao Fei Tat-Seng Chua 36 0 0 19 Mar 2025
Continual Multimodal Contrastive Learning Xiaohao Liu Xiaobo Xia See-Kiong Ng Tat-Seng Chua CLL 57 0 0 19 Mar 2025
Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds E. Shaar Ariel Shaulov Gal Chechik Lior Wolf VLM 41 0 0 17 Mar 2025
Language-guided Open-world Video Anomaly Detection Zihao Liu Xiaoyu Wu Jianqin Wu Xuxu Wang Linlin Yang 58 0 0 17 Mar 2025
Quantum EigenGame for excited state calculation David Quiroga Jason Han Anastasios Kyrillidis 48 1 0 17 Mar 2025
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis Jonas Belouadi Eddy Ilg M. Keuper Hideki Tanaka Masao Utiyama Raj Dabre Steffen Eger Simone Paolo Ponzetto 50 0 0 14 Mar 2025
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? Yuanxin Liu Rui Zhu Shuhuai Ren Jiacong Wang Haoyuan Guo Xu Sun Lu Jiang 77 1 0 13 Mar 2025
Long-Video Audio Synthesis with Multi-Agent Collaboration Yehang Zhang Xinli Xu Xiaojie Xu L. Liu Y. Chen DiffM VGen 48 0 0 13 Mar 2025
Memory-enhanced Retrieval Augmentation for Long Video Understanding Huaying Yuan Zheng Liu Minhao Qin Hongjin Qian Yan Shu Zhicheng Dou Ji-Rong Wen VOS RALM VLM 78 0 0 12 Mar 2025
Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding Haoyu Zhang Qiaohui Chu Meng Liu Yunxiao Wang Bin Wen Fan Yang Tingting Gao Di Zhang Yaowei Wang Liqiang Nie EgoV 68 0 0 12 Mar 2025
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model Ali Vosoughi Dimitra Emmanouilidou H. Gamper 50 0 0 12 Mar 2025
Continual Learning for Multiple Modalities Hyundong Jin Eunwoo Kim CLL 59 0 0 11 Mar 2025
Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance Jiayi Zhao Fei Teng Kai Luo Guoqiang Zhao Z. Li Xu Zheng Kailun Yang VLM 77 3 0 04 Mar 2025
HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization Zitang Zhou Ke Mei Yu Lu Tianyi Wang Fengyun Rao 83 2 0 03 Mar 2025
SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models J. Zhang Xuan Yang T. Wang Yu Yao Aleksandr Petiushko B. Li 33 0 0 28 Feb 2025
Can Hallucination Correction Improve Video-Language Alignment? Lingjun Zhao Mingyang Xie Paola Cascante-Bonilla Hal Daumé III Kwonjoon Lee HILM VLM 57 0 0 20 Feb 2025
Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning Rui Zhao Qirui Yuan Jinyu Li Haofeng Hu Yun Li Chengyuan Zheng Fei Gao LRM 44 3 0 19 Feb 2025
Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning Yuqi Pang Bowen Yang Haoqin Tu Yun Cao Zeyu Zhang LRM MLLM 64 0 0 17 Feb 2025
Uni-Retrieval: A Multi-Style Retrieval Framework for STEM's Education Yanhao Jia Xinyi Wu Hao Li Qinglin Zhang Yuxiao Hu Shuai Zhao Wenqi Fan 46 2 0 09 Feb 2025
TEOChat: A Large Vision-Language Assistant for Temporal Earth Observation Data Jeremy Irvin Emily Ruoyu Liu Joyce Chuyi Chen Ines Dormoy Jinyoung Kim Samar Khanna Zhuo Zheng Stefano Ermon MLLM VLM 50 4 0 28 Jan 2025
The "Law" of the Unconscious Contrastive Learner: Probabilistic Alignment of Unpaired Modalities Yongwei Che Benjamin Eysenbach 31 1 0 20 Jan 2025
VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning Ji Soo Lee Jongha Kim Jeehye Na Jinyoung Park H. Kim VGen 36 0 0 12 Jan 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 79 2 0 10 Jan 2025
MLVU: Benchmarking Multi-task Long Video Understanding Junjie Zhou Yan Shu Bo Zhao Boya Wu Zhengyang Liang ... Xi Yang Y. Xiong Bo Zhang Tiejun Huang Zheng Liu VLM 56 33 0 03 Jan 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin H. Li Li Yuan Shuicheng Yan Jie Chen 45 1 0 31 Dec 2024