Audio-Visual Event Localization in Unconstrained Videos

23 March 2018

Yapeng Tian

Jing Shi

Bochen Li

Zhiyao Duan

Chenliang Xu

ArXiv (abs)PDF HTML

Papers citing "Audio-Visual Event Localization in Unconstrained Videos"

50 / 301 papers shown

Multi-Modal Scene Graph with Kolmogorov-Arnold Experts for Audio-Visual Question Answering

160

28 Nov 2025

MoLT: Mixture of Layer-Wise Tokens for Efficient Audio-Visual Learning

27 Nov 2025

Distilling Cross-Modal Knowledge via Feature Disentanglement

142

25 Nov 2025

Decoupled Audio-Visual Dataset Distillation

134

22 Nov 2025

R-AVST: Empowering Video-LLMs with Fine-Grained Spatio-Temporal Reasoning in Complex Audio-Visual Scenarios

261

21 Nov 2025

Real-Time Inference for Distributed Multimodal Systems under Communication Delay Uncertainty

Victor Croisfelt

João Henrique Inacio de Souza

Shashi Raj Pandey

B. Soret

P. Popovski

161

20 Nov 2025

Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

...

311

19 Nov 2025

PrAda-GAN: A Private Adaptive Generative Adversarial Network with Bayes Network Structure

124

11 Nov 2025

Mitigating Modality Imbalance in Multi-modal Learning via Multi-objective Optimization

Heshan Devaka Fernando

226

10 Nov 2025

Multi-Modal Continual Learning via Cross-Modality Adapters and Representation Alignment with Knowledge Preservation

341

10 Nov 2025

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

190

30 Oct 2025

Modality-Aware SAM: Sharpness-Aware-Minimization Driven Gradient Modulation for Harmonized Multimodal Learning

139

28 Oct 2025

Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding

118

23 Oct 2025

AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering

112

21 Oct 2025

Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning

Zhaocheng Liu

Zhiwen Yu

Xiaoqing Liu

200

20 Oct 2025

Not in Sync: Unveiling Temporal Bias in Audio Chat Models

116

14 Oct 2025

Beyond Grid-Locked Voxels: Neural Response Functions for Continuous Brain Encoding

143

07 Oct 2025

Preserving Cross-Modal Stability for Visual Unlearning in Multimodal Scenarios

Jinghan Xu Yuyang Zhang Qixuan Cai Jiancheng Chen Keqiu Li

28 Sep 2025

High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling

147

26 Sep 2025

Shaping Initial State Prevents Modality Competition in Multi-modal Fusion: A Two-stage Scheduling Framework via Fast Partial Information Decomposition

138

25 Sep 2025

Learning from Silence and Noise for Visual Sound Source Localization

164

29 Aug 2025

VGGSounder: Audio-Visual Evaluations for Foundation Models

Daniil Zverev

Thaddäus Wiedemer

Christian Schroeder de Witt

231

11 Aug 2025

ASAudio: A Survey of Advanced Spatial Audio Research

198

08 Aug 2025

CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization

136

06 Aug 2025

Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting

Yuyang Liu

Qiuhe Hong

Linlan Huang

Alexandra Gomez-Villa

212

06 Aug 2025

Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation

182

06 Aug 2025

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video

Yogesh Kulkarni

Pooyan Fazli

OffRL LRM

280

05 Aug 2025

How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Indoor Scenes

Mahnoor Fatima Saad

Ziad Al-Halah

VGen

04 Aug 2025

Hybrid Hypergraph Networks for Multimodal Sequence Data Classification

110

30 Jul 2025

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

321

30 Jul 2025

Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning

215

29 Jul 2025

DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection

107

28 Jul 2025

Improving Multimodal Learning via Imbalanced Learning

Shicai Wei

Chunbo Luo

Yang Luo

203

14 Jul 2025

ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization

183

14 Jul 2025

MUG: Pseudo Labeling Augmented Audio-Visual Mamba Network for Audio-Visual Video Parsing

321

02 Jul 2025

Can Video Large Multimodal Models Think Like Doubters-or Double-Down: A Study on Defeasible Video Entailment

204

27 Jun 2025

Action Dubber: Timing Audible Actions via Inflectional Flow

174

16 Jun 2025

Exploring Audio Cues for Enhanced Test-Time Video Model Adaptation

134

14 Jun 2025

MokA: Multimodal Low-Rank Adaptation for MLLMs

257

05 Jun 2025

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

339

05 Jun 2025

PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling

284

29 May 2025

ZeroSep: Separate Anything in Audio with Zero Training

249

29 May 2025

Spiking Neural Networks with Temporal Attention-Guided Adaptive Fusion for imbalanced Multi-modal Learning

216

20 May 2025

Learning to Highlight Audio by Watching MoviesComputer Vision and Pattern Recognition (CVPR), 2025

257

17 May 2025

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video ParsingComputer Vision and Pattern Recognition (CVPR), 2025

Michael Jeffrey Jones

Moitreya Chatterjee

222

14 May 2025

Audio-visual Event Localization on Portrait Mode Short Videos

303

09 Apr 2025

AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection

311

06 Apr 2025

Aligned Better, Listen Better for Audio-Visual Large Language ModelsInternational Conference on Learning Representations (ICLR), 2025

323

02 Apr 2025

Continual Cross-Modal Generalization

275

01 Apr 2025

Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning

285

26 Mar 2025