Audio-Visual Event Localization in Unconstrained Videos

23 March 2018

Yapeng Tian

Jing Shi

Bochen Li

Zhiyao Duan

Chenliang Xu

ArXiv (abs)PDF HTML

Papers citing "Audio-Visual Event Localization in Unconstrained Videos"

50 / 301 papers shown

Siamese Vision Transformers are Scalable Audio-visual Learners

Yan-Bo Lin

Gedas Bertasius

270

28 Mar 2024

Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge

177

26 Mar 2024

Answering Diverse Questions via Text Attached with Key Audio-Visual Clues

Qilang Ye

Zitong Yu

Xin Liu

243

11 Mar 2024

Reframe Anything: LLM Agent for Open World Video Reframing

164

10 Mar 2024

Text-to-Audio Generation Synchronized with Videos

Shentong Mo

Jing Shi

Yapeng Tian

DiffM VGen

196

08 Mar 2024

SPICA: Interactive Video Content Exploration through Augmented Audio Descriptions for Blind or Low-Vision ViewersInternational Conference on Human Factors in Computing Systems (CHI), 2024

227

11 Feb 2024

Multimodal Action Quality Assessment

Ling-an Zeng

Wei-Shi Zheng

510

31 Jan 2024

Audio-Infused Automatic Image Colorization by Exploiting Audio Scene SemanticsInternational Conference on Neural Information Processing (ICONIP), 2024

198

24 Jan 2024

On the Audio Hallucinations in Large Audio-Video Language Models

230

18 Jan 2024

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video RecognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

328

11 Jan 2024

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the WildInternational Journal of Computer Vision (IJCV), 2024

Zhi-Song Liu

Robin Courant

Vicky Kalogeiton

345

08 Jan 2024

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

Wentao Zhu

274

08 Jan 2024

Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization

Davide Berghi

Philip J. B. Jackson

221

21 Dec 2023

Object-aware Adaptive-Positivity Learning for Audio-Visual Question Answering

Meng Wang

215

20 Dec 2023

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic SegmentationAAAI Conference on Artificial Intelligence (AAAI), 2023

Renjie Wu

Hu Wang

Feras Dayoub

Hsiang-Ting Chen

223

14 Dec 2023

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked ModelingComputer Vision and Pattern Recognition (CVPR), 2023

Shentong Mo

Pedro Morgado

254

02 Dec 2023

Centre Stage: Centricity-based Audio-Visual Temporal Action Detection

Hanyuan Wang

Majid Mirmehdi

Dima Damen

Toby Perrett

187

28 Nov 2023

Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video ParsingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Yating Xu

Conghui Hu

Gim Hee Lee

178

14 Nov 2023

Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks

Jieming Zhu

Zhou Zhao

VLM

332

09 Nov 2023

Can CLIP Help Sound Source Localization?IEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Sooyoung Park

Arda Senocak

Joon Son Chung

181

07 Nov 2023

Magmaw: Modality-Agnostic Adversarial Attacks on Machine Learning-Based Wireless Communication SystemsNetwork and Distributed System Security Symposium (NDSS), 2023

Ke Sun

246

01 Nov 2023

LAVSS: Location-Guided Audio-Visual Spatial Audio SeparationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Yuxin Ye

Wenming Yang

Yapeng Tian

220

31 Oct 2023

CAD -- Contextual Multi-modal Alignment for Dynamic AVQAIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

313

25 Oct 2023

Extending Multi-modal Contrastive RepresentationsNeural Information Processing Systems (NeurIPS), 2023

Ziang Zhang

Zhou Zhao

183

13 Oct 2023

Multimodal Variational Auto-encoder based Audio-Visual SegmentationIEEE International Conference on Computer Vision (ICCV), 2023

Yuchao Dai

160

12 Oct 2023

STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized AlignmentInternational Conference on Machine Learning (ICML), 2023

Yunji Kim

288

12 Oct 2023

Deep Video Inpainting Guided by Audio-Visual Self-SupervisionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

204

11 Oct 2023

CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

256

11 Oct 2023

What Makes for Robust Multi-Modal Models in the Face of Missing Modalities?

Hang Zhao

202

10 Oct 2023

Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-AnsweringIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Xiulong Liu

Zhikang Dong

Peng Zhang

219

10 Oct 2023

Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization

Edward Fish

Jon Weinbren

Andrew Gilbert

169

05 Oct 2023

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic AlignmentInternational Conference on Learning Representations (ICLR), 2023

Bin Lin

...

Wei Liu

759

340

03 Oct 2023

Enabling Resource-efficient AIoT System with Cross-level Optimization: A surveyIEEE Communications Surveys and Tutorials (COMST), 2023

292

27 Sep 2023

Sound Source Localization is All about Cross-Modal AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

Joon Son Chung

221

19 Sep 2023

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video SegmentationACM Multimedia (ACM MM), 2023

Lei Chen

258

18 Sep 2023

Class-Incremental Grouping Network for Continual Audio-Visual LearningIEEE International Conference on Computer Vision (ICCV), 2023

Shentong Mo

Weiguo Pian

Yapeng Tian

CLL VLM

195

11 Sep 2023

Text-to-feature diffusion for audio-visual few-shot learning

A. Sophia Koepke

195

07 Sep 2023

Audio-Visual Class-Incremental LearningIEEE International Conference on Computer Vision (ICCV), 2023

Shentong Mo

224

21 Aug 2023

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual ActionsPLoS ONE (PLoS ONE), 2023

Michael Joannou

P. Rotshtein

U. Noppeney

159

18 Aug 2023

Bridging High-Quality Audio and Video via Language for Sound Effects Retrieval from Visual QueriesIEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2023

138

17 Aug 2023

Boosting Multi-modal Model Performance with Adaptive Gradient ModulationIEEE International Conference on Computer Vision (ICCV), 2023

251

15 Aug 2023

Progressive Spatio-temporal Perception for Audio-Visual Question AnsweringACM Multimedia (ACM MM), 2023

Guangyao Li

Wenxuan Hou

Di Hu

249

10 Aug 2023

Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source LocalizationACM Multimedia (ACM MM), 2023

Wei Huang

159

09 Aug 2023

MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using TransformersEuropean Workshop on Visual Information Processing (EUVIP), 2023

Muhammad Bilal Shaikh

Douglas Chai

Syed Mohammed Shamsul Islam

Naveed Akhtar

294

01 Aug 2023

DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion ModelsAsian Conference on Computer Vision (ACCV), 2023

179

31 Jul 2023

PEANUT: A Human-AI Collaborative Tool for Annotating Audio-Visual DataACM Symposium on User Interface Software and Technology (UIST), 2023

234

27 Jul 2023

Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and ModelIEEE Transactions on Image Processing (IEEE TIP), 2023

Peng Wu

Jing Liu

Xiangteng He

Yuxin Peng

Peng Wang

Yanning Zhang

409

24 Jul 2023

Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization

K. Ramakrishnan

148

12 Jul 2023

FTFDNet: Learning to Detect Talking Face Video Manipulation with Tri-Modality Interaction

Wei Huang

199

08 Jul 2023

Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing

Jie Fu

Junyu Gao

Changsheng Xu

265

05 Jul 2023