AlignNet: A Unifying Approach to Audio-Visual Alignment

IEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2020

12 February 2020

Jianren Wang

Zhaoyuan Fang

Hang Zhao

ArXiv (abs)PDF HTML

Papers citing "AlignNet: A Unifying Approach to Audio-Visual Alignment"

16 / 16 papers shown

Effectively obtaining acoustic, visual and textual data from videos

Jorge E. León

Miguel Carrasco

VGen

178

06 Sep 2025

ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization

232

14 Jul 2025

A Survey on Cross-Modal Interaction Between Music and Multimodal Data

437

17 Apr 2025

Enhancing Explainability with Multimodal Context Representations for Smarter Robots

Anargh Viswanath

Lokesh Veeramacheneni

Hendrik Buschmeier

193

28 Feb 2025

USpeech: Ultrasound-Enhanced Speech with Minimal Human Effort via Cross-Modal SynthesisProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2024

267

29 Oct 2024

PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion ScoresEuropean Conference on Computer Vision (ECCV), 2024

Lucas Goncalves

Prashant Mathur

Chandrashekhar Lavania

Metehan Cekic

Marcello Federico

Kyu J. Han

223

10 Apr 2024

Cross-modal Cognitive Consensus guided Audio-Visual SegmentationIEEE transactions on multimedia (IEEE TMM), 2023

Zhaofeng Shi

Qingbo Wu

Fanman Meng

Linfeng Xu

Hongliang Li

VOS

495

10 Oct 2023

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

341

24 Jul 2023

Video-to-Music Recommendation using Temporal Alignment of SegmentsIEEE transactions on multimedia (IEEE TMM), 2023

213

12 Jun 2023

Long-Term Rhythmic Video SoundtrackerInternational Conference on Machine Learning (ICML), 2023

Yu Qiao

393

02 May 2023

MLink: Linking Black-Box Models from Multiple Domains for Collaborative InferenceIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

383

28 Sep 2022

Learning Music-Dance Representations through Explicit-Implicit Rhythm SynchronizationIEEE transactions on multimedia (IEEE TMM), 2022

Jiashuo Yu

Junfu Pu

Ying Cheng

Rui Feng

Ying Shan

316

07 Jul 2022

Audio-Visual Fusion Layers for Event Type Aware Video Recognition

In So Kweon

189

12 Feb 2022

TriBERT: Full-body Human-centric Audio-visual Representation Learning for Visual Sound Separation

165

26 Oct 2021

Visual Speech Enhancement Without A Real Visual StreamIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2020

Sindhu B. Hegde

Prajwal K R

Rudrabha Mukhopadhyay

Vinay P. Namboodiri

C. V. Jawahar

DiffM

202

20 Dec 2020

Motion Prediction in Visual Object Tracking

Jianren Wang

Yihui He

175

01 Jul 2020