v1v2 (latest)

Perfect match: Improved cross-modal embeddings for audio-visual synchronisation

21 September 2018

Soo-Whan Chung

Joon Son Chung

Hong-Goo Kang

ArXiv (abs)PDF HTML

Papers citing "Perfect match: Improved cross-modal embeddings for audio-visual synchronisation"

50 / 78 papers shown

Seeing What You Say: Expressive Image Generation from Speech

236

05 Nov 2025

Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm

...

171

05 Aug 2025

Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation

196

28 Jul 2025

ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization

192

14 Jul 2025

UniSync: A Unified Framework for Audio-Visual Synchronization

305

20 Mar 2025

DETECLAP: Enhancing Audio-Visual Representation Learning with Object InformationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

187

18 Sep 2024

Interpretable Convolutional SyncNet

291

02 Sep 2024

Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization

Luyao Cheng

Hui Wang

Siqi Zheng

Yafeng Chen

Rongjie Huang

Qinglin Zhang

Qian Chen

Xihao Li

220

22 Aug 2024

A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection

Kyungbok Lee

You Zhang

Zhiyao Duan

348

20 Jun 2024

Audio-Visual Talker Localization in Video for Spatial Sound Reproduction

Davide Berghi

Philip J. B. Jackson

222

01 Jun 2024

Audio-Synchronized Visual AnimationEuropean Conference on Computer Vision (ECCV), 2024

Shentong Mo

242

08 Mar 2024

Pretext Training Algorithms for Event Sequence Data

158

16 Feb 2024

Synchformer: Efficient Synchronization from Sparse Cues

Vladimir E. Iashin

Weidi Xie

Esa Rahtu

Andrew Zisserman

242

29 Jan 2024

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the WildInternational Journal of Computer Vision (IJCV), 2024

Zhi-Song Liu

Robin Courant

Vicky Kalogeiton

345

08 Jan 2024

GestSync: Determining who is speaking without a talking headBritish Machine Vision Conference (BMVC), 2023

Sindhu B. Hegde

Andrew Zisserman

157

08 Oct 2023

Audio-driven Talking Face Generation with Stabilized Synchronization LossEuropean Conference on Computer Vision (ECCV), 2023

414

18 Jul 2023

Backchannel Detection and Agreement Estimation from Video with Transformer NetworksIEEE International Joint Conference on Neural Network (IJCNN), 2023

A. Amer

Chirag Bhuvaneshwara

G. Addluri

Mohammed Maqsood Shaik

Vedant Bonde

Philippe Muller

225

02 Jun 2023

ModEFormer: Modality-Preserving Embedding for Audio-Video Synchronization using TransformersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Akash Gupta

Rohun Tripathi

Won-Kap Jang

218

21 Mar 2023

WASD: A Wilder Active Speaker Detection DatasetIEEE Transactions on Biometrics Behavior and Identity Science (TBBIS), 2023

177

09 Mar 2023

Self-Supervised Video Forensics by Audio-Visual Anomaly DetectionComputer Vision and Pattern Recognition (CVPR), 2023

Chao Feng

Ziyang Chen

Andrew Owens

272

112

04 Jan 2023

Jointly Learning Visual and Auditory Speech Representations from Raw DataInternational Conference on Learning Representations (ICLR), 2022

309

12 Dec 2022

Talking Head Generation with Probabilistic Audio-to-Visual Diffusion PriorsIEEE International Conference on Computer Vision (ICCV), 2022

213

07 Dec 2022

SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip MemoryAAAI Conference on Artificial Intelligence (AAAI), 2022

279

103

02 Nov 2022

Multimodal Transformer Distillation for Audio-Visual SynchronizationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Haibin Wu

155

27 Oct 2022

Towards Effective Image Manipulation Detection with Proposal Contrastive Learning

169

16 Oct 2022

Sparse in Space and Time: Audio-visual Synchronisation with Trainable SelectorsBritish Machine Vision Conference (BMVC), 2022

Vladimir E. Iashin

Weidi Xie

Esa Rahtu

Andrew Zisserman

149

13 Oct 2022

Learning State-Aware Visual Representations from Audible InteractionsNeural Information Processing Systems (NeurIPS), 2022

224

27 Sep 2022

Lip-to-Speech Synthesis for Arbitrary Speakers in the WildACM Multimedia (ACM MM), 2022

Sindhu B. Hegde

Prajwal K R

Rudrabha Mukhopadhyay

Vinay P. Namboodiri

C. V. Jawahar

224

01 Sep 2022

Extreme-scale Talking-Face Video Upsampling with Audio-Visual PriorsACM Multimedia (ACM MM), 2022

Sindhu B. Hegde

Rudrabha Mukhopadhyay

Vinay P. Namboodiri

C. V. Jawahar

CVBM

178

17 Aug 2022

End-To-End Audiovisual Feature Fusion for Active Speaker DetectionInternational Conference on Digital Image Processing (ICDIP), 2022

159

27 Jul 2022

Deep Learning for Visual Speech Analysis: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

321

22 May 2022

End-to-End Multi-Person Audio/Visual Automatic Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

136

11 May 2022

A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active Speaker SelectionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021

Otavio Braga

Olivier Siohan

185

11 May 2022

Best of Both Worlds: Multi-task Audio-Visual Automatic Speech Recognition and Active Speaker DetectionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Otavio Braga

Olivier Siohan

CVBM

153

10 May 2022

VocaLiST: An Audio-Visual Synchronisation Model for Lips and VoicesInterspeech (Interspeech), 2022

V. S. Kadandale

Juan F. Montesinos

G. Haro

230

05 Apr 2022

Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face VideoIEEE International Conference on Computer Vision (ICCV), 2021

179

04 Apr 2022

Speaker Extraction with Co-Speech Gestures CueIEEE Signal Processing Letters (SPL), 2022

Zexu Pan

Xinyuan Qian

Haizhou Li

SLR

176

31 Mar 2022

End to End Lip Synchronization with a Temporal AutoEncoderIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2020

Yoav Shalev

Lior Wolf

30 Mar 2022

Learning Contextually Fused Audio-visual Representations for Audio-visual Speech RecognitionInternational Conference on Information Photonics (ICIP), 2022

270

15 Feb 2022

Data standardization for robust lip syncIEEE International Conference on Multimedia and Expo (ICME), 2022

C. Wang

259

13 Feb 2022

Leveraging Real Talking Faces via Self-Supervision for Robust Forgery DetectionComputer Vision and Pattern Recognition (CVPR), 2022

385

173

18 Jan 2022

End-to-end speaker diarization with transformer

159

14 Dec 2021

LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading

Leyuan Qu

C. Weber

S. Wermter

255

09 Dec 2021

Audio-Visual Synchronisation in the wild

Honglie Chen

Weidi Xie

Triantafyllos Afouras

Arsha Nagrani

Andrea Vedaldi

Andrew Zisserman

200

08 Dec 2021

AVA-AVD: Audio-Visual Speaker Diarization in the WildACM Multimedia (MM), 2021

426

29 Nov 2021

Structure from Silence: Learning Scene Structure from Ambient SoundConference on Robot Learning (CoRL), 2021

Ziyang Chen

Xixi Hu

Andrew Owens

178

10 Nov 2021

Look Who's Talking: Active Speaker Detection in the Wild

209

17 Aug 2021

UniCon: Unified Context Network for Robust Active Speaker DetectionACM Multimedia (ACM MM), 2021

154

05 Aug 2021

Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker DetectionACM Multimedia (ACM MM), 2021

Ruijie Tao

Zexu Pan

Rohan Kumar Das

Xinyuan Qian

Mike Zheng Shou

Haizhou Li

208

218

14 Jul 2021

Active Speaker Detection as a Multi-Objective Optimization with Uncertainty-based Multimodal FusionInterspeech (Interspeech), 2021

164

07 Jun 2021