Seeing voices and hearing voices: learning discriminative embeddings
using cross-modal self-supervision

Seeing voices and hearing voices: learning discriminative embeddings using cross-modal self-supervision

29 April 2020

Joon Son Chung

Papers citing "Seeing voices and hearing voices: learning discriminative embeddings using cross-modal self-supervision"

18 / 18 papers shown

Title
Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment Arda Senocak H. Ryu Junsik Kim Tae-Hyun Oh Hanspeter Pfister Joon Son Chung 38 3 0 18 Jul 2024
Sound Source Localization is All about Cross-Modal Alignment Arda Senocak H. Ryu Junsik Kim Tae-Hyun Oh Hanspeter Pfister Joon Son Chung 36 18 0 19 Sep 2023
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision Xubo Liu Egor Lakomkin Konstantinos Vougioukas Pingchuan Ma Honglie Chen ... Niko Moritz J. Kolár Stavros Petridis M. Pantic Christian Fuegen 52 19 0 30 Mar 2023
Jointly Learning Visual and Auditory Speech Representations from Raw Data A. Haliassos Pingchuan Ma Rodrigo Mira Stavros Petridis M. Pantic SSL 45 49 0 12 Dec 2022
MarginNCE: Robust Sound Localization with a Negative Margin Sooyoung Park Arda Senocak Joon Son Chung SSL 27 13 0 03 Nov 2022
Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection A. Haliassos Rodrigo Mira Stavros Petridis M. Pantic CVBM 40 126 0 18 Jan 2022
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction Bowen Shi Wei-Ning Hsu Kushal Lakhotia Abdel-rahman Mohamed SSL 55 306 0 05 Jan 2022
Bootstrap Equilibrium and Probabilistic Speaker Representation Learning for Self-supervised Speaker Verification Sung Hwan Mun Min Hyun Han Dongjune Lee Jihwan Kim N. Kim SSL 43 3 0 16 Dec 2021
Self-Supervised Speaker Verification with Simple Siamese Network and Self-Supervised Regularization Mufan Sang Haoqi Li F. Liu Andrew O. Arnold Li Wan SSL 16 40 0 08 Dec 2021
Neural Dubber: Dubbing for Videos According to Scripts Chenxu Hu Qiao Tian Tingle Li Yuping Wang Yuxuan Wang Hang Zhao DiffM VGen 36 39 0 15 Oct 2021
Look Who's Talking: Active Speaker Detection in the Wild You Jin Kim Hee-Soo Heo Soyeon Choe Soo-Whan Chung Yoohwan Kwon Bong-Jin Lee Youngki Kwon Joon Son Chung 49 20 0 17 Aug 2021
LiRA: Learning Visual Speech Representations from Audio through Self-supervision Pingchuan Ma Rodrigo Mira Stavros Petridis Björn W. Schuller M. Pantic SSL 24 53 0 16 Jun 2021
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 196 199 0 08 Jan 2021
Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning Wei Xia Chunlei Zhang Chao Weng Meng Yu Dong Yu SSL 20 78 0 13 Dec 2020
Unsupervised Representation Learning for Speaker Recognition via Contrastive Equilibrium Learning Sung Hwan Mun Woohyun Kang Min Hyun Han N. Kim SSL 49 21 0 22 Oct 2020
Augmentation adversarial training for self-supervised speaker recognition Jaesung Huh Hee-Soo Heo Jingu Kang Shinji Watanabe Joon Son Chung SSL 48 76 0 23 Jul 2020
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 266 2,238 0 14 Jun 2018
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 185 784 0 16 Nov 2016