Self-supervised learning for audio-visual speaker diarization

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

13 February 2020

Papers citing "Self-supervised learning for audio-visual speaker diarization"

14 / 14 papers shown

Quality-Aware End-to-End Audio-Visual Neural Speaker Diarization

232

15 Oct 2024

Audio-Visual Speaker Diarization: Current Databases, Approaches and Challenges

Victoria Mingote

Alfonso Ortega

A. Miguel

Eduardo Lleida

339

09 Sep 2024

Attend-Fusion: Efficient Audio-Visual Fusion for Video Classification

435

26 Aug 2024

Look, Listen and Recognise: Character-Aware Audio-Visual SubtitlingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Bruno Korbar

Jaesung Huh

Andrew Zisserman

270

22 Jan 2024

CAD -- Contextual Multi-modal Alignment for Dynamic AVQAIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

380

25 Oct 2023

Hyperbolic Audio-visual Zero-shot LearningIEEE International Conference on Computer Vision (ICCV), 2023

Mehrtash Harandi

278

24 Aug 2023

Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event ParserNeural Information Processing Systems (NeurIPS), 2023

Yun-hsuan Lai

Yen-Chun Chen

Y. Wang

338

27 May 2023

LoCoNet: Long-Short Context Network for Active Speaker DetectionComputer Vision and Pattern Recognition (CVPR), 2023

Xizi Wang

Feng Cheng

Gedas Bertasius

David J. Crandall

277

19 Jan 2023

Learning in Audio-visual Context: A Review, Analysis, and New Perspective

332

20 Aug 2022

Rethinking Audio-visual Synchronization for Active Speaker DetectionInternational Workshop on Machine Learning for Signal Processing (MLSP), 2022

Abudukelimu Wuerkaixi

You Zhang

Z. Duan

Changshui Zhang

238

21 Jun 2022

Audio Self-supervised Learning: A SurveyPatterns (Patterns), 2022

Shuo Liu

Adria Mallol-Ragolta

Emilia Parada-Cabeleiro

Kun Qian

Bjoern W. Schuller

352

136

02 Mar 2022

Look Who's Talking: Active Speaker Detection in the Wild

295

17 Aug 2021

The Right to Talk: An Audio-Visual Transformer ApproachIEEE International Conference on Computer Vision (ICCV), 2021

Bhiksha Raj

Ngan Le

Khoa Luu

244

06 Aug 2021

UniCon: Unified Context Network for Robust Active Speaker DetectionACM Multimedia (ACM MM), 2021

201

05 Aug 2021