Audio-Visual Activity Guided Cross-Modal Identity Association for Active
Speaker Detection

Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection

1 December 2022

Shrikanth Narayanan

Papers citing "Audio-Visual Activity Guided Cross-Modal Identity Association for Active Speaker Detection"

6 / 6 papers shown

Title
CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection Andrea Appiani Cigdem Beyan CLIP VLM 23 0 0 18 Oct 2024
Audio-Visual Speaker Diarization: Current Databases, Approaches and Challenges Victoria Mingote Alfonso Ortega A. Miguel Eduardo Lleida 22 0 0 09 Sep 2024
Robust Active Speaker Detection in Noisy Environments Siva Sai Nagender Vasireddy Chenxu Zhang Xiaohu Guo Yapeng Tian 19 0 0 27 Mar 2024
MAAS: Multi-modal Assignation for Active Speaker Detection Juan Carlos León Alcázar Fabian Caba Heilbron Ali K. Thabet Bernard Ghanem 55 51 0 11 Jan 2021
pyannote.audio: neural building blocks for speaker diarization H. Bredin Ruiqing Yin Juan Manuel Coria G. Gelly Pavel Korshunov Marvin Lavechin D. Fustes Hadrien Titeux Wassim Bouaziz Marie-Philippe Gill 175 307 0 04 Nov 2019
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 214 2,224 0 14 Jun 2018