v1v2 (latest)

AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection

5 January 2019

Arkadiusz Stopczynski

Papers citing "AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection"

39 / 89 papers shown

End-to-End Active Speaker DetectionEuropean Conference on Computer Vision (ECCV), 2022

Juan Carlos León Alcázar

M. Cordes

Chen Zhao

Guohao Li

288

27 Mar 2022

Audio visual character profiles for detecting background characters in entertainment media

Rahul Sharma

Shrikanth Narayanan

140

21 Mar 2022

Visually Supervised Speaker Detection and Localization via Microphone ArrayIEEE International Workshop on Multimedia Signal Processing (MMSP), 2021

Davide Berghi

A. Hilton

Philip J. B. Jackson

201

07 Mar 2022

$Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement$

Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech EnhancementIEEE transactions on multimedia (IEEE TMM), 2022

Jun Xiong

Can Ma

Peng Zhang

Lei Xie

Wei Huang

Yufei Zha

199

04 Mar 2022

Data standardization for robust lip syncIEEE International Conference on Multimedia and Expo (ICME), 2022

C. Wang

259

13 Feb 2022

Egocentric Deep Multi-Channel Audio-Visual Active Speaker LocalizationComputer Vision and Pattern Recognition (CVPR), 2022

239

06 Jan 2022

Learning Spatial-Temporal Graphs for Active Speaker Detection

202

02 Dec 2021

AVA-AVD: Audio-Visual Speaker Diarization in the WildACM Multimedia (MM), 2021

432

29 Nov 2021

Structure from Silence: Learning Scene Structure from Ambient SoundConference on Robot Learning (CoRL), 2021

Ziyang Chen

Xixi Hu

Andrew Owens

192

10 Nov 2021

Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos

Bing Li

146

05 Nov 2021

A trained humanoid robot can perform human-like crossmodal social attention and conflict resolutionInternational Journal of Social Robotics (JSR), 2021

442

02 Nov 2021

Sub-word Level Lip Reading With Visual Attention

Prajwal K R

Triantafyllos Afouras

Andrew Zisserman

240

112

14 Oct 2021

Ego4D: Around the World in 3,000 Hours of Egocentric Video

...

Antonio Torralba

Mingfei Yan

1.0K

1,486

13 Oct 2021

FaVoA: Face-Voice Association Favours Ambiguous Speaker DetectionInternational Conference on Artificial Neural Networks (ICANN), 2021

336

01 Sep 2021

Look Who's Talking: Active Speaker Detection in the Wild

222

17 Aug 2021

The Right to Talk: An Audio-Visual Transformer ApproachIEEE International Conference on Computer Vision (ICCV), 2021

Bhiksha Raj

Ngan Le

Khoa Luu

223

06 Aug 2021

UniCon: Unified Context Network for Robust Active Speaker DetectionACM Multimedia (ACM MM), 2021

164

05 Aug 2021

Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker DetectionACM Multimedia (ACM MM), 2021

Ruijie Tao

Zexu Pan

Rohan Kumar Das

Xinyuan Qian

Mike Zheng Shou

Haizhou Li

208

218

14 Jul 2021

How to Design a Three-Stage Architecture for Audio-Visual Active Speaker Detection in the WildIEEE International Conference on Computer Vision (ICCV), 2021

251

07 Jun 2021

Active Speaker Detection as a Multi-Objective Optimization with Uncertainty-based Multimodal FusionInterspeech (Interspeech), 2021

183

07 Jun 2021

APES: Audiovisual Person Search in Untrimmed Video

Juan Carlos León Alcázar

132

03 Jun 2021

ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation LearningIEEE International Conference on Computer Vision (ICCV), 2021

349

26 Jan 2021

MAAS: Multi-modal Assignation for Active Speaker DetectionIEEE International Conference on Computer Vision (ICCV), 2021

Juan Carlos León Alcázar

Fabian Caba Heilbron

Ali K. Thabet

Guohao Li

354

11 Jan 2021

Large-scale multilingual audio visual dubbing

...

154

06 Nov 2020

Muse: Multi-modal target speaker extraction with visual cues

Zexu Pan

Ruijie Tao

Chenglin Xu

Haizhou Li

313

15 Oct 2020

HAA500: Human-Centric Atomic Action Dataset with Curated VideosIEEE International Conference on Computer Vision (ICCV), 2020

219

11 Sep 2020

Self-Supervised Learning of Audio-Visual Objects from VideoEuropean Conference on Computer Vision (ECCV), 2020

Triantafyllos Afouras

Andrew Owens

Joon Son Chung

Andrew Zisserman

SSL

243

278

10 Aug 2020

A Unified Framework for Shot Type Classification Based on Subject Centric LensEuropean Conference on Computer Vision (ECCV), 2020

Linning Xu

227

08 Aug 2020

Online Multi-modal Person Search in VideosEuropean Conference on Computer Vision (ECCV), 2020

Linning Xu

204

08 Aug 2020

MovieNet: A Holistic Dataset for Movie Understanding

338

285

21 Jul 2020

Counting Out Time: Class Agnostic Video Repetition Counting in the Wild

200

127

27 Jun 2020

Rescaling Egocentric VisionInternational Journal of Computer Vision (IJCV), 2020

Dima Damen

...

518

586

23 Jun 2020

Active Speakers in Context

Juan Carlos León Alcázar

134

20 May 2020

A Local-to-Global Approach to Multi-modal Movie Scene SegmentationComputer Vision and Pattern Recognition (CVPR), 2020

Linning Xu

210

127

06 Apr 2020

Cross modal video representations for weakly supervised active speaker localizationIEEE transactions on multimedia (TMM), 2020

Rahul Sharma

Krishna Somandepalli

Shrikanth Narayanan

183

09 Mar 2020

Bio-Inspired Modality Fusion for Active Speaker DetectionApplied Sciences (Appl. Sci.), 2020

Gustavo Assunção

Nuno Gonccalves

Paulo Menezes

142

28 Feb 2020

Self-supervised learning for audio-visual speaker diarizationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

143

13 Feb 2020

Multimodal active speaker detection and virtual cinematography for video conferencingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

189

10 Feb 2020

Deep Audio-Visual Learning: A SurveyInternational Journal of Automation and Computing (IJAC), 2020

223

178

14 Jan 2020