Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization

Computer Vision and Pattern Recognition (CVPR), 2022

6 January 2022

ArXiv (abs)PDF HTML Github

Papers citing "Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization"

28 / 28 papers shown

Proactive Hearing Assistants that Isolate Egocentric Conversations

184

14 Nov 2025

Attention-Driven Multimodal Alignment for Long-term Action Quality AssessmentApplied Soft Computing (ASC), 2025

Xin Wang

Peng-Jie Li

Yuan-Yuan Shen

188

29 Jul 2025

SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic BindingComputer Vision and Pattern Recognition (CVPR), 2025

Mingfei Chen

I. D. Gebru

Ishwarya Ananthabhotla

304

08 Apr 2025

egoPPG: Heart Rate Estimation from Eye-Tracking Cameras in Egocentric Systems to Benefit Downstream Vision Tasks

397

28 Feb 2025

SocialMind: LLM-based Proactive AR Social Assistive System with Human-like Perception for In-situ Live InteractionsProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2024

476

05 Dec 2024

AV-PedAware: Self-Supervised Audio-Visual Fusion for Dynamic Pedestrian AwarenessIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2023

610

11 Nov 2024

M-BEST-RQ: A Multi-Channel Speech Foundation Model for Smart GlassesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Ju Lin

...

Ozlem Kalinli

197

17 Sep 2024

Audio-Visual Speaker Diarization: Current Databases, Approaches and Challenges

Victoria Mingote

Alfonso Ortega

A. Miguel

Eduardo Lleida

349

09 Sep 2024

Towards Social AI: A Survey on Understanding Social Interactions

...

392

05 Sep 2024

Spherical World-Locking for Audio-Visual Localization in Egocentric VideosEuropean Conference on Computer Vision (ECCV), 2024

Heeseung Yun

Ruohan Gao

Ishwarya Ananthabhotla

Gunhee Kim

257

09 Aug 2024

Modeling and Driving Human Body Soundfields through Acoustic Primitives

386

18 Jul 2024

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

Zihui Xue

337

13 Jun 2024

Audio-Visual Talker Localization in Video for Spatial Sound Reproduction

Davide Berghi

Philip J. B. Jackson

285

01 Jun 2024

SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos

300

08 Apr 2024

Multimodal Action Quality Assessment

Ling-an Zeng

Wei-Shi Zheng

604

31 Jan 2024

Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization

Davide Berghi

Philip J. B. Jackson

257

21 Dec 2023

The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective

Wenqi Jia

Miao Liu

Hao Jiang

Ishwarya Ananthabhotla

305

20 Dec 2023

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and AudioNeural Information Processing Systems (NeurIPS), 2023

191

01 Nov 2023

Measuring Acoustics with Collaborative Multiple AgentsInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

397

09 Oct 2023

Audio Visual Speaker Localization from EgoCentric Views

311

28 Sep 2023

A Real-Time Active Speaker Detection System Integrating an Audio-Visual Signal with a Spatial Querying MechanismIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

I. Gurvich

Ido Leichter

Dharmendar Reddy Palle

237

15 Sep 2023

An Outlook into the Future of Egocentric VisionInternational Journal of Computer Vision (IJCV), 2023

Dima Damen

345

14 Aug 2023

Learning Spatial Features from Audio-Visual Correspondence in Egocentric VideosComputer Vision and Pattern Recognition (CVPR), 2023

447

10 Jul 2023

Listen to Look into the Future: Audio-Visual Egocentric Gaze AnticipationEuropean Conference on Computer Vision (ECCV), 2023

Bolin Lai

Fiona Ryan

Wenqi Jia

Miao Liu

James M. Rehg

EgoV

450

06 May 2023

Egocentric Auditory Attention Localization in ConversationsComputer Vision and Pattern Recognition (CVPR), 2023

339

28 Mar 2023

Novel-View Acoustic SynthesisComputer Vision and Pattern Recognition (CVPR), 2023

Natalia Neverova

Andrea Vedaldi

322

20 Jan 2023

Chat2Map: Efficient Scene Mapping from Multi-Ego ConversationsComputer Vision and Pattern Recognition (CVPR), 2023

384

04 Jan 2023

Few-Shot Audio-Visual Learning of Environment AcousticsNeural Information Processing Systems (NeurIPS), 2022

322

08 Jun 2022