EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy
Communication in Noisy Environments

EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy Communication in Noisy Environments

9 July 2021

Papers citing "EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy Communication in Noisy Environments"

14 / 14 papers shown

Title
M-BEST-RQ: A Multi-Channel Speech Foundation Model for Smart Glasses Yufeng Yang Desh Raj Ju Lin Niko Moritz Junteng Jia ... Egor Lakomkin Yiteng Huang Jacob Donley Jay Mahadeokar Ozlem Kalinli 39 2 0 17 Sep 2024
Audio-Visual Talker Localization in Video for Spatial Sound Reproduction Davide Berghi Philip J. B. Jackson 50 0 0 01 Jun 2024
Audio-Visual Speaker Tracking: Progress, Challenges, and Future Directions Jinzheng Zhao Yong-mei Xu Xinyuan Qian Davide Berghi Peipei Wu Meng Cui Jianyuan Sun Philip J. B. Jackson Wenwu Wang BDL 50 7 0 23 Oct 2023
An Outlook into the Future of Egocentric Vision Chiara Plizzari Gabriele Goletto Antonino Furnari Siddhant Bansal Francesco Ragusa G. Farinella Dima Damen Tatiana Tommasi EgoV 45 38 0 14 Aug 2023
Egocentric Auditory Attention Localization in Conversations Fiona Ryan Hao Jiang Abhinav Shukla James M. Rehg V. Ithapu EgoV 31 16 0 28 Mar 2023
WASD: A Wilder Active Speaker Detection Dataset Tiago Roxo Joana Cabral Costa Pedro R. M. Inácio Hugo Manuel Proença 24 3 0 09 Mar 2023
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement Wei-Ning Hsu Tal Remez Bowen Shi Jacob Donley Yossi Adi DiffM 27 12 0 21 Dec 2022
Tragic Talkers: A Shakespearean Sound- and Light-Field Dataset for Audio-Visual Machine Learning Research Davide Berghi M. Volino Philip J. B. Jackson VGen 23 6 0 04 Dec 2022
Self-supervised Video-centralised Transformer for Video Face Clustering Yujiang Wang Mingzhi Dong Jie Shen Yi-Si Luo Yiming Lin Pingchuan Ma Stavros Petridis Maja Pantic ViT 28 3 0 24 Mar 2022
Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization Hao Jiang Calvin Murdock V. Ithapu EgoV 36 41 0 06 Jan 2022
Robust Self-Supervised Audio-Visual Speech Recognition Bowen Shi Wei-Ning Hsu Abdel-rahman Mohamed 39 90 0 05 Jan 2022
NICE-Beam: Neural Integrated Covariance Estimators for Time-Varying Beamformers Jonah Casebeer Jacob Donley Daniel D. E. Wong Buye Xu Anurag Kumar 27 20 0 08 Dec 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 281 1,026 0 13 Oct 2021
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 266 2,242 0 14 Jun 2018