VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer

VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer

8 March 2022

Juan F. Montesinos

V. S. Kadandale

Papers citing "VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer"

16 / 16 papers shown

Title
Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator Minjae Kang Martim Brandão 56 0 0 25 Apr 2025
RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues Tianrui Pan Jie Liu Bohan Wang Jie Tang Gangshan Wu 30 2 0 27 Jul 2024
Multimodal Action Quality Assessment Ling-an Zeng Wei-Shi Zheng 40 11 0 31 Jan 2024
On the Audio Hallucinations in Large Audio-Video Language Models Taichi Nishimura Shota Nakada Masayoshi Kondo VLM 19 5 0 18 Jan 2024
LAVSS: Location-Guided Audio-Visual Spatial Audio Separation Yuxin Ye Wenming Yang Yapeng Tian 16 9 0 31 Oct 2023
3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for Embodied Turn-Taking Prediction Mehdi Fatan Emanuele Mincato Dimitra Pintzou Mariella Dimiccoli 6 1 0 23 Oct 2023
Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation Yiyang Su A. Vosoughi Shijian Deng Yapeng Tian Chenliang Xu 24 4 0 18 Oct 2023
IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation Kai Li Run Yang Fuchun Sun Xiaolin Hu 11 5 0 16 Aug 2023
Speech inpainting: Context-based speech synthesis guided by video Juan F. Montesinos Daniel Michelsanti G. Haro Z. Tan Jesper Jensen 17 3 0 01 Jun 2023
iQuery: Instruments as Queries for Audio-Visual Sound Separation Jiaben Chen Renrui Zhang Dongze Lian Jiaqi Yang Ziyao Zeng Jianbo Shi 8 25 0 07 Dec 2022
VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices V. S. Kadandale Juan F. Montesinos G. Haro 11 23 0 05 Apr 2022
The Right to Talk: An Audio-Visual Transformer Approach Thanh-Dat Truong C. Duong T. D. Vu H. Pham Bhiksha Raj Ngan Le Khoa Luu 52 36 0 06 Aug 2021
A cappella: Audio-visual Singing Voice Separation Juan F. Montesinos V. S. Kadandale G. Haro 38 16 0 20 Apr 2021
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 185 196 0 08 Jan 2021
CSLNSpeech: solving extended speech separation problem with the help of Chinese sign language Jiasong Wu Xuan Li Taotao Li Fanman Meng Youyong Kong Guanyu Yang L. Senhadji Huazhong Shu CVBM 12 0 0 21 Jul 2020
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 214 2,224 0 14 Jun 2018