Time Domain Audio Visual Speech Separation

7 April 2019

Jian Wu

Lei Xie

Papers citing "Time Domain Audio Visual Speech Separation"

25 / 25 papers shown

Title
CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization Detao Bai Zhiheng Ma Xihan Wei Liefeng Bo 141 0 0 06 May 2025
Reading to Listen at the Cocktail Party: Multi-Modal Speech Separation Akam Rahimi Triantafyllos Afouras Andrew Zisserman 40 28 0 02 Jan 2025
TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion Samuel Pegg Kai Li Xiaolin Hu 32 1 0 25 Jan 2024
Audio-visual video-to-speech synthesis with synthesized input audio Triantafyllos Kefalas Yannis Panagakis M. Pantic VGen DiffM 38 1 0 31 Jul 2023
AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker Extraction Jiuxin Lin X. Cai Heinrich Dinkel Jun Chen Zhiyong Yan Yongqing Wang Junbo Zhang Zhiyong Wu Yujun Wang Helen M. Meng 22 21 0 25 Jun 2023
RadioSES: mmWave-Based Audioradio Speech Enhancement and Separation System M. Z. Ozturk Chenshu Wu Beibei Wang Min Wu K. Liu 27 20 0 14 Apr 2022
Audio-visual multi-channel speech separation, dereverberation and recognition Guinan Li Jianwei Yu Jiajun Deng Xunying Liu Helen Meng 19 7 0 05 Apr 2022
A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker Extraction Zexu Pan Meng Ge Haizhou Li 21 17 0 31 Mar 2022
Speaker Extraction with Co-Speech Gestures Cue Zexu Pan Xinyuan Qian Haizhou Li SLR 21 26 0 31 Mar 2022
VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer Juan F. Montesinos V. S. Kadandale G. Haro ViT 23 19 0 08 Mar 2022
VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic Voice Over Junchen Lu Berrak Sisman Rui Liu Mingyang Zhang Haizhou Li DiffM 34 19 0 07 Oct 2021
USEV: Universal Speaker Extraction with Visual Cue Zexu Pan Meng Ge Haizhou Li 34 41 0 30 Sep 2021
A cappella: Audio-visual Singing Voice Separation Juan F. Montesinos V. S. Kadandale G. Haro 38 16 0 20 Apr 2021
Multi-Channel Automatic Speech Recognition Using Deep Complex Unet Yuxiang Kong Jian Wu Quandong Wang Peng Gao Weiji Zhuang Yujun Wang Lei Xie 10 8 0 18 Nov 2020
Speaker Separation Using Speaker Inventories and Estimated Speech Peidong Wang Zhuo Chen DeLiang Wang Jinyu Li Jiawei Liu 38 11 0 20 Oct 2020
Correlating Subword Articulation with Lip Shapes for Embedding Aware Audio-Visual Speech Enhancement Hang Chen Jun Du Yu Hu Lirong Dai Baocai Yin Chin-Hui Lee 28 19 0 21 Sep 2020
Exploring the time-domain deep attractor network with two-stream architectures in a reverberant environment Hangting Chen Pengyuan Zhang 11 6 0 01 Jul 2020
Audio-visual Multi-channel Recognition of Overlapped Speech Jianwei Yu Bo Wu R. Yu Shi-Xiong Zhang Lianwu Chen Yong Xu. Meng Yu Dan Su Dong Yu Xunying Liu Helen Meng 16 19 0 18 May 2020
Multimodal Target Speech Separation with Voice and Face References Leyuan Qu C. Weber S. Wermter CVBM 19 19 0 17 May 2020
SpEx+: A Complete Time Domain Speaker Extraction Network Meng Ge Chenglin Xu Longbiao Wang Chng Eng Siong J. Dang Haizhou Li 27 144 0 10 May 2020
Neural Spatio-Temporal Beamformer for Target Speech Separation Yong-mei Xu Meng Yu Shi-Xiong Zhang Lianwu Chen Chao Weng Jianming Liu Dong Yu 23 41 0 08 May 2020
Audio-visual Recognition of Overlapped speech for the LRS2 dataset Jianwei Yu Shi-Xiong Zhang Jian Wu Shahram Ghorbani Bo Wu Shiyin Kang Shansong Liu Xunying Liu Helen Meng Dong Yu 26 72 0 06 Jan 2020
Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures Jun Wang Jie Chen Dan Su Lianwu Chen Meng Yu Y. Qian Dong Yu 46 90 0 24 Jul 2018
End-to-End Speech Separation with Unfolded Iterative Phase Reconstruction Zhong-Qiu Wang Jonathan Le Roux DeLiang Wang J. Hershey 96 123 0 26 Apr 2018
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 167 784 0 16 Nov 2016