Multimodal Attention Fusion for Target Speaker Extraction

Spoken Language Technology Workshop (SLT), 2021

2 February 2021

Papers citing "Multimodal Attention Fusion for Target Speaker Extraction"

17 / 17 papers shown

Two-stage Audio-Visual Target Speaker Extraction System for Real-Time Processing On Edge Device

168

28 May 2025

Plug-and-Play Co-Occurring Face Attention for Robust Audio-Visual Speaker Extraction

226

27 May 2025

Listen to Extract: Onset-Prompted Target Speaker Extraction

317

08 May 2025

Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining

285

06 Jan 2025

Look Once to Hear: Target Speech Hearing with Noisy ExamplesInternational Conference on Human Factors in Computing Systems (CHI), 2024

333

10 May 2024

Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention

Ruijie Tao

Xinyuan Qian

Yidi Jiang

Junjie Li

Jiadong Wang

Haizhou Li

320

29 Apr 2024

Conditional Diffusion Model for Target Speaker Extraction

Theodor Nguyen

Guangzhi Sun

Xianrui Zheng

Chao Zhang

0031 Philip C. Woodland

DiffM

217

07 Oct 2023

Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and RecognitionIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2023

Guinan Li

Jiajun Deng

Mengzhe Geng

Zengrui Jin

Tianzi Wang

Shujie Hu

Mingyu Cui

Helen M. Meng

Xunying Liu

164

06 Jul 2023

AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker ExtractionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Jun Chen

Zhiyong Wu

Yujun Wang

Helen M. Meng

234

25 Jun 2023

Audio-Visual Speech Enhancement With Selective Off-Screen Speech ExtractionEuropean Signal Processing Conference (EUSIPCO), 2023

Tomoya Yoshinaga

Keitaro Tanaka

Shigeo Morishima

190

10 Jun 2023

Neural Target Speech Extraction: An OverviewIEEE Signal Processing Magazine (IEEE Signal Process. Mag.), 2023

194

134

31 Jan 2023

Anchored Speech Recognition with Neural TransducersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Ozlem Kalinli

240

20 Oct 2022

ConceptBeam: Concept Driven Target Speech ExtractionACM Multimedia (ACM MM), 2022

165

25 Jul 2022

Dual-Path Cross-Modal Attention for better Audio-Visual Speech ExtractionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Zhongweiyang Xu

Xulin Fan

M. Hasegawa-Johnson

141

09 Jul 2022

Strategies to Improve Robustness of Target Speech Extraction to Enrollment VariationsInterspeech (Interspeech), 2022

110

16 Jun 2022

VoViT: Low Latency Graph-based Audio-Visual Voice Separation TransformerEuropean Conference on Computer Vision (ECCV), 2022

275

08 Mar 2022

USEV: Universal Speaker Extraction with Visual Cue

Zexu Pan

Meng Ge

Haizhou Li

259

30 Sep 2021