Conformer-based Target-Speaker Automatic Speech Recognition for
Single-Channel Audio

Conformer-based Target-Speaker Automatic Speech Recognition for Single-Channel Audio

9 August 2023

Krishna C. Puvvada

Vitaly Lavrukhin

Boris Ginsburg

Papers citing "Conformer-based Target-Speaker Automatic Speech Recognition for Single-Channel Audio"

12 / 12 papers shown

Title
Target Speaker ASR with Whisper Alexander Polok Dominik Klement Matthew Wiesner Sanjeev Khudanpur J. Černocký L. Burget 99 1 0 17 Jan 2025
SQ-Whisper: Speaker-Querying based Whisper Model for Target-Speaker ASR Pengcheng Guo Xuankai Chang Hang Lv Shinji Watanabe Lei Xie 61 0 0 07 Dec 2024
Investigation of Speaker Representation for Target-Speaker Speech Processing Takanori Ashihara Takafumi Moriya Shota Horiguchi Junyi Peng Tsubasa Ochiai Marc Delcroix Kohei Matsuura Hiroshi Sato 26 1 0 15 Oct 2024
FedMAC: Tackling Partial-Modality Missing in Federated Learning with Cross-Modal Aggregation and Contrastive Regularization Manh Duong Nguyen Trung Thanh Nguyen Huy Hieu Pham Trong Nghia Hoang Phi Le Nguyen T. T. Huynh 26 1 0 04 Oct 2024
Alignment-Free Training for Transducer-based Multi-Talker ASR Takafumi Moriya Shota Horiguchi Marc Delcroix Ryo Masumura Takanori Ashihara Hiroshi Sato Kohei Matsuura Masato Mimura 31 1 0 30 Sep 2024
META-CAT: Speaker-Informed Speech Embeddings via Meta Information Concatenation for Multi-talker ASR Jinhan Wang Weiqing Wang Kunal Dhawan Taejin Park Myungjong Kim Ivan Medennikov He Huang Nithin Koluguri Jagadeesh Balam Boris Ginsburg 33 0 0 18 Sep 2024
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions Lingwei Meng Shujie Hu Jiawen Kang Zhaoqing Li Yuejiao Wang Wenxuan Wu Xixin Wu Xunying Liu Helen Meng AuLLM 68 1 0 13 Sep 2024
EfficientASR: Speech Recognition Network Compression via Attention Redundancy and Chunk-Level FFN Optimization Jianzong Wang Ziqi Liang Xulong Zhang Ning Cheng Jing Xiao 21 0 0 30 Apr 2024
Extending Whisper with prompt tuning to target-speaker ASR Hao Ma Zhiyuan Peng Mingjie Shao Jing Li Ju Liu VLM 22 12 0 13 Dec 2023
A Glance is Enough: Extract Target Sentence By Looking at A keyword Ying Shi Dong Wang Lantian Li Jiqing Han 17 1 0 09 Oct 2023
AraSpot: Arabic Spoken Command Spotting Mahmoud Salhab H. Harmanani 21 0 0 29 Mar 2023
Streaming Target-Speaker ASR with Neural Transducer Takafumi Moriya Hiroshi Sato Tsubasa Ochiai Marc Delcroix T. Shinozaki 23 21 0 09 Sep 2022