v1v2 (latest)

Large-Scale Streaming End-to-End Speech Translation with Neural Transducers

Interspeech (Interspeech), 2022

11 April 2022

Papers citing "Large-Scale Streaming End-to-End Speech Translation with Neural Transducers"

27 / 27 papers shown

Title
SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation Chenyang Le Bing Han Jinshun Li Songyong Chen Y. Qian MoE 165 0 0 01 Sep 2025
REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation Nameer Hirschkind Joseph Liu Xiao Yu Xiao Yu 101 0 0 07 Aug 2025
PHRASED: Phrase Dictionary Biasing for Speech Translation Peidong Wang Jian Xue Rui Zhao Junkun Chen Aswin Shanmugam Subramanian Jinyu Li 130 0 0 10 Jun 2025
HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and TranslationInternational Workshop on Spoken Language Translation (IWSLT), 2025 A. Hussein Cihan Xiao Matthew Wiesner Dan Povey Leibny Paola García Sanjeev Khudanpur 101 0 0 02 Jun 2025
Length Aware Speech Translation for Video Dubbing Harveen Chadha Aswin Shanmugam Subramanian Vikas Joshi Shubham Bansal Jian Xue R. Mehta Jinyu Li 143 1 0 31 May 2025
Masked Self-distilled Transducer-based Keyword Spotting with Semi-autoregressive Decoding Yu Xi Xiaoyu Gu Haoyu Li Jun Song Bo Zheng Kai Yu 122 0 0 30 May 2025
Spatial Speech Translation: Translating Across Space With Binaural HearablesInternational Conference on Human Factors in Computing Systems (CHI), 2025 Tuochao Chen Qirui Wang Runlin He Shyam Gollakota 147 2 0 25 Apr 2025
SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech TranslationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Keqi Deng Wenxi Chen Xie Chen P. Woodland 237 2 0 22 Apr 2025
Joint Training And Decoding for Multilingual End-to-End Simultaneous Speech TranslationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 Wuwei Huang Renren Jin Wen Zhang Jian Luan Bin Wang Deyi Xiong 222 1 0 14 Mar 2025
Aligner-Encoders: Self-Attention Transformers Can Be Self-TransducersNeural Information Processing Systems (NeurIPS), 2025 Adam Stooke Rohit Prabhavalkar K. Sim P. M. Mengibar 353 0 0 06 Feb 2025
Transducer Consistency Regularization for Speech to Text ApplicationsSpoken Language Technology Workshop (SLT), 2024 Cindy Tseng Yun Tang Vijendra Raj Apsingekar 194 0 0 09 Oct 2024
CTC-GMM: CTC guided modality matching for fast and accurate streaming speech translationSpoken Language Technology Workshop (SLT), 2024 Rui Zhao Jinyu Li Ruchao Fan Matt Post 144 2 0 07 Oct 2024
Soft Language Identification for Language-Agnostic Many-to-One End-to-End Speech Translation Peidong Wang Jian Xue Jinyu Li Junkun Chen Aswin Shanmugam Subramanian 177 0 0 12 Jun 2024
Label-Synchronous Neural Transducer for E2E Simultaneous Speech TranslationAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Keqi Deng Philip C. Woodland 170 9 0 06 Jun 2024
TDT-KWS: Fast And Accurate Keyword Spotting Using Token-and-duration Transducer Yu Xi Hao Li Baochen Yang Haoyu Li Hai-kun Xu Kai Yu 177 7 0 20 Mar 2024
Streaming Sequence Transduction through Dynamic Compression Weiting Tan Yunmo Chen Tongfei Chen Guanghui Qin Haoran Xu Heidi C. Zhang Benjamin Van Durme Philipp Koehn 422 2 0 02 Feb 2024
End-to-End Speech-to-Text Translation: A Survey Nivedita Sethiya Chandresh Kumar Maurya 448 13 0 02 Dec 2023
End-to-End Single-Channel Speaker-Turn Aware Conversational Speech TranslationConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Juan Pablo Zuluaga Zhaocheng Huang Xing Niu Rohit Paturi S. Srinivasan Prashant Mathur Brian Thompson Marcello Federico BDL 190 3 0 01 Nov 2023
Improving Stability in Simultaneous Speech Translation: A Revision-Controllable Decoding ApproachAutomatic Speech Recognition & Understanding (ASRU), 2023 Junkun Chen Jian Xue Peidong Wang Jing Pan Jinyu Li 114 2 0 06 Oct 2023
DiariST: Streaming Speech Translation with Speaker DiarizationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 Muqiao Yang Naoyuki Kanda Xiaofei Wang Junkun Chen Peidong Wang Jian Xue Jinyu Li Takuya Yoshioka 181 7 0 14 Sep 2023
On decoder-only architecture for speech-to-text and large language model integrationAutomatic Speech Recognition & Understanding (ASRU), 2023 Jian Wu Yashesh Gaur Zhuo Chen Long Zhou Yilun Zhu ... Jinyu Li Shujie Liu Bo Ren Linquan Liu Yu-Huan Wu AuLLM 379 181 0 08 Jul 2023
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual AlignmentsAutomatic Speech Recognition & Understanding (ASRU), 2023 Sara Papi Peidong Wan Junkun Chen Jian Xue Jinyu Li Yashesh Gaur 288 8 0 07 Jul 2023
Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text TasksAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Yun Tang Anna Y. Sun Hirofumi Inaguma Xinyue Chen Ning Dong Xutai Ma Paden Tomasello J. Pino 218 26 0 04 May 2023
Efficient Sequence Transduction by Jointly Predicting Tokens and DurationsInternational Conference on Machine Learning (ICML), 2023 Hainan Xu Fei Jia Somshubra Majumdar Hengguan Huang Shinji Watanabe Boris Ginsburg 148 40 0 13 Apr 2023
ESPnet-ST-v2: Multipurpose Spoken Language Translation ToolkitAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Brian Yan Jiatong Shi Yun Tang Hirofumi Inaguma Yifan Peng ... Zhaoheng Ni Moto Hira Soumi Maiti J. Pino Shinji Watanabe 194 21 0 10 Apr 2023
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural TransducersInterspeech (Interspeech), 2022 Peidong Wang Eric Sun Jian Xue Yu-Huan Wu Long Zhou Yashesh Gaur Shujie Liu Jinyu Li 312 10 0 05 Nov 2022
A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot CapabilityAutomatic Speech Recognition & Understanding (ASRU), 2022 Jian Xue Peidong Wang Jinyu Li Eric Sun 159 12 0 04 Nov 2022