Hybrid Transducer and Attention based Encoder-Decoder Modeling for
Speech-to-Text Tasks

Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text Tasks

4 May 2023

Paden Tomasello

Papers citing "Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text Tasks"

14 / 14 papers shown

Title
SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation Keqi Deng Wenxi Chen Xie Chen P. Woodland 43 0 0 22 Apr 2025
Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers Adam Stooke Rohit Prabhavalkar K. Sim P. M. Mengibar 31 0 0 06 Feb 2025
Transducer Consistency Regularization for Speech to Text Applications Cindy Tseng Yun Tang Vijendra Raj Apsingekar 30 0 0 09 Oct 2024
LLaMA-Omni: Seamless Speech Interaction with Large Language Models Qingkai Fang Shoutao Guo Yan Zhou Zhengrui Ma Shaolei Zhang Yang Feng AuLLM 25 30 0 10 Sep 2024
Soft Language Identification for Language-Agnostic Many-to-One End-to-End Speech Translation Peidong Wang Jian Xue Jinyu Li Junkun Chen Aswin Shanmugam Subramanian 23 0 0 12 Jun 2024
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Any Translation Zhengrui Ma Qingkai Fang Shaolei Zhang Shoutao Guo Yang Feng Min Zhang 53 9 0 11 Jun 2024
Agent-SiMT: Agent-assisted Simultaneous Machine Translation with Large Language Models Shoutao Guo Shaolei Zhang Zhengrui Ma Min Zhang Yang Feng LLMAG 33 1 0 11 Jun 2024
StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection Sara Papi Marco Gaido Matteo Negri L. Bentivogli 64 4 0 10 Jun 2024
Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation Keqi Deng Philip C. Woodland 31 4 0 06 Jun 2024
Improving Stability in Simultaneous Speech Translation: A Revision-Controllable Decoding Approach Junkun Chen Jian Xue Peidong Wang Jing Pan Jinyu Li 16 2 0 06 Oct 2023
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments Sara Papi Peidong Wan Junkun Chen Jian Xue Jinyu Li Yashesh Gaur 21 8 0 07 Jul 2023
CTC Alignments Improve Autoregressive Translation Brian Yan Siddharth Dalmia Yosuke Higuchi Graham Neubig Florian Metze A. Black Shinji Watanabe 44 33 0 11 Oct 2022
Towards Optimization and Model Selection for Domain Generalization: A Mixup-guided Solution Wang Lu Jindong Wang Yidong Wang Xingxu Xie OOD 11 5 0 01 Sep 2022
Emformer: Efficient Memory Transformer Based Acoustic Model For Low Latency Streaming Speech Recognition Yangyang Shi Yongqiang Wang Chunyang Wu Ching-Feng Yeh Julian Chan Frank Zhang Duc Le M. Seltzer 49 168 0 21 Oct 2020