Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and Understanding

6 July 2022

Papers citing "Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and Understanding"

50 / 77 papers shown

Title
Hadamard product in deep learning: Introduction, Advances and Challenges Grigorios G. Chrysos Yongtao Wu Razvan Pascanu Philip Torr V. Cevher AAML 98 0 0 17 Apr 2025
SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors Yang Chen Hui Wang Shiyao Wang Jianfei Chen Jiabei He Jiaming Zhou Xi Yang Yixuan Wang Yonghua Lin Yong Qin 38 0 0 20 Mar 2025
Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces Korbinian Kuhn Verena Kersken Gottfried Zimmermann 61 0 0 19 Mar 2025
Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning Anh Tong Thanh Nguyen-Tang Dongeun Lee Duc Nguyen Toan M. Tran David Hall Cheongwoong Kang Jaesik Choi 35 0 0 03 Mar 2025
CS-Dialogue: A 104-Hour Dataset of Spontaneous Mandarin-English Code-Switching Dialogues for Speech Recognition Jiaming Zhou Yujie Guo Songtao Zhao Haoqin Sun Hui Wang ... Shiyao Wang Xi Yang Yixuan Wang Yonghua Lin Yong Qin 48 0 0 26 Feb 2025
Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking Khanh Le Duc Thanh Chau AI4TS 68 0 0 24 Feb 2025
CR-CTC: Consistency regularization on CTC for improved speech recognition Zengwei Yao Wei Kang Xiaoyu Yang Fangjun Kuang Liyong Guo Han Zhu Zengrui Jin Zhaoqing Li Long Lin Daniel Povey 53 0 0 17 Feb 2025
A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics Kai He Rui Mao Qika Lin Yucheng Ruan Xiang Lan Mengling Feng Erik Cambria LM&MA AILaw 93 154 0 28 Jan 2025
Revisiting Acoustic Features for Robust ASR Muhammad Ahmed Shah Bhiksha Raj AAML 16 0 0 24 Sep 2024
Robust Audiovisual Speech Recognition Models with Mixture-of-Experts Yihan Wu Yifan Peng Yichen Lu Xuankai Chang Ruihua Song Shinji Watanabe 49 2 0 19 Sep 2024
COMFORT: A Continual Fine-Tuning Framework for Foundation Models Targeted at Consumer Healthcare Chia-Hao Li N. Jha 23 1 0 14 Sep 2024
Findings of the 2024 Mandarin Stuttering Event Detection and Automatic Speech Recognition Challenge Hongfei Xue Rong Gong Mingchen Shao Xin Xu L. xilinx Wang ... Yong Qin Jun Du Ming Li Binbin Zhang Bin Jia 26 1 0 09 Sep 2024
An Analysis of Linear Complexity Attention Substitutes with BEST-RQ Ryan Whetten Titouan Parcollet Adel Moumen Marco Dinarelli Yannick Esteve 38 0 0 04 Sep 2024
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation Xiaoxiao Miao Yuxiang Zhang Xin Wang N. Tomashenko D. Soh Ian Mcloughlin 42 1 0 12 Aug 2024
Linear-Complexity Self-Supervised Learning for Speech Processing Shucong Zhang Titouan Parcollet Rogier van Dalen Sourav Bhattacharya 41 1 0 18 Jul 2024
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers David Gimeno-Gómez Carlos David Martínez Hinarejos 91 2 0 09 Jul 2024
Multi-Convformer: Extending Conformer with Multiple Convolution Kernels Darshan Prabhu Yifan Peng P. Jyothi Shinji Watanabe 39 0 0 04 Jul 2024
Towards Robust Speech Representation Learning for Thousands of Languages William Chen Wangyou Zhang Yifan Peng Xinjian Li Jinchuan Tian Jiatong Shi Xuankai Chang Soumi Maiti Karen Livescu Shinji Watanabe ELM 42 6 0 30 Jun 2024
Open-Source Conversational AI with SpeechBrain 1.0 Mirco Ravanelli Titouan Parcollet Adel Moumen Sylvain de Langen Cem Subakan ... Salima Mdhaffar G. Laperriere Mickael Rouvier Renato De Mori Yannick Esteve VLM 44 10 0 29 Jun 2024
Exploring the Capability of Mamba in Speech Applications Koichi Miyazaki Yoshiki Masuyama Masato Murata Mamba 40 12 0 24 Jun 2024
Children's Speech Recognition through Discrete Token Enhancement Vrunda N. Sukhadia Shammur A. Chowdhury 42 1 0 19 Jun 2024
Global-Local Convolution with Spiking Neural Networks for Energy-efficient Keyword Spotting Shuai Wang Dehao Zhang Kexin Shi Yuchen Wang Wenjie Wei Jibin Wu Malu Zhang 40 0 0 19 Jun 2024
One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model Zhaoqing Li Haoning Xu Tianzi Wang Shoukang Hu Zengrui Jin Shujie Hu Jiajun Deng Mingyu Cui Mengzhe Geng Xunying Liu MQ 37 1 0 14 Jun 2024
CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge Chen Chen Zehua Liu Xiaolou Li Lantian Li D. Wang 35 2 0 14 Jun 2024
ConPCO: Preserving Phoneme Characteristics for Automatic Pronunciation Assessment Leveraging Contrastive Ordinal Regularization Bi-Cheng Yan Wei-Cheng Chao Jiun-Ting Li Yi-Cheng Wang Hsin-Wei Wang Meng-Shin Lin Berlin Chen 18 0 0 05 Jun 2024
Joint Optimization of Streaming and Non-Streaming Automatic Speech Recognition with Multi-Decoder and Knowledge Distillation Muhammad Shakeel Yui Sudo Yifan Peng Shinji Watanabe 35 0 0 22 May 2024
Mamba in Speech: Towards an Alternative to Self-Attention Xiangyu Zhang Qiquan Zhang Hexin Liu Tianyi Xiao Xinyuan Qian Beena Ahmed E. Ambikairajah Haizhou Li Julien Epps Mamba 54 36 0 21 May 2024
Intelligent Cardiac Auscultation for Murmur Detection via Parallel-Attentive Models with Uncertainty Estimation Zixing Zhang Tao Pang Jing Han Björn W. Schuller 25 0 0 07 May 2024
EfficientASR: Speech Recognition Network Compression via Attention Redundancy and Chunk-Level FFN Optimization Jianzong Wang Ziqi Liang Xulong Zhang Ning Cheng Jing Xiao 38 0 0 30 Apr 2024
Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges Badri N. Patro Vijay Srinivas Agneeswaran Mamba 46 38 0 24 Apr 2024
Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder He Wang Pengcheng Guo Xucheng Wan Huan Zhou Lei Xie 24 2 0 08 Apr 2024
The VoicePrivacy 2024 Challenge Evaluation Plan N. Tomashenko Xiaoxiao Miao Pierre Champion Sarina Meyer Xin Wang Emmanuel Vincent Michele Panariello Nicholas W. D. Evans Junichi Yamagishi Massimiliano Todisco 36 21 0 03 Apr 2024
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification Yifan Peng Yui Sudo Muhammad Shakeel Shinji Watanabe VLM 37 17 0 20 Feb 2024
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity Ziyang Ma Guanrou Yang Yifan Yang Zhifu Gao Jiaming Wang ... Fan Yu Qian Chen Siqi Zheng Shiliang Zhang Xie Chen AuLLM 47 38 0 13 Feb 2024
Local and Global Contexts for Conversation Zuoquan Lin Xinyi Shen 16 1 0 31 Jan 2024
OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer Yifan Peng Jinchuan Tian William Chen Siddhant Arora Brian Yan ... Kwanghee Choi Jiatong Shi Xuankai Chang Jee-weon Jung Shinji Watanabe VLM OSLM 34 40 0 30 Jan 2024
The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in CNVSRC 2023 He Wang Pengcheng Guo Wei Chen Pan Zhou Lei Xie 22 2 0 07 Jan 2024
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition He Wang Pengcheng Guo Pan Zhou Lei Xie 22 12 0 07 Jan 2024
Hourglass-AVSR: Down-Up Sampling-based Computational Efficiency Model for Audio-Visual Speech Recognition Fan Yu Haoxu Wang Ziyang Ma Shiliang Zhang 57 2 0 14 Dec 2023
Graph Convolutions Enrich the Self-Attention in Transformers! Jeongwhan Choi Hyowon Wi Jayoung Kim Yehjin Shin Kookjin Lee Nathaniel Trask Noseong Park 30 4 0 07 Dec 2023
Speech Understanding on Tiny Devices with A Learning Cache A. Benazir Zhiming Xu Felix Xiaozhu Lin 24 0 0 30 Nov 2023
Efficient Deep Speech Understanding at the Edge Rongxiang Wang Felix Lin 16 2 0 22 Nov 2023
Zipformer: A faster and better encoder for automatic speech recognition Zengwei Yao Liyong Guo Xiaoyu Yang Wei Kang Fangjun Kuang Yifan Yang Zengrui Jin Long Lin Daniel Povey VLM 30 65 0 17 Oct 2023
Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data Yifan Peng Jinchuan Tian Brian Yan Dan Berrebbi Xuankai Chang ... Yui Sudo Muhammad Shakeel Jee-weon Jung Soumi Maiti Shinji Watanabe VLM 39 35 0 25 Sep 2023
The second multi-channel multi-party meeting transcription challenge (M2MeT) 2.0): A benchmark for speaker-attributed ASR Yuhao Liang Mohan Shi Fan Yu Yangze Li Shiliang Zhang ... Jian Wu Zhuo Chen Kong Aik Lee Zhijie Yan Hui Bu 29 5 0 24 Sep 2023
Augmenting conformers with structured state-space sequence models for online speech recognition Haozhe Shan Albert Gu Zhong Meng Weiran Wang Krzysztof Choromanski Tara N. Sainath RALM 19 4 0 15 Sep 2023
Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation Jiaxu Zhu Weinan Tong Yaoxun Xu Chang Song Zhiyong Wu Zhao You Dan Su Dong Yu Helen M. Meng 32 0 0 04 Sep 2023
SememeASR: Boosting Performance of End-to-End Speech Recognition against Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge Jiaxu Zhu Chang Song Zhiyong Wu Helen Meng VLM 26 0 0 04 Sep 2023
Efficient Multi-View Graph Clustering with Local and Global Structure Preservation Yi Wen Suyuan Liu Xinhang Wan Siwei Wang K. Liang Xinwang Liu Xihong Yang Pei Zhang 24 19 0 31 Aug 2023
VoiceBank-2023: A Multi-Speaker Mandarin Speech Corpus for Constructing Personalized TTS Systems for the Speech Impaired Jia-Jyu Su Pang-Chen Liao Yen-Ting Lin Wu-Hao Li Guan-Ting Liou ... Wei-Cheng Chen Jen-Chieh Chiang Wen-Yang Chang Pin-Han Lin Chen-Yu Chiang 18 1 0 27 Aug 2023