Sequence-to-Sequence Models Can Directly Translate Foreign Speech

24 March 2017

Papers citing "Sequence-to-Sequence Models Can Directly Translate Foreign Speech"

50 / 204 papers shown

Title
Attention as a Guide for Simultaneous Speech Translation Sara Papi Matteo Negri Marco Turchi 26 30 0 15 Dec 2022
Improving End-to-end Speech Translation by Leveraging Auxiliary Speech and Text Data Yuhao Zhang Chen Xu Bojie Hu Chunliang Zhang Tong Xiao Jingbo Zhu 32 15 0 04 Dec 2022
Align, Write, Re-order: Explainable End-to-End Speech Translation via Operation Sequence Generation Motoi Omachi Brian Yan Siddharth Dalmia Yuya Fujita Shinji Watanabe LRM 32 3 0 11 Nov 2022
Efficient Speech Translation with Pre-trained Models Zhaolin Li Jan Niehues 27 2 0 09 Nov 2022
LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers Peidong Wang Eric Sun Jian Xue Yu-Huan Wu Long Zhou Yashesh Gaur Shujie Liu Jinyu Li 34 8 0 05 Nov 2022
Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities Khyathi Raghavi Chandu A. Geramifard 40 3 0 30 Oct 2022
Joint Speech Translation and Named Entity Recognition Marco Gaido Sara Papi Matteo Negri Marco Turchi 33 3 0 21 Oct 2022
Simple and Effective Unsupervised Speech Translation Changhan Wang Hirofumi Inaguma Peng-Jen Chen Ilia Kulikov Yun Tang Wei-Ning Hsu Michael Auli J. Pino SSL 32 14 0 18 Oct 2022
YFACC: A Yorùbá speech-image dataset for cross-lingual keyword localisation through visual grounding Kayode Olaleye Dan Oneaţă Herman Kamper ObjD 34 6 0 10 Oct 2022
Direct Speech Translation for Automatic Subtitling Sara Papi Marco Gaido Alina Karakanta Mauro Cettolo Matteo Negri Marco Turchi 59 11 0 27 Sep 2022
Dodging the Data Bottleneck: Automatic Subtitling with Automatically Segmented ST Corpora Sara Papi Alina Karakanta Matteo Negri Marco Turchi 36 8 0 21 Sep 2022
M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation Jinming Zhao Haomiao Yang Ehsan Shareghi Gholamreza Haffari 56 19 0 03 Jul 2022
T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine Translation Paul-Ambroise Duquenne Hongyu Gong Benoît Sagot Holger Schwenk 30 18 0 24 May 2022
Non-Parametric Domain Adaptation for End-to-End Speech Translation Yichao Du Weizhi Wang Zhirui Zhang Boxing Chen Tong Xu Jun Xie Enhong Chen 53 18 0 23 May 2022
Multiformer: A Head-Configurable Transformer-Based Model for Direct Speech Translation Gerard Sant Gerard I. Gállego Belen Alastruey Marta R. Costa-jussá 22 3 0 14 May 2022
Who Are We Talking About? Handling Person Names in Speech Translation Marco Gaido Matteo Negri Marco Turchi 23 7 0 13 May 2022
Cross-modal Contrastive Learning for Speech Translation Rong Ye Mingxuan Wang Lei Li SSL 27 84 0 05 May 2022
ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource Speech Translation Tasks Marcely Zanon Boito John E. Ortega Hugo Riguidel Antoine Laurent Loïc Barrault ... Firas Chaabani H. Nguyen Florentin Barbier Souhir Gahbiche Yannick Esteve 27 16 0 04 May 2022
Large-Scale Streaming End-to-End Speech Translation with Neural Transducers Jian Xue Peidong Wang Jinyu Li Matt Post Yashesh Gaur AI4TS 32 26 0 11 Apr 2022
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation Sravya Popuri Peng-Jen Chen Changhan Wang J. Pino Yossi Adi Jiatao Gu Wei-Ning Hsu Ann Lee 28 56 0 06 Apr 2022
Prosodic Alignment for off-screen automatic dubbing Yogesh Virkar Marcello Federico Robert Enyedi Roberto Barra-Chicote 30 9 0 06 Apr 2022
Leveraging unsupervised and weakly-supervised data to improve direct speech-to-speech translation Ye Jia Yifan Ding Ankur Bapna Colin Cherry Yu Zhang Alexis Conneau Nobuyuki Morioka 47 20 0 24 Mar 2022
STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation Qingkai Fang Rong Ye Lei Li Yang Feng Mingxuan Wang 42 95 0 20 Mar 2022
Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias in Speech Translation Beatrice Savoldi Marco Gaido L. Bentivogli Matteo Negri Marco Turchi 38 26 0 18 Mar 2022
Keyword localisation in untranscribed speech using visually grounded speech models Kayode Olaleye Dan Oneaţă Herman Kamper 32 7 0 02 Feb 2022
Prabhupadavani: A Code-mixed Speech Translation Data for 25 Languages Jivnesh Sandhan Ayush Daksh Om Adideva Paranjay Laxmidhar Behera Pawan Goyal 4 7 0 27 Jan 2022
CVSS Corpus and Massively Multilingual Speech-to-Speech Translation Yeting Jia Michelle Tadmor Ramanovich Quan Wang Heiga Zen SLR 36 66 0 11 Jan 2022
Regularizing End-to-End Speech Translation with Triangular Decomposition Agreement Yichao Du Zhirui Zhang Weizhi Wang Boxing Chen Jun Xie Tong Xu 59 22 0 21 Dec 2021
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 40 363 0 02 Nov 2021
Visualization: the missing factor in Simultaneous Speech Translation Sara Papi Matteo Negri Marco Turchi 19 2 0 31 Oct 2021
Machine Translation Verbosity Control for Automatic Dubbing Surafel Melaku Lakew Marcello Federico Yue Wang Cuong Hoang Yogesh Virkar Roberto Barra-Chicote Robert Enyedi 22 21 0 08 Oct 2021
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates Hirofumi Inaguma Siddharth Dalmia Brian Yan Shinji Watanabe 65 11 0 27 Sep 2021
Is "moby dick" a Whale or a Bird? Named Entities and Terminology in Speech Translation Marco Gaido Susana Rodríguez Matteo Negri L. Bentivogli Marco Turchi 24 10 0 15 Sep 2021
Learning When to Translate for Streaming Speech Qianqian Dong Yaoming Zhu Mingxuan Wang Lei Li 52 30 0 15 Sep 2021
fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit Changhan Wang Wei-Ning Hsu Yossi Adi Adam Polyak Ann Lee Peng-Jen Chen Jiatao Gu J. Pino VLM 72 32 0 14 Sep 2021
Speechformer: Reducing Information Loss in Direct Speech Translation Sara Papi Marco Gaido Matteo Negri Marco Turchi 65 23 0 09 Sep 2021
Non-autoregressive End-to-end Speech Translation with Parallel Autoregressive Rescoring Hirofumi Inaguma Yosuke Higuchi Kevin Duh Tatsuya Kawahara Shinji Watanabe 63 11 0 09 Sep 2021
Cross-modal Spectrum Transformation Network For Acoustic Scene classification Yang Liu A. Neophytou Sunando Sengupta Eric Sommerlade 21 9 0 13 Aug 2021
Simultaneous Speech Translation for Live Subtitling: from Delay to Display Alina Karakanta Sara Papi Matteo Negri Marco Turchi 28 10 0 19 Jul 2021
Translatotron 2: High-quality direct speech-to-speech translation with voice preservation Ye Jia Michelle Tadmor Ramanovich Tal Remez Roi Pomerantz 26 68 0 19 Jul 2021
Between Flexibility and Consistency: Joint Generation of Captions and Subtitles Alina Karakanta Marco Gaido Matteo Negri Marco Turchi 30 9 0 13 Jul 2021
Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task Yun Tang J. Pino Xian Li Changhan Wang Dmitriy Genzel 114 81 0 12 Jul 2021
Direct speech-to-speech translation with discrete units Ann Lee Peng-Jen Chen Changhan Wang Jiatao Gu Sravya Popuri ... Yossi Adi Qing He Yun Tang J. Pino Wei-Ning Hsu 41 181 0 12 Jul 2021
The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline Task Chen Xu Xiaoqian Liu Xiaowen Liu Laohu Wang Canan Huang Tong Xiao Jingbo Zhu 34 5 0 06 Jul 2021
Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on Spoken Language Understanding Siddhant Arora Alissa Ostapenko Vijay Viswanathan Siddharth Dalmia Florian Metze Shinji Watanabe A. Black ELM 25 13 0 29 Jun 2021
Dealing with training and test segmentation mismatch: FBK@IWSLT2021 Sara Papi Marco Gaido Matteo Negri Marco Turchi 44 6 0 23 Jun 2021
Attention-Based Keyword Localisation in Speech using Visual Grounding Kayode Olaleye Herman Kamper 27 13 0 16 Jun 2021
Cascade versus Direct Speech Translation: Do the Differences Still Make a Difference? L. Bentivogli Mauro Cettolo Marco Gaido Alina Karakanta A. Martinelli Matteo Negri Marco Turchi 21 79 0 02 Jun 2021
How to Split: the Effect of Word Segmentation on Gender Bias in Speech Translation Marco Gaido Beatrice Savoldi L. Bentivogli Matteo Negri Marco Turchi 77 15 0 28 May 2021
Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained Models into Speech Translation Encoders Chen Xu Bojie Hu Yanyang Li Yuhao Zhang Shen Huang Qi Ju Tong Xiao Jingbo Zhu 25 76 0 12 May 2021