Generative Pre-training for Speech with Flow Matching

Generative Pre-training for Speech with Flow Matching

25 October 2023

Alexander H. Liu

Papers citing "Generative Pre-training for Speech with Flow Matching"

13 / 13 papers shown

Title
Real-Time Person Image Synthesis Using a Flow Matching Model Jiwoo Jeong Kirok Kim Wooju Kim Nam-Joon Kim 3DH 51 0 0 06 May 2025
OmniAudio: Generating Spatial Audio from 360-Degree Video Huadai Liu Tianyi Luo Qikai Jiang Kaicheng Luo Peiwen Sun ... X. Li Shiliang Zhang Zhijie Yan Zhou Zhao Wei Xue VGen 51 0 0 21 Apr 2025
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria Bryan Catanzaro Soujanya Poria 46 4 0 30 Dec 2024
Gen-Swarms: Adapting Deep Generative Models to Swarms of Drones Carlos Plou Pablo Pueyo Ruben Martinez-Cantin Mac Schwager Ana C. Murillo Eduardo Montijano 41 0 0 28 Aug 2024
LAFMA: A Latent Flow Matching Model for Text-to-Audio Generation Wenhao Guan K. Wang Wangjin Zhou Yang Wang Feng Deng Hui Wang Lin Li Q. Hong Yong Qin DiffM 20 3 0 12 Jun 2024
Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning Chung-Ming Chien Andros Tjandra Apoorv Vyas Matt Le Bowen Shi Wei-Ning Hsu 24 0 0 10 Jun 2024
Exploring Self-Attention Mechanisms for Speech Separation Cem Subakan Mirco Ravanelli Samuele Cornell François Grondin Mirko Bronzi 19 23 0 06 Feb 2022
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone Edresson Casanova Julian Weber C. Shulby Arnaldo Cândido Júnior Eren Golge M. Ponti 163 372 0 04 Dec 2021
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing Junyi Ao Rui Wang Long Zhou Chengyi Wang Shuo Ren ... Yu Zhang Zhihua Wei Yao Qian Jinyu Li Furu Wei 110 192 0 14 Oct 2021
Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation Ofir Press Noah A. Smith M. Lewis 234 690 0 27 Aug 2021
Generative Spoken Language Modeling from Raw Audio Kushal Lakhotia Evgeny Kharitonov Wei-Ning Hsu Yossi Adi Adam Polyak ... Tu Nguyen Jade Copet Alexei Baevski A. Mohamed Emmanuel Dupoux AuLLM 174 336 0 01 Feb 2021
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Z. Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 196 817 0 12 Jun 2018
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 229 74,467 0 18 May 2015