v1v2 (latest)

TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages

25 February 2024

Papers citing "TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages"

5 / 5 papers shown

Seeing What You Say: Expressive Image Generation from Speech

300

05 Nov 2025

Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio

258

19 May 2025

Fusion of Discrete Representations and Self-Augmented Representations for Multilingual Automatic Speech RecognitionSpoken Language Technology Workshop (SLT), 2024

255

27 Nov 2024

SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data

Yichen Lu

Álvaro Huertas-García

Xuankai Chang

Hengwei Bian

Soumi Maiti

Shinji Watanabe

266

01 Aug 2024

Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing

Jacob Whitehill

309

04 Jun 2024