v1v2 (latest)

Exploring Train and Test-Time Augmentations for Audio-Language Learning

31 October 2022

Papers citing "Exploring Train and Test-Time Augmentations for Audio-Language Learning"

11 / 11 papers shown

Thinking While Listening: Simple Test Time Scaling For Audio Classification

Prateek Verma

Mert Pilanci

LRM

24 Sep 2025

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs

187

03 Aug 2025

Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning

271

08 Feb 2025

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

...

280

12 Dec 2024

EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance

Jaeyeon Kim

Minjeon Jeon

Jaeyoon Jung

Sang Hoon Woo

Jinjoo Lee

192

02 Sep 2024

EDTC: enhance depth of text comprehension in automated audio captioning

Liwen Tan

Yin Cao

Yi Zhou

199

27 Feb 2024

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

Jaeyeon Kim

Jaeyoon Jung

Jinjoo Lee

Sang Hoon Woo

CLIP VLM

198

31 Jan 2024

Zero-shot audio captioning with audio-language model guidance and audio context keywords

Leonard Salewski

Stefan Fauth

A. Sophia Koepke

Zeynep Akata

191

14 Nov 2023

Audio Difference Learning for Audio CaptioningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

155

15 Sep 2023

Multilingual Audio Captioning using machine translated data

Matéo Cousin

Etienne Labbé

Thomas Pellegrini

158

14 Sep 2023

Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval?

Etienne Labbé

Thomas Pellegrini

J. Pinquier

152

29 Aug 2023