CoNeTTE: An efficient Audio Captioning system leveraging multiple datasets with Task Embedding

1 September 2023

Papers citing "CoNeTTE: An efficient Audio Captioning system leveraging multiple datasets with Task Embedding"

6 / 6 papers shown

Title
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 81 2 0 10 Jan 2025
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis Ho Kei Cheng Masato Ishii Akio Hayakawa Takashi Shibuya A. Schwing Yuki Mitsufuji VGen 126 12 0 19 Dec 2024
Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning Jaeyeon Kim Jaeyoon Jung Minjeong Jeon Sang Hoon Woo Jinjoo Lee 24 1 0 02 Sep 2024
Multitask learning in Audio Captioning: a sentence embedding regression loss acts as a regularizer Etienne Labbé J. Pinquier Thomas Pellegrini 45 5 0 02 May 2023
HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection Ke Chen Xingjian Du Bilei Zhu Zejun Ma Taylor Berg-Kirkpatrick Shlomo Dubnov ViT 121 264 0 02 Feb 2022
Xception: Deep Learning with Depthwise Separable Convolutions François Chollet MDE BDL PINN 206 14,368 0 07 Oct 2016