Leveraging Pre-trained BERT for Audio Captioning

6 March 2022

Papers citing "Leveraging Pre-trained BERT for Audio Captioning"

22 / 22 papers shown

Title
Exploring the User Experience of AI-Assisted Sound Searching Systems for Creative Workflows Haohe Liu Thomas Deacon Wenwu Wang Matt Paradis Mark D. Plumbley 24 0 0 22 Apr 2025
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs A. Bakumenko Katerina Hlaváčková-Schindler Claudia Plant Nina C. Hubig 20 5 0 05 Jun 2024
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model Avamarie Brueggeman Andrea Madotto Zhaojiang Lin Tushar Nagarajan Matt Smith ... Peyman Heidari Yue Liu Kavya Srinet Babak Damavandi Anuj Kumar MLLM 29 92 0 27 Sep 2023
Synth-AC: Enhancing Audio Captioning with Synthetic Supervision Feiyang Xiao Qiaoxi Zhu Jian Guan Xubo Liu Haohe Liu Kejia Zhang Wenwu Wang 13 2 0 18 Sep 2023
Zero-Shot Audio Captioning via Audibility Guidance Tal Shaharabany Ariel Shaulov Lior Wolf 13 4 0 07 Sep 2023
Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement Daiki Takeuchi Yasunori Ohishi Daisuke Niizumi Noboru Harada K. Kashino 17 6 0 23 Aug 2023
Separate Anything You Describe Xubo Liu Qiuqiang Kong Yan Zhao Haohe Liu Yiitan Yuan Yuzhuo Liu Rui Xia Yuxuan Wang Mark D. Plumbley Wenwu Wang VLM 22 43 0 09 Aug 2023
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks Mustafa Shukor Corentin Dancette Alexandre Ramé Matthieu Cord MoMe MLLM 53 42 0 30 Jul 2023
Dual Transformer Decoder based Features Fusion Network for Automated Audio Captioning Jianyuan Sun Xubo Liu Xinhao Mei V. Kılıç Mark D. Plumbley Wenwu Wang 14 3 0 30 May 2023
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Sihan Chen Xingjian He Longteng Guo Xinxin Zhu Weining Wang Jinhui Tang Jinhui Tang VLM 26 102 0 17 Apr 2023
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research Xinhao Mei Chutong Meng Haohe Liu Qiuqiang Kong Tom Ko Chengqi Zhao Mark D. Plumbley Yuexian Zou Wenwu Wang 43 192 0 30 Mar 2023
eP-ALM: Efficient Perceptual Augmentation of Language Models Mustafa Shukor Corentin Dancette Matthieu Cord MLLM VLM 24 29 0 20 Mar 2023
Leveraging Pre-trained AudioLDM for Text to Sound Generation: A Benchmark Study Yiitan Yuan Haohe Liu Jinhua Liang Xubo Liu Mark D. Plumbley Wenwu Wang 22 0 0 07 Mar 2023
Towards Generating Diverse Audio Captions via Adversarial Training Xinhao Mei Xubo Liu Jianyuan Sun Mark D. Plumbley Wenwu Wang DiffM 27 2 0 05 Dec 2022
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention Xubo Liu Qiushi Huang Xinhao Mei Haohe Liu Qiuqiang Kong ... Yu Zhang Lilian H. Y. Tang Mark D. Plumbley Volkan Kilicc Wenwu Wang 38 18 0 28 Oct 2022
Automated Audio Captioning via Fusion of Low- and High- Dimensional Features Jianyuan Sun Xubo Liu Xinhao Mei Mark D. Plumbley V. Kılıç Wenwu Wang 19 3 0 10 Oct 2022
Contrastive Audio-Language Learning for Music Ilaria Manco Emmanouil Benetos Elio Quinton Gyorgy Fazekas 25 44 0 25 Aug 2022
Automated Audio Captioning: An Overview of Recent Progress and New Challenges Xinhao Mei Xubo Liu Mark D. Plumbley Wenwu Wang 24 37 0 12 May 2022
Beyond the Status Quo: A Contemporary Survey of Advances and Challenges in Audio Captioning Xuenan Xu Zeyu Xie Mengyue Wu K. Yu 26 13 0 11 May 2022
Separate What You Describe: Language-Queried Audio Source Separation Xubo Liu Haohe Liu Qiuqiang Kong Xinhao Mei Jinzheng Zhao Qiushi Huang Mark D. Plumbley Wenwu Wang 42 57 0 28 Mar 2022
Local Information Assisted Attention-free Decoder for Audio Captioning Feiyang Xiao Jian Guan Haiyan Lan Qiaoxi Zhu Wenwu Wang 13 11 0 10 Jan 2022
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,740 0 26 Sep 2016