MINT: Boosting Audio-Language Model via Multi-Target Pre-Training and
Instruction Tuning

MINT: Boosting Audio-Language Model via Multi-Target Pre-Training and Instruction Tuning

12 February 2024

Yifei Xin

Papers citing "MINT: Boosting Audio-Language Model via Multi-Target Pre-Training and Instruction Tuning"

7 / 7 papers shown

Title
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng S. Liu ... Z. Yang Aoxiong Yin Ruibin Yuan Y. Zhang Zaida Zhou AuLLM VLM 105 1 0 25 Apr 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 47 2 0 10 Jan 2025
Masked Audio Modeling with CLAP and Multi-Objective Learning Yifei Xin Xiulian Peng Yan Lu 33 5 0 29 Jan 2024
Improving Audio-Text Retrieval via Hierarchical Cross-Modal Interaction and Auxiliary Captions Yifei Xin Yuexian Zou 34 9 0 28 Jul 2023
Improving Weakly Supervised Sound Event Detection with Causal Intervention Yifei Xin Dongchao Yang Fan Cui Yujun Wang Yuexian Zou CML 43 8 0 10 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 1,899 0 30 Jan 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 375 4,010 0 28 Jan 2022