MINT: Boosting Audio-Language Model via Multi-Target Pre-Training and
Instruction Tuning

MINT: Boosting Audio-Language Model via Multi-Target Pre-Training and Instruction Tuning

12 February 2024

Yifei Xin

Papers citing "MINT: Boosting Audio-Language Model via Multi-Target Pre-Training and Instruction Tuning"

6 / 6 papers shown

Title
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng S. Liu ... Z. Yang Aoxiong Yin Ruibin Yuan Y. Zhang Zaida Zhou AuLLM VLM 87 81 0 25 Apr 2025
Masked Audio Modeling with CLAP and Multi-Objective Learning Yifei Xin Xiulian Peng Yan Lu 23 5 0 29 Jan 2024
Improving Audio-Text Retrieval via Hierarchical Cross-Modal Interaction and Auxiliary Captions Yifei Xin Yuexian Zou 27 35 0 28 Jul 2023
Improving Weakly Supervised Sound Event Detection with Causal Intervention Yifei Xin Dongchao Yang Fan Cui Yujun Wang Yuexian Zou CML 35 6 0 10 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 235 1,899 0 30 Jan 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 372 2,523 0 28 Jan 2022