Unlocking the Potential of Multimodal Unified Discrete Representation
through Training-Free Codebook Optimization and Hierarchical Alignment

Unlocking the Potential of Multimodal Unified Discrete Representation through Training-Free Codebook Optimization and Hierarchical Alignment

8 March 2024

Shengpeng Ji

Jieming Zhu

Zhou Zhao

Papers citing "Unlocking the Potential of Multimodal Unified Discrete Representation through Training-Free Codebook Optimization and Hierarchical Alignment"

6 / 6 papers shown

Title
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling Shengpeng Ji Ziyue Jiang Xize Cheng Yifu Chen Minghui Fang ... Rongjie Huang Yidi Jiang Qian Chen Zhou Zhao Zhou Zhao VLM 45 32 0 29 Aug 2024
Few-Shot Class-Incremental Learning via Training-Free Prototype Calibration Qiwen Wang Da-Wei Zhou Yi-Kai Zhang De-Chuan Zhan Han-Jia Ye CLL 35 44 0 08 Dec 2023
Training-Free Layout Control with Cross-Attention Guidance Minghao Chen Iro Laina Andrea Vedaldi DiffM 124 217 0 06 Apr 2023
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 245 554 0 28 Sep 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 303 771 0 18 Apr 2021
Feature Importance Ranking for Deep Learning Maksymilian Wojtas Ke Chen 124 116 0 18 Oct 2020