Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2502.05178
Cited By

QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

7 February 2025

Philipp Krahenbuhl

ArXiv (abs)PDF HTML HuggingFace (10 upvotes)Connect (YouTube)

Papers citing "QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation"

12 / 12 papers shown

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

...

213

0

0

28 Nov 2025

UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation

UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation

200

0

0

21 Nov 2025

Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation

Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation

138

0

0

03 Nov 2025

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

...

185

7

0

12 Oct 2025

Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

212

4

0

29 Sep 2025

WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction

WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction

222

2

0

07 Aug 2025

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

Ming-Hsuan Yang

156

3

0

21 Jul 2025

TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation

TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation

432

31

0

08 May 2025

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

...

1.1K

31

0

05 May 2025

GeoUni: A Unified Model for Generating Geometry Diagrams, Problems and Problem Solutions

GeoUni: A Unified Model for Generating Geometry Diagrams, Problems and Problem Solutions

329

6

0

14 Apr 2025

VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

341

15

0

03 Apr 2025

Next Patch Prediction for Autoregressive Visual Generation

Next Patch Prediction for Autoregressive Visual Generation

...

Francis E. H. Tay

633

21

0

19 Dec 2024