v1v2v3 (latest)

Next Patch Prediction for Autoregressive Visual Generation

19 December 2024

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Next Patch Prediction for Autoregressive Visual Generation"

50 / 112 papers shown

Latent Speech-Text Transformer

...

171

07 Oct 2025

Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

301

18 Sep 2025

Image Tokenizer Needs Post-Training

241

15 Sep 2025

Exploiting Discriminative Codebook Prior for Autoregressive Image Generation

192

14 Aug 2025

E-4DGS: High-Fidelity Dynamic Reconstruction from the Multi-view Event Cameras

273

13 Aug 2025

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

...

407

04 Aug 2025

EF-VI: Enhancing End-Frame Injection for Video Inbetweening

383

27 May 2025

UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation

138

20 May 2025

MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning

366

19 May 2025

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

...

1.4K

05 May 2025

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

615

03 Apr 2025

NeuralGS: Bridging Neural Fields and 3D Gaussian Splatting for Compact 3D Representations

496

29 Mar 2025

Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis

611

11 Mar 2025

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

...

606

128

10 Mar 2025

Frequency Autoregressive Image Generation with Continuous Tokens

343

07 Mar 2025

QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

375

07 Feb 2025

Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

630

568

29 Jan 2025

ARFlow: Autoregressive Flow with Hybrid Linear Attention

371

27 Jan 2025

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

...

OffRL AI4TS LRM ReLM VLM

1.7K

5,342

22 Jan 2025

Hierarchical Banzhaf Interaction for General Video-Language Representation LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

457

31 Dec 2024

FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching

614

19 Dec 2024

Parallelized Autoregressive Visual GenerationComputer Vision and Pattern Recognition (CVPR), 2024

695

19 Dec 2024

SoftVQ-VAE: Efficient 1-Dimensional Continuous TokenizerComputer Vision and Pattern Recognition (CVPR), 2024

898

14 Dec 2024

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2024

353

05 Dec 2024

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and GenerationComputer Vision and Pattern Recognition (CVPR), 2024

463

04 Dec 2024

RandAR: Decoder-only Autoregressive Visual Generation in Random OrdersComputer Vision and Pattern Recognition (CVPR), 2024

433

02 Dec 2024

Open-Sora Plan: Open-Source Large Video Generation Model

...

526

230

28 Nov 2024

Randomized Autoregressive Visual Generation

Ju He

376

01 Nov 2024

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and GenerationComputer Vision and Pattern Recognition (CVPR), 2024

...

519

336

17 Oct 2024

Stabilize the Latent Space for Image Autoregressive Modeling: A Unified PerspectiveNeural Information Processing Systems (NeurIPS), 2024

Yongxin Zhu

341

16 Oct 2024

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

Josh Susskind

452

10 Oct 2024

ImageFolder: Autoregressive Image Generation with Folded TokensInternational Conference on Learning Representations (ICLR), 2024

Xiang Li

Kai Qiu

Bhiksha Raj

374

02 Oct 2024

Emu3: Next-Token Prediction is All You Need

Xinlong Wang

Xiaosong Zhang

Zhengxiong Luo

Quan-Sen Sun

Yufeng Cui

...

Xi Yang

Jingjing Liu

Yonghua Lin

Tiejun Huang

Zhongyuan Wang

MLLM

373

596

27 Sep 2024

MaskBit: Embedding-free Image Generation via Bit Tokens

Daniel Cremers

230

24 Sep 2024

OmniGen: Unified Image GenerationComputer Vision and Pattern Recognition (CVPR), 2024

Shitao Xiao

Yueze Wang

Zheng Liu

523

299

17 Sep 2024

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

Ying Shan

712

119

06 Sep 2024

OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

Xinhua Cheng

Li Yuan

DiffM

437

02 Sep 2024

Show-o: One Single Transformer to Unify Multimodal Understanding and GenerationInternational Conference on Learning Representations (ICLR), 2024

Weihao Wang

Kevin Qinghong Lin

Yuchao Gu

Zhijie Chen

Zhenheng Yang

Mike Zheng Shou

533

535

22 Aug 2024

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Lili Yu

298

345

20 Aug 2024

Autoregressive Image Generation without Vector Quantization

573

552

17 Jun 2024

An Image is Worth 32 Tokens for Reconstruction and Generation

Daniel Cremers

468

236

11 Jun 2024

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

Yi Jiang

Bingyue Peng

606

622

10 Jun 2024

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Chameleon Team

MLLM

723

729

16 May 2024

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

Xiaojuan Qi

305

115

19 Apr 2024

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale PredictionNeural Information Processing Systems (NeurIPS), 2024

473

835

03 Apr 2024

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

...

2.9K

3,297

05 Mar 2024

Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation

Linmiao Xu

210

221

27 Feb 2024

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Bin Lin

...

499

298

29 Jan 2024

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

...

Yuheng Zou

432

689

05 Jan 2024

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

346

297

28 Dec 2023