Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2506.18871
Cited By

OmniGen2: Exploration to Advanced Multimodal Generation

v1v2v3 (latest)

OmniGen2: Exploration to Advanced Multimodal Generation

23 June 2025

ArXiv (abs)PDF HTML HuggingFace (71 upvotes)Github (3874★)

Papers citing "OmniGen2: Exploration to Advanced Multimodal Generation"

50 / 104 papers shown

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

194

2

0

24 Dec 2025

I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models

I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models

178

0

0

04 Dec 2025

WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens

WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens

243

0

0

02 Dec 2025

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

...

166

2

0

01 Dec 2025

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

DiffM AI4TS VGen

160

0

0

01 Dec 2025

AlignVid: Training-Free Attention Scaling for Semantic Fidelity in Text-Guided Image-to-Video Generation

90

0

0

01 Dec 2025

Reversible Inversion for Training-Free Exemplar-guided Image Editing

138

0

0

01 Dec 2025

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

137

0

0

29 Nov 2025

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

...

227

1

0

28 Nov 2025

Ovis-Image Technical Report

Ovis-Image Technical Report

...

561

0

0

28 Nov 2025

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

Kohsei Matsutani

Masahiro Suzuki

67

0

0

28 Nov 2025

ReasonEdit: Towards Reasoning-Enhanced Image Editing Models

ReasonEdit: Towards Reasoning-Enhanced Image Editing Models

...

252

0

0

27 Nov 2025

Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation

Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation

Shubhankar Borse

Farzad Farhadzadeh

97

0

0

27 Nov 2025

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

364

0

0

26 Nov 2025

CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion

CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion

...

213

0

0

26 Nov 2025

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

...

361

1

0

25 Nov 2025

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

471

1

0

25 Nov 2025

HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation

HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation

...

175

1

0

25 Nov 2025

The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

Ming-Ming Cheng

Mike Zheng Shou

150

0

0

25 Nov 2025

Are Image-to-Video Models Good Zero-Shot Image Editors?

Are Image-to-Video Models Good Zero-Shot Image Editors?

567

0

0

24 Nov 2025

MagicWand: A Universal Agent for Generation and Evaluation Aligned with User Preference

MagicWand: A Universal Agent for Generation and Evaluation Aligned with User Preference

82

0

0

23 Nov 2025

MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation

MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation

...

108

1

0

23 Nov 2025

SPIDER: Spatial Image CorresponDence Estimator for Robust Calibration

SPIDER: Spatial Image CorresponDence Estimator for Robust Calibration

Abhay Kumar Yadav

Cheng-Fang Peng

98

0

0

21 Nov 2025

EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards

EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards

Shravan Venkatraman

Abdelrahman M. Shaker

Hisham Cholakkal

Rao Muhammad Anwer

336

4

0

20 Nov 2025

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

...

MLLM MoE OSLM VLM

625

1

0

16 Nov 2025

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

...

Juan-Manuel Perez-Rua

Jürgen Schmidhuber

105

0

0

15 Nov 2025

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

Niklas Muennighoff

...

257

3

0

04 Nov 2025

UniREditBench: A Unified Reasoning-based Image Editing Benchmark

UniREditBench: A Unified Reasoning-based Image Editing Benchmark

...

197

2

0

03 Nov 2025

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

248

3

0

03 Nov 2025

Emu3.5: Native Multimodal Models are World Learners

Emu3.5: Native Multimodal Models are World Learners

...

471

21

0

30 Oct 2025

ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model

ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model

...

228

5

0

28 Oct 2025

Uniform Discrete Diffusion with Metric Path for Video Generation

Uniform Discrete Diffusion with Metric Path for Video Generation

...

Zhaoxiang Zhang

170

2

0

28 Oct 2025

Revisiting Multimodal Positional Encoding in Vision-Language Models

Revisiting Multimodal Positional Encoding in Vision-Language Models

162

2

0

27 Oct 2025

LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

...

367

0

0

27 Oct 2025

FARMER: Flow AutoRegressive Transformer over Pixels

FARMER: Flow AutoRegressive Transformer over Pixels

Guangting Zheng

261

4

0

27 Oct 2025

UniAIDet: A Unified and Universal Benchmark for AI-Generated Image Content Detection and Localization

UniAIDet: A Unified and Universal Benchmark for AI-Generated Image Content Detection and Localization

174

0

0

27 Oct 2025

LayerComposer: Multi-Human Personalized Generation via Layered Canvas

LayerComposer: Multi-Human Personalized Generation via Layered Canvas

Tsai-Shien Chen

...

Daniil Ostashev

Sergey Tulyakov

Kuan-Chieh Wang

221

1

0

23 Oct 2025

EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

Joost van de Weijer

168

0

0

23 Oct 2025

GenColorBench: A Color Evaluation Benchmark for Text-to-Image Generation Models

GenColorBench: A Color Evaluation Benchmark for Text-to-Image Generation Models

Muhammad Atif Butt

Alexandra Gomez-Villa

Javier Vázquez-Corral

Joost van de Weijer

185

0

0

23 Oct 2025

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

...

251

4

0

21 Oct 2025

PICABench: How Far Are We from Physically Realistic Image Editing?

PICABench: How Far Are We from Physically Realistic Image Editing?

...

275

1

0

20 Oct 2025

Chimera: Compositional Image Generation using Part-based Concepting

Chimera: Compositional Image Generation using Part-based Concepting

Agneet Chatterjee

299

0

0

20 Oct 2025

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

...

407

14

0

19 Oct 2025

When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs

When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs

157

0

0

17 Oct 2025

BLIP3o-NEXT: Next Frontier of Native Image Generation

BLIP3o-NEXT: Next Frontier of Native Image Generation

...

Silvio Savarese

121

16

0

17 Oct 2025

WithAnyone: Towards Controllable and ID Consistent Image Generation

WithAnyone: Towards Controllable and ID Consistent Image Generation

...

240

5

0

16 Oct 2025

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

159

1

0

16 Oct 2025

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

Longxiang Zhang

129

6

0

15 Oct 2025

Generative Universal Verifier as Multimodal Meta-Reasoner

Generative Universal Verifier as Multimodal Meta-Reasoner

188

4

0

15 Oct 2025

ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation

ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation

201

2

0

13 Oct 2025

Page 1 of 3