Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2102.12092
Cited By

Zero-Shot Text-to-Image Generation

v1v2 (latest)

Zero-Shot Text-to-Image Generation

International Conference on Machine Learning (ICML), 2021

24 February 2021

Aditya A. Ramesh

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Zero-Shot Text-to-Image Generation"

50 / 3,689 papers shown

MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data

MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data

573

10

0

10 Apr 2026

Reason-SVG: Enhancing Structured Reasoning for Vector Graphics Generation with Reinforcement Learning

Reason-SVG: Enhancing Structured Reasoning for Vector Graphics Generation with Reinforcement Learning

Qian Yu

294

6

0

10 Apr 2026

Distilling Specialized Orders for Visual Generation

Distilling Specialized Orders for Visual Generation

Rishav Pramanik

Juan A. Rodriguez

Masih Aminbeidokhti

Christopher Pal

Marco Pedersoli

331

1

0

10 Apr 2026

Diffusion Language Models Know the Answer Before Decoding

Diffusion Language Models Know the Answer Before Decoding

Soroush Vosoughi

283

39

0

10 Apr 2026

QPT V2: Masked Image Modeling Advances Visual Scoring

QPT V2: Masked Image Modeling Advances Visual Scoring

286

7

0

30 Mar 2026

SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models

SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models

253

1

0

05 Dec 2025

ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction

ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction

57

1

0

05 Dec 2025

SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling

SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling

Elisabetta Fedele

Francis Engelmann

Leonidas Guibas

302

1

0

05 Dec 2025

Autoregressive Image Generation Needs Only a Few Lines of Cached Tokens

Autoregressive Image Generation Needs Only a Few Lines of Cached Tokens

159

1

0

04 Dec 2025

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

226

1

0

04 Dec 2025

SeeU: Seeing the Unseen World via 4D Dynamics-aware Generation

SeeU: Seeing the Unseen World via 4D Dynamics-aware Generation

Tharindu Wickremasinghe

Stanley H. Chan

318

1

0

03 Dec 2025

ASCIIBench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text

ASCIIBench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text

Megan Van Overborg

81

2

0

02 Dec 2025

Understanding and Harnessing Sparsity in Unified Multimodal Models

Understanding and Harnessing Sparsity in Unified Multimodal Models

281

2

0

02 Dec 2025

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

247

1

0

01 Dec 2025

Accelerating Inference of Masked Image Generators via Reinforcement Learning

Accelerating Inference of Masked Image Generators via Reinforcement Learning

Pranav Subbaraman

125

0

0

30 Nov 2025

FiCoTS: Fine-to-Coarse LLM-Enhanced Hierarchical Cross-Modality Interaction for Time Series Forecasting

FiCoTS: Fine-to-Coarse LLM-Enhanced Hierarchical Cross-Modality Interaction for Time Series Forecasting

115

0

0

29 Nov 2025

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

...

303

3

0

28 Nov 2025

Guiding Visual Autoregressive Models through Spectrum Weakening

Guiding Visual Autoregressive Models through Spectrum Weakening

223

0

0

28 Nov 2025

VaMP: Variational Multi-Modal Prompt Learning for Vision-Language Models

VaMP: Variational Multi-Modal Prompt Learning for Vision-Language Models

359

3

0

27 Nov 2025

Semantic Anchoring for Robust Personalization in Text-to-Image Diffusion Models

Semantic Anchoring for Robust Personalization in Text-to-Image Diffusion Models

132

0

0

27 Nov 2025

INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts

INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts

141

0

0

27 Nov 2025

DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models

DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models

Prin Phunyaphibarn

186

0

0

26 Nov 2025

DINO-Tok: Adapting DINO for Visual Tokenizers

DINO-Tok: Adapting DINO for Visual Tokenizers

...

Xiao-Xiao Long

Qian Zhang

Ping Tan

Wei Yin

234

2

0

25 Nov 2025

Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-based Visual Inversion

Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-based Visual Inversion

Samuele DellÉrba

Andrew D. Bagdanov

225

0

0

25 Nov 2025

Dynamical Properties of Tokens in Self-Attention and Effects of Positional Encoding

Dynamical Properties of Tokens in Self-Attention and Effects of Positional Encoding

Viet-Hoang Tran

117

0

0

25 Nov 2025

Temporal-Visual Semantic Alignment: A Unified Architecture for Transferring Spatial Priors from Vision Models to Zero-Shot Temporal Tasks

Temporal-Visual Semantic Alignment: A Unified Architecture for Transferring Spatial Priors from Vision Models to Zero-Shot Temporal Tasks

350

0

0

25 Nov 2025

RubricRL: Simple Generalizable Rewards for Text-to-Image Generation

RubricRL: Simple Generalizable Rewards for Text-to-Image Generation

343

1

0

25 Nov 2025

Single Image to High-Quality 3D Object via Latent Features

Single Image to High-Quality 3D Object via Latent Features

376

0

0

24 Nov 2025

LAA3D: A Benchmark of Detecting and Tracking Low-Altitude Aircraft in 3D Space

LAA3D: A Benchmark of Detecting and Tracking Low-Altitude Aircraft in 3D Space

204

2

0

24 Nov 2025

FineXtrol: Controllable Motion Generation via Fine-Grained Text

FineXtrol: Controllable Motion Generation via Fine-Grained Text

187

3

0

24 Nov 2025

ConsistCompose: Unified Multimodal Layout Control for Image Composition

ConsistCompose: Unified Multimodal Layout Control for Image Composition

448

2

0

23 Nov 2025

ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access

ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access

155

1

0

23 Nov 2025

Synthetic Curriculum Reinforces Compositional Text-to-Image Generation

Synthetic Curriculum Reinforces Compositional Text-to-Image Generation

265

0

0

23 Nov 2025

MINDiff: Mask-Integrated Negative Attention for Controlling Overfitting in Text-to-Image Personalization

MINDiff: Mask-Integrated Negative Attention for Controlling Overfitting in Text-to-Image Personalization

181

0

0

22 Nov 2025

EvDiff: High Quality Video with an Event Camera

EvDiff: High Quality Video with an Event Camera

234

0

0

21 Nov 2025

Energy Scaling Laws for Diffusion Models: Quantifying Compute and Carbon Emissions in Image Generation

Energy Scaling Laws for Diffusion Models: Quantifying Compute and Carbon Emissions in Image Generation

Aniketh Iyengar

Marcin Detyniecki

277

0

0

21 Nov 2025

PEPPER: Perception-Guided Perturbation for Robust Backdoor Defense in Text-to-Image Diffusion Models

PEPPER: Perception-Guided Perturbation for Robust Backdoor Defense in Text-to-Image Diffusion Models

264

0

0

20 Nov 2025

AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers

AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers

334

2

0

20 Nov 2025

Masked Auto-Regressive Variational Acceleration: Fast Inference Makes Practical Reinforcement Learning

Masked Auto-Regressive Variational Acceleration: Fast Inference Makes Practical Reinforcement Learning

332

0

0

19 Nov 2025

Taming Generative Synthetic Data for X-ray Prohibited Item Detection

Taming Generative Synthetic Data for X-ray Prohibited Item Detection

189

0

0

19 Nov 2025

SplitFlux: Learning to Decouple Content and Style from a Single Image

SplitFlux: Learning to Decouple Content and Style from a Single Image

284

2

0

19 Nov 2025

Coffee: Controllable Diffusion Fine-tuning

Coffee: Controllable Diffusion Fine-tuning

236

1

0

18 Nov 2025

StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model

StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model

376

0

0

18 Nov 2025

DGS-Net: Distillation-Guided Gradient Surgery for CLIP Fine-Tuning in AI-Generated Image Detection

DGS-Net: Distillation-Guided Gradient Surgery for CLIP Fine-Tuning in AI-Generated Image Detection

Zhangjie Fu

273

0

0

17 Nov 2025

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

160

1

1

17 Nov 2025

Uni-Inter: Unifying 3D Human Motion Synthesis Across Diverse Interaction Contexts

Uni-Inter: Unifying 3D Human Motion Synthesis Across Diverse Interaction Contexts

236

3

0

17 Nov 2025

CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product

CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product

...

196

2

0

17 Nov 2025

ActVAR: Activating Mixtures of Weights and Tokens for Efficient Visual Autoregressive Generation

ActVAR: Activating Mixtures of Weights and Tokens for Efficient Visual Autoregressive Generation

187

1

0

17 Nov 2025

EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis

EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis

163

0

0

16 Nov 2025

Point Cloud Quantization through Multimodal Prompting for 3D Understanding

Point Cloud Quantization through Multimodal Prompting for 3D Understanding

517

0

0

15 Nov 2025

1 2 3 4...72 73 74

Page 1 of 74

Pageof 74