OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks

OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks

24 May 2025

Papers citing "OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks"

13 / 13 papers shown

Title
Step1X-Edit: A Practical Framework for General Image Editing Shixuan Liu Yucheng Han Peng Xing Fukun Yin Rui Wang ... Yibo Zhu Binxing Jiao Wei Wei Gang Yu Daxin Jiang DiffM 141 9 0 24 Apr 2025
UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding Yang Jiao Haibo Qiu Zequn Jie Tian Jin Jingjing Chen Lin Ma Yu Jiang 67 5 0 06 Apr 2025
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing Xiangyu Zhao Peiyuan Zhang Kexian Tang Hao Li Zicheng Zhang ... Guangtao Zhai Junchi Yan Hua Yang Xue Yang Haodong Duan VLM LRM 105 5 0 03 Apr 2025
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation Yuwei Niu Munan Ning Mengren Zheng Weiyang Jin Bin Lin ... Jiaqi Liao Chaoran Feng Kunpeng Ning Bin Zhu Li Yuan EGVM 98 23 0 10 Mar 2025
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model Lixue Gong Xiaoxia Hou Fanshi Li Liang Li Xiaochen Lian ... Qi Zhang Yuwei Zhang Shijia Zhao Jianchao Yang Weilin Huang DiffM VLM 81 9 0 10 Mar 2025
Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling Xiaokang Chen Zhiyu Wu Xingchao Liu Zizheng Pan Wen Liu Zhenda Xie X. Yu Chong Ruan AI4TS 68 126 0 29 Jan 2025
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 115 34 0 24 Jun 2024
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment Xiwei Hu Rui Wang Yixiao Fang Bin-Bin Fu Pei Cheng Gang Yu VLM 71 89 0 08 Mar 2024
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 284 6,768 0 13 Apr 2022
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models Alex Nichol Prafulla Dhariwal Aditya A. Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever Mark Chen 241 3,552 0 20 Dec 2021
Masked-attention Mask Transformer for Universal Image Segmentation Bowen Cheng Ishan Misra Alex Schwing Alexander Kirillov Rohit Girdhar ISeg 188 2,315 0 02 Dec 2021
Vision Transformers for Dense Prediction René Ranftl Alexey Bochkovskiy V. Koltun ViT MDE 112 1,696 0 24 Mar 2021
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 299 17,550 0 19 Jun 2020