Title
Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe Y. Liu Yang Yue Jingyuan Zhang Chenxi Sun Yang Zhou Wencong Zeng Ruiming Tang Guorui Zhou DiffM MoE 96 0 0 01 Dec 2025
InterMoE: Individual-Specific 3D Human Interaction Generation via Dynamic Temporal-Selective MoE Lipeng Wang Hongxing Fan Haohua Chen Zehuan Huang Lu Sheng 86 0 0 17 Nov 2025
Route Experts by Sequence, not by Token Tiansheng Wen Y. Wang Aosong Feng Long Ma Xinyang Liu Y. Wang Lixuan Guo Bo Chen Stefanie Jegelka Chenyu You MoE 170 1 0 09 Nov 2025
Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance Y. X. Wei Shiwei Zhang Hangjie Yuan Yujin Han Zhekai Chen ... Difan Zou Xihui Liu Yingya Zhang Yu Liu Hongming Shan DiffM MoE 208 3 0 28 Oct 2025
LaTtE-Flow: Layerwise Timestep-Expert Flow-based Transformer Ying Shen Zhiyang Xu Jiuhai Chen Shizhe Diao Jiaxin Zhang Yuguang Yao Joy Rimchala Ismini Lourentzou Lifu Huang OffRL 204 1 0 08 Jun 2025
A Survey of Generative Categories and Techniques in Multimodal Generative Models Longzhen Han Awes Mubarak Almas Baimagambetov Nikolaos Polatidis Thar Baker LRM 370 0 0 29 May 2025
Scale-wise Distillation of Diffusion Models Nikita Starodubcev Denis Kuznedelev Artem Babenko Dmitry Baranchuk DiffM 287 4 0 20 Mar 2025
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model Chunting Zhou Lili Yu Arun Babu Kushal Tirumala Michihiro Yasunaga Leonid Shamis Jacob Kahn Xuezhe Ma Luke Zettlemoyer Omer Levy DiffM 263 291 0 20 Aug 2024
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts Xi Lin Akshat Shrivastava Liang Luo Srinivasan Iyer Mike Lewis Gargi Gosh Luke Zettlemoyer Armen Aghajanyan MoE 267 50 0 31 Jul 2024
Scaling Diffusion Transformers to 16 Billion Parameters Zhengcong Fei Mingyuan Fan Changqian Yu Debang Li Junshi Huang DiffM MoE 289 34 0 16 Jul 2024
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training Brandon McKinzie Zhe Gan J. Fauconnier Sam Dodge Bowen Zhang ... Zirui Wang Ruoming Pang Peter Grasch Alexander Toshev Yinfei Yang MLLM 487 243 0 14 Mar 2024
Switch Diffusion Transformer: Synergizing Denoising Tasks with Sparse Mixture-of-ExpertsEuropean Conference on Computer Vision (ECCV), 2024 Byeongjun Park Hyojun Go Jin-Young Kim Sangmin Woo Seokil Ham Changick Kim DiffM MoE 301 24 0 14 Mar 2024
SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion ModelsEuropean Conference on Computer Vision (ECCV), 2023 Yuwei Guo Ceyuan Yang Anyi Rao Maneesh Agrawala Dahua Lin Bo Dai DiffM VGen 196 171 0 28 Nov 2023
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image GenerationInternational Conference on Learning Representations (ICLR), 2023 Jaemin Cho Yushi Hu Roopal Garg Peter Anderson Ranjay Krishna Jason Baldridge Mohit Bansal Jordi Pont-Tuset Su Wang EGVM 365 126 0 27 Oct 2023
GenEval: An Object-Focused Framework for Evaluating Text-to-Image AlignmentNeural Information Processing Systems (NeurIPS), 2023 Dhruba Ghosh Hanna Hajishirzi Ludwig Schmidt 376 494 0 17 Oct 2023
VeCLIP: Improving CLIP Training via Visual-enriched CaptionsEuropean Conference on Computer Vision (ECCV), 2023 Zhengfeng Lai Haotian Zhang Bowen Zhang Wentao Wu Haoping Bai ... Zhe Gan Jiulong Shan Chen-Nee Chuah Yinfei Yang Meng Cao CLIP VLM 350 57 0 11 Oct 2023
Denoising Task Routing for Diffusion ModelsInternational Conference on Learning Representations (ICLR), 2023 Byeongjun Park Sangmin Woo Hyojun Go Jin-Young Kim Changick Kim DiffM 514 25 0 11 Oct 2023
PixArt- $α$ : Fast Training of Diffusion Transformer for Photorealistic Text-to-Image SynthesisInternational Conference on Learning Representations (ICLR), 2023 Junsong Chen Jincheng Yu Chongjian Ge Lewei Yao Enze Xie ... Zhongdao Wang James T. Kwok Ping Luo Huchuan Lu Zhenguo Li DiffM 577 674 0 30 Sep 2023
From Sparse to Soft Mixtures of ExpertsInternational Conference on Learning Representations (ICLR), 2023 J. Puigcerver C. Riquelme Basil Mustafa N. Houlsby MoE 423 195 0 02 Aug 2023
Fast Training of Diffusion Models with Masked Transformers Hongkai Zheng Weili Nie Arash Vahdat Anima Anandkumar DiffM 308 127 0 15 Jun 2023
Multi-Architecture Multi-Expert Diffusion ModelsAAAI Conference on Artificial Intelligence (AAAI), 2023 Yunsung Lee Jin-Young Kim Hyojun Go Myeongho Jeong Shinhyeok Oh Seungtaek Choi DiffM 351 37 0 08 Jun 2023
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion PathsNeural Information Processing Systems (NeurIPS), 2023 Zeyue Xue Guanglu Song Qiushan Guo Boxiao Liu Zhuofan Zong Yu Liu Ping Luo DiffM 638 174 0 29 May 2023
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models Weifeng Chen Yatai Ji Jie Wu Hefeng Wu Pan Xie Jiashi Li Xin Xia Xuefeng Xiao Liang Lin VGen 364 92 0 23 May 2023
Conditional Adapters: Parameter-efficient Transfer Learning with Fast InferenceNeural Information Processing Systems (NeurIPS), 2023 Tao Lei Junwen Bai Siddhartha Brahma Joshua Ainslie Kenton Lee ... Vincent Zhao Yuexin Wu Yue Liu Yu Zhang Ming-Wei Chang BDL AI4CE 213 80 0 11 Apr 2023
Scalable Diffusion Models with TransformersIEEE International Conference on Computer Vision (ICCV), 2022 William S. Peebles Saining Xie GNN 2.1K 4,193 0 19 Dec 2022
eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers Yogesh Balaji Seungjun Nah Xun Huang Arash Vahdat Jiaming Song ... Timo Aila S. Laine Bryan Catanzaro Tero Karras Xuan Li VLM MoE 593 981 0 02 Nov 2022
Flow Matching for Generative ModelingInternational Conference on Learning Representations (ICLR), 2022 Y. Lipman Ricky T. Q. Chen Heli Ben-Hamu Maximilian Nickel Matt Le OOD 1.1K 2,834 0 06 Oct 2022
Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified FlowInternational Conference on Learning Representations (ICLR), 2022 Xingchao Liu Chengyue Gong Qiang Liu OOD 1.0K 1,964 0 07 Sep 2022
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation Jiahui Yu Yuanzhong Xu Jing Yu Koh Thang Luong Gunjan Baid ... Zarana Parekh Xin Li Han Zhang Jason Baldridge Yonghui Wu EGVM 621 1,359 0 22 Jun 2022
Photorealistic Text-to-Image Diffusion Models with Deep Language UnderstandingNeural Information Processing Systems (NeurIPS), 2022 Chitwan Saharia William Chan Saurabh Saxena Lala Li Jay Whang ... Raphael Gontijo-Lopes Tim Salimans Jonathan Ho David J Fleet Mohammad Norouzi VLM 1.1K 7,473 0 23 May 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 1.1K 8,260 0 13 Apr 2022
Make-A-Scene: Scene-Based Text-to-Image Generation with Human PriorsEuropean Conference on Computer Vision (ECCV), 2022 Oran Gafni Adam Polyak Oron Ashual Shelly Sheynin Devi Parikh Yaniv Taigman DiffM 274 595 0 24 Mar 2022
Mixture-of-Experts with Expert Choice RoutingNeural Information Processing Systems (NeurIPS), 2022 Yan-Quan Zhou Tao Lei Han-Chu Liu Nan Du Yanping Huang Vincent Zhao Andrew M. Dai Zhifeng Chen Quoc V. Le James Laudon MoE 593 554 0 18 Feb 2022
ST-MoE: Designing Stable and Transferable Sparse Expert Models Barret Zoph Irwan Bello Sameer Kumar Nan Du Yanping Huang J. Dean Noam M. Shazeer W. Fedus MoE 414 299 0 17 Feb 2022
High-Resolution Image Synthesis with Latent Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2021 Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer DiffM 2.6K 20,975 0 20 Dec 2021
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts Nan Du Yanping Huang Andrew M. Dai Simon Tong Dmitry Lepikhin ... Kun Zhang Quoc V. Le Yonghui Wu Zhiwen Chen Claire Cui ALM MoE 665 1,045 0 13 Dec 2021
CLIPScore: A Reference-free Evaluation Metric for Image CaptioningConference on Empirical Methods in Natural Language Processing (EMNLP), 2021 Jack Hessel Ari Holtzman Maxwell Forbes Ronan Le Bras Yejin Choi CLIP 943 2,245 0 18 Apr 2021
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient SparsityJournal of machine learning research (JMLR), 2021 W. Fedus Barret Zoph Noam M. Shazeer MoE 576 3,067 0 11 Jan 2021
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding Dmitry Lepikhin HyoukJoong Lee Yuanzhong Xu Dehao Chen Orhan Firat Yanping Huang M. Krikun Noam M. Shazeer Zhiwen Chen MoE 392 1,619 0 30 Jun 2020
Improving Image Captioning with Better Use of Captions Zhan Shi Xu Zhou Xipeng Qiu Xiao-Dan Zhu 151 149 0 21 Jun 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 4.9K 25,697 0 19 Jun 2020
Exploring the Limits of Transfer Learning with a Unified Text-to-Text TransformerJournal of machine learning research (JMLR), 2019 Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 1.5K 23,762 0 23 Oct 2019
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts LayerInternational Conference on Learning Representations (ICLR), 2017 Noam M. Shazeer Azalia Mirhoseini Krzysztof Maziarz Andy Davis Quoc V. Le Geoffrey E. Hinton J. Dean MoE 586 3,671 0 23 Jan 2017
Microsoft COCO: Common Objects in ContextEuropean Conference on Computer Vision (ECCV), 2014 Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 16.4K 49,315 0 01 May 2014