Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

9 October 2024

Papers citing "Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think"

4 / 4 papers shown

Title
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities X. Zhang Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 49 272 0 05 May 2025
X-Fusion: Introducing New Modality to Frozen Large Language Models Sicheng Mo Thao Nguyen Xun Huang Siddharth Srinivasan Iyer Yijun Li ... Eli Shechtman Krishna Kumar Singh Yong Jae Lee Bolei Zhou Yuheng Li 59 59 0 29 Apr 2025
Perception Encoder: The best visual embeddings are not at the output of the network Daniel Bolya Po-Yao (Bernie) Huang Peize Sun Jang Hyun Cho Andrea Madotto ... Shiyu Dong Nikhila Ravi Daniel Li Piotr Dollár Christoph Feichtenhofer ObjD VOS 81 159 0 17 Apr 2025
Movie Gen: A Cast of Media Foundation Models Adam Polyak Amit Zohar Andrew Brown Andros Tjandra Animesh Sinha ... Simone Parmeggiani Steve Fine Tara Fowler Vladan Petrovic Yuming Du VGen DiffM 43 4 0 17 Oct 2024