HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation

3 June 2025

Papers citing "HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation"

4 / 4 papers shown

Title
From Pixels to Words -- Towards Native Vision-Language Primitives at Scale Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu VLM 44 0 0 16 Oct 2025
MedREK: Retrieval-Based Editing for Medical LLMs with Key-Aware Prompts Shujun Xia Haokun Lin Yichen Wu Yinan Zhou Zixuan Li ... Yefeng Zheng Xiang Li Caifeng Shan Zhenan Sun Quanzheng Li KELM 195 0 0 15 Oct 2025
Show-o2: Improved Native Unified Multimodal Models Jinheng Xie Zhenheng Yang Mike Zheng Shou VGen 259 46 0 18 Jun 2025
LoRA-Gen: Specializing Large Language Model via Online LoRA Generation Yicheng Xiao Lin Song Rui Yang Cheng Cheng Yixiao Ge Xiu Li Y. Shan OffRL 140 0 0 13 Jun 2025