Kosmos-G: Generating Images in Context with Multimodal Large Language Models

4 October 2023

Papers citing "Kosmos-G: Generating Images in Context with Multimodal Large Language Models"

50 / 58 papers shown

Title
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis Bingda Tang Boyang Zheng Xichen Pan Sayak Paul Saining Xie 41 0 0 15 May 2025
Behind Maya: Building a Multilingual Vision Language Model Nahid Alam Karthik Reddy Kanjula Surya Guthikonda Timothy Chung Bala Krishna S Vegesna ... Isha Chaturvedi Genta Indra Winata Ashvanth.S Snehanshu Mukherjee Alham Fikri Aji MLLM VLM 45 0 0 13 May 2025
STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives Bo Wang Haoyang Huang Zhiying Lu Fengyuan Liu Guoqing Ma Jianlong Yuan Y. Zhang Nan Duan Daxin Jiang VGen 39 0 0 13 May 2025
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA Karthik Reddy Kanjula Surya Guthikonda Nahid Alam Shayekh Bin Islam 31 0 0 09 May 2025
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing Ming Li Xin Gu Fan Chen X. Xing Longyin Wen Chong Chen Sijie Zhu DiffM 83 1 0 05 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Xuzhi Zhang Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 74 0 0 05 May 2025
A Survey of Foundation Model-Powered Recommender Systems: From Feature-Based, Generative to Agentic Paradigms Chengkai Huang Hongtao Huang Tong Yu Kaige Xie Junda Wu Shuai Zhang Julian McAuley Dietmar Jannach Lina Yao LRM AI4CE 34 0 0 23 Apr 2025
Personalized Text-to-Image Generation with Auto-Regressive Models Kaiyue Sun Xian Liu Yao Teng Xihui Liu 40 0 0 17 Apr 2025
Flux Already Knows -- Activating Subject-Driven Image Generation without Training Hao Kang Stathi Fotiadis Liming Jiang Qing Yan Yumin Jia Zichuan Liu Min Jin Chong Xin Lu 45 0 0 12 Apr 2025
Transfer between Modalities with MetaQueries Xichen Pan Satya Narayan Shukla Aashu Singh Zhuokai Zhao Shlok Kumar Mishra ... Jiuhai Chen Kunpeng Li F. Xu Ji Hou Saining Xie DiffM 54 8 0 08 Apr 2025
InstructVEdit: A Holistic Approach for Instructional Video Editing Chi Zhang C. Feng Feng Yan Qiming Zhang Mingjin Zhang Yujie Zhong Jing Zhang Lin Ma DiffM VGen 62 0 0 22 Mar 2025
TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models Teng-Fang Hsiao Bo-Kai Ruan Yi-Lun Wu Tzu-Ling Lin Hong-Han Shuai VLM 58 0 0 19 Mar 2025
Piece it Together: Part-Based Concepting with IP-Priors Elad Richardson Kfir Goldberg Yuval Alaluf Daniel Cohen-Or DiffM 71 0 0 13 Mar 2025
Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias Mingxiao Li Tingyu Qu Tinne Tuytelaars Marie-Francine Moens EGVM 48 0 0 09 Mar 2025
X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation Jian Ma Qirong Peng Xu Guo Chen Chen H. Lu Zhenyu Yang VLM 72 1 0 08 Mar 2025
DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models Zhendong Wang Jianmin Bao Shuyang Gu Dong Chen Wengang Zhou Haoyang Li DiffM 53 0 0 03 Mar 2025
WeGen: A Unified Model for Interactive Multimodal Generation as We Chat Zhipeng Huang Shaobin Zhuang Canmiao Fu Binxin Yang Ying Zhang Chong Sun Zhizheng Zhang Yali Wang Chen Li Zheng-Jun Zha DiffM 74 2 0 03 Mar 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 91 12 0 06 Jan 2025
RealCustom++: Representing Images as Real-Word for Real-Time Customization Zhendong Mao Mengqi Huang Fei Ding Mingcong Liu Qian He Xiaojun Chang DiffM 84 6 0 03 Jan 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 104 48 0 03 Jan 2025
DreamOmni: Unified Image Generation and Editing Bin Xia Yuechen Zhang Jingyao Li Chengyao Wang Yitong Wang Xinglong Wu Bei Yu Jiaya Jia SyDa MLLM 96 3 0 22 Dec 2024
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator Chaehun Shin Jooyoung Choi Heeseung Kim Sungroh Yoon DiffM 94 8 0 23 Nov 2024
Novel Object Synthesis via Adaptive Text-Image Harmony Zeren Xiong Zedong Zhang Zikun Chen Shuo Chen Xianrui Li Gan Sun Jian Yang Jun Li DiffM 57 4 0 28 Oct 2024
MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations Liang Xu Shaoyang Hua Zili Lin Yifan Liu Feipeng Ma Yichao Yan Xin Jin Xiaokang Yang Wenjun Zeng VGen 44 3 0 17 Oct 2024
FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction Runze He Kai Ma Linjiang Huang Shaofei Huang Jialin Gao Xiaoming Wei Jiao Dai Jizhong Han Si Liu DiffM 52 8 0 26 Sep 2024
Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond Hong Chen Xin Wang Yuwei Zhou Bin Huang Yipeng Zhang Wei Feng Houlun Chen Zeyang Zhang Siao Tang Wenwu Zhu DiffM 55 7 0 23 Sep 2024
OmniGen: Unified Image Generation Shitao Xiao Yueze Wang Yueze Wang Huaying Yuan Xingrun Xing Ruiran Yan Shuting Wang Tiejun Huang Zheng Liu DiffM VLM SyDa 67 66 0 17 Sep 2024
GroundingBooth: Grounding Text-to-Image Customization Zhexiao Xiong Wei Xiong Jing Shi He Zhang Yizhi Song Nathan Jacobs DiffM 64 6 0 13 Sep 2024
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions Lingwei Meng Shujie Hu Jiawen Kang Zhaoqing Li Yuejiao Wang Wenxuan Wu Xixin Wu Xunying Liu Helen Meng AuLLM 75 2 0 13 Sep 2024
CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization Nan Chen Mengqi Huang Zhuowei Chen Yang Zheng Lei Zhang Zhendong Mao DiffM 60 5 0 09 Sep 2024
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling Zilyu Ye Yu Lei Ruotian Peng Jinjin Cao Zhiyang Chen ... Mingyuan Zhou Xiaoqian Shen Mohamed Elhoseiny Nan Zhuang Guo-Jun Qi VGen VLM 42 1 0 07 Aug 2024
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale Haozhe Zhao Xiaojian Ma Liang Chen Shuzheng Si Rujie Wu Kaikai An Peiyu Yu Minjia Zhang Qing Li Baobao Chang 47 44 0 07 Jul 2024
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data William Berman A. Peysakhovich 39 4 0 26 Jun 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 83 31 0 24 Jun 2024
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation Yufan Zhou Ruiyi Zhang Kaizhi Zheng Nanxuan Zhao Jiuxiang Gu Zichao Wang Xin Eric Wang Tong Sun DiffM 35 2 0 13 Jun 2024
EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts Yucheng Han Rui Wang Chi Zhang Juntao Hu Pei Cheng Bin-Bin Fu Hanwang Zhang 77 6 0 13 Jun 2024
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance X. Wang Siming Fu Qihan Huang Wanggui He Hao Jiang DiffM 56 41 0 11 Jun 2024
RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance JiaoJiao Fan Haotian Xue Qinsheng Zhang Yongxin Chen 43 1 0 27 May 2024
A Survey on Personalized Content Synthesis with Diffusion Models Xu-Lu Zhang Xiao Wei Wengyu Zhang Jinlin Wu Zhaoxiang Zhang Zhen Lei Qing Li Zhen Lei Qing Li EGVM 143 19 0 09 May 2024
Controllable Generation with Text-to-Image Diffusion Models: A Survey Pu Cao Feng Zhou Qing-Huang Song Lu Yang 78 37 0 07 Mar 2024
ShapeLLM: Universal 3D Object Understanding for Embodied Interaction Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma 49 52 0 27 Feb 2024
DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Models Shyam Marjit Harshit Singh Nityanand Mathur Sayak Paul Chia-Mu Yu Pin-Yu Chen DiffM 47 6 0 27 Feb 2024
$λ$ -ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space Maitreya Patel Sangmin Jung Chitta Baral Yezhou Yang VLM 31 29 0 07 Feb 2024
CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion Nisha Huang Weiming Dong Yuxin Zhang Fan Tang Ronghui Li Chongyang Ma Xiu Li Tong-Yee Lee Changsheng Xu DiffM 43 0 0 25 Jan 2024
Instruct-Imagen: Image Generation with Multi-modal Instruction Hexiang Hu Kelvin C. K. Chan Yu-Chuan Su Wenhu Chen Yandong Li ... Xue Ben Boqing Gong William W. Cohen Ming-Wei Chang Xuhui Jia MLLM 48 43 0 03 Jan 2024
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action Jiasen Lu Christopher Clark Sangho Lee Zichen Zhang Savya Khosla Ryan Marten Derek Hoiem Aniruddha Kembhavi VLM MLLM 40 147 0 28 Dec 2023
Generative Multimodal Models are In-Context Learners Quan-Sen Sun Yufeng Cui Xiaosong Zhang Fan Zhang Qiying Yu ... Yueze Wang Yongming Rao Jingjing Liu Tiejun Huang Xinlong Wang MLLM LRM 45 249 0 20 Dec 2023
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation Jinguo Zhu Xiaohan Ding Yixiao Ge Yuying Ge Sijie Zhao Hengshuang Zhao Xiaohua Wang Ying Shan ViT VLM 24 33 0 14 Dec 2023
Customization Assistant for Text-to-image Generation Yufan Zhou Ruiyi Zhang Jiuxiang Gu Tongfei Sun DiffM 33 11 0 05 Dec 2023
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation Zineng Tang Ziyi Yang Mahmoud Khademi Yang Liu Chenguang Zhu Mohit Bansal LRM MLLM AuLLM 58 45 0 30 Nov 2023