Towards Flexible Multi-modal Document Models

Towards Flexible Multi-modal Document Models

31 March 2023

Papers citing "Towards Flexible Multi-modal Document Models"

18 / 18 papers shown

Title
Generating Animated Layouts as Structured Text Representations Yeonsang Shin Jihwan Kim Yumin Song Kyungseung Lee Hyunhee Chung Taeyoung Na DiffM VGen 61 0 0 02 May 2025
AesthetiQ: Enhancing Graphic Layout Design via Aesthetic-Aware Preference Alignment of Multi-modal Large Language Models Sohan Patnaik Rishabh Jain Balaji Krishnamurthy Mausoom Sarkar 26 0 0 01 Mar 2025
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation Yifan Pu Yiming Zhao Zhicong Tang Ruihong Yin Haoxing Ye ... Ji Li Xiu Li Z. Lian Gao Huang Baining Guo DiffM 62 1 0 25 Feb 2025
Multimodal Markup Document Models for Graphic Design Completion Kotaro Kikuchi Naoto Inoue Mayu Otani E. Simo-Serra Kota Yamaguchi VLM 34 4 0 27 Sep 2024
DocSynthv2: A Practical Autoregressive Modeling for Document Generation Sanket Biswas R. Jain Vlad I. Morariu Jiuxiang Gu Puneet Mathur Curtis Wigington Tong Sun Josep Lladós 28 1 0 12 Jun 2024
OpenCOLE: Towards Reproducible Automatic Graphic Design Generation Naoto Inoue Kento Masui Wataru Shimoda Kota Yamaguchi 18 8 0 12 Jun 2024
CoLay: Controllable Layout Generation through Multi-conditional Latent Diffusion Chin-Yi Cheng Ruiqi Gao Forrest Huang Yang Li DiffM 28 2 0 18 May 2024
Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models Wanrong Zhu Jennifer Healey Ruiyi Zhang William Yang Wang Tong Sun 3DV 25 1 0 23 Apr 2024
Graphic Design with Large Multimodal Model Yutao Cheng Zhao Zhang Maoke Yang Hui Nie Chunyuan Li Xinglong Wu Jie Shao 36 10 0 22 Apr 2024
TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation Tianyi Liang Jiangqi Liu Sicheng Song Shiqi Jiang Yifei Huang Changbo Wang Chenhui Li 40 0 0 18 Apr 2024
Planning and Rendering: Towards End-to-End Product Poster Generation Zhaochen Li Fengheng Li Wei Feng Honghe Zhu An Liu ... Xin Zhu Jun-Jun Shen Zhangang Lin Jingping Shao Zhenglu Yang DiffM 13 2 0 14 Dec 2023
COLE: A Hierarchical Generation Framework for Multi-Layered and Editable Graphic Design Peidong Jia Chenxuan Li Yuhui Yuan Zeyu Liu Yichao Shen ... Dong Chen Ji Li Xiaodong Xie Shanghang Zhang Baining Guo 22 6 0 28 Nov 2023
LayoutDM: Discrete Diffusion Model for Controllable Layout Generation Naoto Inoue Kotaro Kikuchi E. Simo-Serra Mayu Otani Kota Yamaguchi DiffM 52 101 0 14 Mar 2023
Color Recommendation for Vector Graphic Documents based on Multi-Palette Representation Qianru Qiu Xueting Wang Mayu Otani Yuki Iwazaki VLM 24 8 0 22 Sep 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,412 0 11 Nov 2021
InfoColorizer: Interactive Recommendation of Color Palettes for Infographics Linping Yuan Ziqi Zhou Jian Zhao Yiqiu Guo F. Du Huamin Qu 43 46 0 03 Feb 2021
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding Yang Xu Yiheng Xu Tengchao Lv Lei Cui Furu Wei ... D. Florêncio Cha Zhang Wanxiang Che Min Zhang Lidong Zhou ViT MLLM 145 498 0 29 Dec 2020
DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation Alexandre Carlier Martin Danelljan Alexandre Alahi Radu Timofte 114 138 0 22 Jul 2020