PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

20 May 2025

Papers citing "PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models"

26 / 26 papers shown

Title
Seed1.5-VL Technical Report D. Guo Faming Wu Feida Zhu Fuxing Leng Guang Shi ... Kai Hua Kai Liu Kai Shen Kai Zhang Ke Shen MLLM VLM LRM 48 8 0 11 May 2025
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models Jinguo Zhu Weiyun Wang Zhe Chen Ziwei Liu Shenglong Ye ... Dahua Lin Yu Qiao Jifeng Dai Wenhai Wang Wei Wang MLLM VLM 106 56 1 14 Apr 2025
Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis Letian Zhang Quan Cui Bingchen Zhao Cheng Yang MLLM SyDa 76 1 0 11 Mar 2025
MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification Linzhuang Sun Hao Liang Jingxuan Wei Bihui Yu Tianpeng Li Fan Yang Guosheng Dong Wentao Zhang LRM 105 10 0 20 Feb 2025
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs Xingyu Chen Jiahao Xu Tian Liang Zhiwei He Jianhui Pang ... Zizhuo Zhang Rui Wang Zhaopeng Tu Haitao Mi Dong Yu LRM ReLM 136 158 0 30 Dec 2024
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue LRM 123 36 0 06 Dec 2024
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data Shuhao Gu Jialing Zhang Siyuan Zhou Kevin Yu Zhaohu Xing ... Yufeng Cui Xinlong Wang Yaoqi Liu Fangxiang Feng Guang Liu SyDa VLM MLLM 69 25 0 24 Oct 2024
HybridFlow: A Flexible and Efficient RLHF Framework Guangming Sheng Chi Zhang Zilingfeng Ye Xibin Wu Wang Zhang Ru Zhang Size Zheng Haibin Lin Chuan Wu AI4CE 94 171 0 28 Sep 2024
FANNO: Augmenting High-Quality Instruction Data with Open-Sourced LLMs Only He Zhu Junyou Su Tianle Lun Yicheng Tao Wenjia Zhang Zipei Fan Guanhua Chen ALM 49 5 0 02 Aug 2024
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity Yangzhou Liu Yue Cao Zhangwei Gao Weiyun Wang Zhe Chen ... Lewei Lu Xizhou Zhu Tong Lu Yu Qiao Jifeng Dai VLM MLLM 83 25 0 22 Jul 2024
MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment Jihao Liu Xin Huang Jinliang Zheng Boxiao Liu Jia Wang Osamu Yoshie Yu Liu Hongsheng Li MLLM SyDa 56 4 0 28 Jun 2024
UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark Zhaokun Zhou Qiulin Wang Bin Lin Yiwei Su Ruoxin Chen Xin Tao Amin Zheng Li-xin Yuan Pengfei Wan Di Zhang 47 9 0 15 Apr 2024
PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval He Zhu Wenjia Zhang Nuoxian Huang Boyang Li Luyao Niu ... Yicheng Tao Junyou Su Zhaoya Gong Chenyu Fang Xing Liu LLMAG 73 10 0 29 Feb 2024
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models Siddharth Karamcheti Suraj Nair Ashwin Balakrishna Percy Liang Thomas Kollar Dorsa Sadigh MLLM VLM 87 108 0 12 Feb 2024
AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception Yipo Huang Quan Yuan Xiangfei Sheng Zhichao Yang Haoning Wu Pengfei Chen Yuzhe Yang Leida Li Weisi Lin VLM 45 38 0 16 Jan 2024
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI Xiang Yue Yuansheng Ni Kai Zhang Tianyu Zheng Ruoqi Liu ... Yibo Liu Wenhao Huang Huan Sun Yu-Chuan Su Wenhu Chen OSLM ELM VLM 155 833 0 27 Nov 2023
MoDS: Model-oriented Data Selection for Instruction Tuning Qianlong Du Chengqing Zong Jiajun Zhang ALM 69 83 0 27 Nov 2023
ShareGPT4V: Improving Large Multi-Modal Models with Better Captions Lin Chen Jinsong Li Xiao-wen Dong Pan Zhang Conghui He Jiaqi Wang Feng Zhao Dahua Lin MLLM VLM 165 644 0 21 Nov 2023
Baichuan 2: Open Large-scale Language Models Ai Ming Yang Bin Xiao Bingning Wang Borong Zhang Ce Bian ... Youxin Jiang Yuchen Gao Yupeng Zhang Guosheng Dong Zhiying Wu ELM LRM 144 731 0 19 Sep 2023
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day Chunyuan Li Cliff Wong Sheng Zhang Naoto Usuyama Haotian Liu Jianwei Yang Tristan Naumann Hoifung Poon Jianfeng Gao LM&MA MedIm 90 740 0 01 Jun 2023
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario Tianwen Qian Jingjing Chen Linhai Zhuo Yang Jiao Yueping Jiang 59 145 0 24 May 2023
XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters Xuanyu Zhang Qing Yang Dongliang Xu ALM OSLM 51 100 0 19 May 2023
DoctorGLM: Fine-tuning your Chinese Doctor is not a Herculean Task Honglin Xiong Sheng Wang Yitao Zhu Zihao Zhao Yuxiao Liu Linlin Huang Qian Wang Dinggang Shen LM&MA AI4MH 36 170 0 03 Apr 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 938 12,840 0 27 Feb 2023
Self-Instruct: Aligning Language Models with Self-Generated Instructions Yizhong Wang Yeganeh Kordi Swaroop Mishra Alisa Liu Noah A. Smith Daniel Khashabi Hannaneh Hajishirzi ALM SyDa LRM 86 2,166 0 20 Dec 2022
GLM: General Language Model Pretraining with Autoregressive Blank Infilling Zhengxiao Du Yujie Qian Xiao Liu Ming Ding J. Qiu Zhilin Yang Jie Tang BDL AI4CE 100 1,520 0 18 Mar 2021