LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning

30 November 2023

Papers citing "LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning"

11 / 61 papers shown

Title
PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model Amrin Kareem Jean Lahoud Hisham Cholakkal LRM 33 3 0 04 Apr 2024
TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes Bu Jin Yupeng Zheng Pengfei Li Weize Li Yuhang Zheng ... Kun Zhan Peng Jia Xiaoxiao Long Yilun Chen Hao Zhao 3DV 42 14 0 28 Mar 2024
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies Zhende Song Chenchen Wang Jiamu Sheng C. Zhang Gang Yu Jiayuan Fan Tao Chen VGen 17 18 0 03 Mar 2024
The Revolution of Multimodal Large Language Models: A Survey Davide Caffagni Federico Cocchi Luca Barsellotti Nicholas Moratelli Sara Sarto Lorenzo Baraldi Lorenzo Baraldi Marcella Cornia Rita Cucchiara LRM VLM 38 41 0 19 Feb 2024
An Embodied Generalist Agent in 3D World Jiangyong Huang Silong Yong Xiaojian Ma Xiongkun Linghu Puhao Li Yan Wang Qing Li Song-Chun Zhu Baoxiong Jia Siyuan Huang LM&Ro 15 131 0 18 Nov 2023
A Survey on Multimodal Large Language Models Shukang Yin Chaoyou Fu Sirui Zhao Ke Li Xing Sun Tong Bill Xu Enhong Chen MLLM LRM 16 515 0 23 Jun 2023
A Survey of Label-Efficient Deep Learning for 3D Point Clouds Aoran Xiao Xiaoqin Zhang Ling Shao Shijian Lu 3DPC 27 18 0 31 May 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 198 883 0 27 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Contextual Modeling for 3D Dense Captioning on Point Clouds Yufeng Zhong Longdao Xu Jiebo Luo Lin Ma 44 15 0 08 Oct 2022
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding Yanmin Wu Xinhua Cheng Renrui Zhang Zesen Cheng Jian Zhang 41 62 0 29 Sep 2022