Scalable 3D Captioning with Pretrained Models

12 June 2023

Papers citing "Scalable 3D Captioning with Pretrained Models"

30 / 30 papers shown

Title
Anymate: A Dataset and Baselines for Learning 3D Object Rigging Yufan Deng Yuhao Zhang Chen Geng Shangzhe Wu Jiajun Wu 3DH 50 0 0 09 May 2025
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes Ahmed Abdelreheem Filippo Aleotti Jamie Watson Z. Qureshi Abdelrahman Eldesokey Peter Wonka Gabriel J. Brostow Sara Vicente Guillermo Garcia-Hernando DiffM 50 0 0 08 May 2025
STP4D: Spatio-Temporal-Prompt Consistent Modeling for Text-to-4D Gaussian Splatting Yunze Deng Haijun Xiong Bin Feng X. Wang W. Liu 3DGS 42 0 0 25 Apr 2025
Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis J. Huang Baoxiong Jia Y. Wang Ziyu Zhu Xiongkun Linghu Qing Li Song-Chun Zhu Siyuan Huang 75 3 0 28 Mar 2025
TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction Xuying Zhang Yutong Liu Yangguang Li Renrui Zhang Y. Liu ... Wanli Ouyang Zhiwei Xiong Peng Gao Qibin Hou Ming-Ming Cheng 118 3 0 13 Mar 2025
UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting Haoyuan Li Yanpeng Zhou Tao Tang Jifei Song Yihan Zeng Michael C. Kampffmeyer Hang Xu Xiaodan Liang 3DGS 57 1 0 25 Feb 2025
UVGS: Reimagining Unstructured 3D Gaussian Splatting using UV Mapping Aashish Rai Dilin Wang Mihir Jain N. Sarafianos Arthur Chen Srinath Sridhar Aayush Prakash 3DGS 72 1 0 03 Feb 2025
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation Chenguo Lin Panwang Pan Bangbang Yang Zeming Li Yadong Mu 3DGS 74 7 0 28 Jan 2025
OneLLM: One Framework to Align All Modalities with Language Jiaming Han Kaixiong Gong Yiyuan Zhang Jiaqi Wang Kaipeng Zhang D. Lin Yu Qiao Peng Gao Xiangyu Yue MLLM 104 107 0 10 Jan 2025
Taming Feed-forward Reconstruction Models as Latent Encoders for 3D Generative Models Suttisak Wizadwongsa Jinfan Zhou Edward Li Jeong Joon Park 3DV 55 0 0 31 Dec 2024
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE Yongwei Chen Yushi Lan Shangchen Zhou Tengfei Wang Xingang Pan 100 5 0 25 Nov 2024
Diffusion Models in 3D Vision: A Survey Zhen Wang Dongyuan Li Renhe Jiang Tianyu He Jiang Bian Renhe Jiang MedIm 58 4 0 07 Oct 2024
Atlas Gaussians Diffusion for 3D Generation Haitao Yang Yuan Dong Hanwen Jiang Dejia Xu Georgios Pavlakos Qixing Huang 3DGS 67 3 0 23 Aug 2024
Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation Utkarsh Nath Rajeev Goel Eun Som Jeon Changhoon Kim Kyle Min Yezhou Yang Yingzhen Yang P. Turaga 41 1 0 12 Aug 2024
Duoduo CLIP: Efficient 3D Understanding with Multi-View Images Han-Hung Lee Yiming Zhang Angel X. Chang 3DPC 36 3 0 17 Jun 2024
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data Qihao Liu Yi Zhang Song Bai Adam Kortylewski Alan Yuille 34 9 0 06 Jun 2024
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting Zhiqi Li Yiming Chen Lingzhe Zhao Peidong Liu DiffM 3DGS 56 17 0 15 Mar 2024
SPAD : Spatially Aware Multiview Diffusers Yash Kant Ziyi Wu Michael Vasilkovsky Guocheng Qian Jian Ren R. A. Guler Bernard Ghanem Sergey Tulyakov Igor Gilitschenski Aliaksandr Siarohin DiffM 22 34 0 07 Feb 2024
Uni3DL: Unified Model for 3D and Language Understanding Xiang Li Jian Ding Zhaoyang Chen Mohamed Elhoseiny 26 3 0 05 Dec 2023
LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning Sijin Chen Xin Chen C. Zhang Mingsheng Li Gang Yu Hao Fei Hongyuan Zhu Jiayuan Fan Tao Chen MLLM 24 77 0 30 Nov 2023
DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model Yinghao Xu Hao Tan Fujun Luan Sai Bi Peng Wang ... Zifan Shi Kalyan Sunkavalli Gordon Wetzstein Zexiang Xu Kai Zhang 33 153 0 15 Nov 2023
Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model Jiahao Li Hao Tan Kai Zhang Zexiang Xu Fujun Luan Yinghao Xu Yicong Hong Kalyan Sunkavalli Greg Shakhnarovich Sai Bi 43 254 0 10 Nov 2023
3D-Aware Visual Question Answering about Parts, Poses and Occlusions Xingrui Wang Wufei Ma Zhuowan Li Adam Kortylewski Alan L. Yuille CoGe 19 12 0 27 Oct 2023
Shap-E: Generating Conditional 3D Implicit Functions Heewoo Jun Alex Nichol DiffM 192 309 0 03 May 2023
3DGen: Triplane Latent Diffusion for Textured Mesh Generation Anchit Gupta Wenhan Xiong Yixin Nie Anchit Gupta Barlas Oğuz DiffM 98 156 0 09 Mar 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 388 4,110 0 28 Jan 2022
ABO: Dataset and Benchmarks for Real-World 3D Object Understanding Jasmine Collins Shubham Goel Kenan Deng Achleshwar Luthra Leon L. Xu ... T. F. Y. Vicente T. Dideriksen H. Arora M. Guillaumin Jitendra Malik 146 217 0 12 Oct 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,764 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 1,077 0 17 Feb 2021
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 189 434 0 27 Mar 2018