End-to-End 3D Dense Captioning with Vote2Cap-DETR

End-to-End 3D Dense Captioning with Vote2Cap-DETR

6 January 2023

Tao Chen

Papers citing "End-to-End 3D Dense Captioning with Vote2Cap-DETR"

8 / 8 papers shown

Title
SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models Shun Taguchi Hideki Deguchi Takumi Hamazaki Hiroyuki Sakai ReLM LRM 40 0 0 08 May 2025
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models Zhangyang Qi Zhixiong Zhang Ye Fang Jiaqi Wang Hengshuang Zhao 83 6 0 02 Jan 2025
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences Hongyan Zhi Peihao Chen Junyan Li Shuailei Ma Xinyu Sun Tianhang Xiang Yinjie Lei Mingkui Tan Chuang Gan 67 3 0 02 Dec 2024
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness Chenming Zhu Tai Wang Wenwei Zhang Jiangmiao Pang Xihui Liu 93 29 0 26 Sep 2024
M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts Mingsheng Li Xin Chen C. Zhang Sijin Chen Hongyuan Zhu Fukun Yin Gang Yu Tao Chen 17 23 0 17 Dec 2023
LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning Sijin Chen Xin Chen C. Zhang Mingsheng Li Gang Yu Hao Fei Hongyuan Zhu Jiayuan Fan Tao Chen MLLM 24 76 0 30 Nov 2023
Contextual Modeling for 3D Dense Captioning on Point Clouds Yufeng Zhong Longdao Xu Jiebo Luo Lin Ma 44 15 0 08 Oct 2022
SportsCap: Monocular 3D Human Motion Capture and Fine-grained Understanding in Challenging Sports Videos Xin Chen Anqi Pang Wei Yang Yuexin Ma Lan Xu Jingyi Yu 114 55 0 23 Apr 2021