3D Vision and Language Pretraining with Large-Scale Synthetic Data

8 July 2024

Papers citing "3D Vision and Language Pretraining with Large-Scale Synthetic Data"

3 / 3 papers shown

Title
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning Yanjun Chen Yirong Sun Xinghao Chen Jian Wang Xiaoyu Shen W. Li Wei Zhang 3DV LRM 51 1 0 08 Mar 2025
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding Minghang Zheng Jiahua Zhang Qingchao Chen Yuxin Peng Yang Liu ObjD 19 2 0 29 Aug 2024
Training-free Video Temporal Grounding using Large-scale Pre-trained Models Minghang Zheng Xinhao Cai Qingchao Chen Yuxin Peng Yang Liu 32 4 0 29 Aug 2024