CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training

3 October 2022

Bowen Dong

Xiaoshui Huang

Wanli Ouyang

Papers citing "CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training"

50 / 109 papers shown

Title
GAPrompt: Geometry-Aware Point Cloud Prompt for 3D Vision Model Zixiang Ai Zichen Liu Yuanhang Lei Zhenyu Cui Xu Zou Jiahuan Zhou 27 0 0 07 May 2025
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation Emmanuelle Bourigault A. Jamaludin Abdullah Hamdi 23 0 0 09 Apr 2025
Open-Vocabulary Semantic Segmentation with Uncertainty Alignment for Robotic Scene Understanding in Indoor Building Environments Yifan Xu V. Kamat Carol Menassa 47 0 0 29 Mar 2025
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model Zhaochong An Guolei Sun Yun Liu Runjia Li Junlin Han Ender Konukoglu Serge J. Belongie VLM 55 0 0 20 Mar 2025
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding Jinlong Li Cristiano Saltori Fabio Poiesi N. Sebe 76 0 0 20 Mar 2025
PASTA: Part-Aware Sketch-to-3D Shape Generation with Text-Aligned Prior S. Lee Hwanhee Jung Byoungsoo Koh Qixing Huang Sangho Yoon Sangpil Kim 44 0 0 17 Mar 2025
PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models Zilu Guo Hongbin Lin Zhihao Yuan C. Zheng Pengshuo Qiu Dongzhi Jiang Renrui Zhang Chun-Mei Feng Zhen Li MLLM 3DV 85 1 0 13 Mar 2025
Open-Vocabulary Semantic Part Segmentation of 3D Human Keito Suzuki Bang Du Girish Krishnan Kunyao Chen Runfa Li Truong Thao Nguyen 3DH VLM 94 0 0 27 Feb 2025
SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation Junlong Ren Hao Wu Hui Xiong H. Wang 63 0 0 26 Feb 2025
UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting Haoyuan Li Yanpeng Zhou Tao Tang Jifei Song Yihan Zeng Michael C. Kampffmeyer Hang Xu Xiaodan Liang 3DGS 57 1 0 25 Feb 2025
Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition Khanh Nguyen Ghulam Mubashar Hassan Ajmal Saeed Mian 3DPC 42 0 0 15 Feb 2025
Parameter-Efficient Fine-Tuning for Foundation Models Dan Zhang Tao Feng Lilong Xue Yuandong Wang Yuxiao Dong J. Tang 37 6 0 23 Jan 2025
Text-guided Synthetic Geometric Augmentation for Zero-shot 3D Understanding Kohei Torimi Ryosuke Yamada Daichi Otsuka Kensho Hara Yuki M. Asano Hirokatsu Kataoka Y. Aoki 3DV 31 0 0 20 Jan 2025
RW-Net: Enhancing Few-Shot Point Cloud Classification with a Wavelet Transform Projection-based Network Haosheng Zhang Hao Huang 31 0 0 06 Jan 2025
How Panel Layouts Define Manga: Insights from Visual Ablation Experiments Siyuan Feng Teruya Yoshinaga Katsuhiko Hayashi Koki Washio Hidetaka Kamigaito 28 0 0 26 Dec 2024
Unsupervised Region-Based Image Editing of Denoising Diffusion Models Z. Li Yue Song R. Tao Xiaohong Jia Yao Zhao Wei Wang DiffM 78 0 0 17 Dec 2024
Expanding Event Modality Applications through a Robust CLIP-Based Encoder SungHeon Jeong Hanning Chen Sanggeon Yun Suhyeon Cho Wenjun Huang Xiangjian Liu Mohsen Imani 98 1 0 04 Dec 2024
InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception Haijie Li Y. Wu Jiarui Meng Qiankun Gao Zhiyao Zhang Ronggang Wang Jian Andrew Zhang ISeg 89 2 0 28 Nov 2024
XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation Ziyi Wang Y. Wang Xumin Yu Jie Zhou Jiwen Lu 64 0 0 20 Nov 2024
SAMPart3D: Segment Any Part in 3D Objects Y. Yang Yukun Huang Y. Guo Liangjun Lu Xiaoyang Wu Edmund Y. Lam Yan-Pei Cao Xihui Liu VLM 26 7 0 11 Nov 2024
Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention Haomeng Zhang Chiao-An Yang Raymond A. Yeh 29 1 0 29 Oct 2024
SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution Qi Tang Yao Zhao Meiqin Liu Chao Yao VGen DiffM 33 1 0 08 Oct 2024
Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking Ayesha Ishaq Mohamed El Amine Boudjoghra Jean Lahoud F. Khan Salman Khan Hisham Cholakkal Rao Muhammad Anwer 44 1 0 02 Oct 2024
Training-Free Point Cloud Recognition Based on Geometric and Semantic Information Fusion Yan Chen Di Huang Zhichao Liao Xi Cheng Xinghui Li Lone Zeng 3DPC 32 1 0 07 Sep 2024
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners Ziyu Guo Renrui Zhang Xiangyang Zhu Chengzhuo Tong Peng Gao Chunyuan Li Pheng-Ann Heng VGen 3DPC 42 13 0 29 Aug 2024
More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding Yuan Tang Xu Han Xianzhi Li Qiao Yu Jinfeng Xu Yixue Hao Long Hu Min Chen 30 1 0 28 Aug 2024
Vision-Language Guidance for LiDAR-based Unsupervised 3D Object Detection Christian Fruhwirth-Reisinger Wei Lin Dušan Malić Horst Bischof Horst Possegger 3DPC 23 1 0 07 Aug 2024
CLIP-based Point Cloud Classification via Point Cloud to Image Translation S. Ghose Manyi Li Yiming Qian Yang Wang 3DPC VLM 40 0 0 07 Aug 2024
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers Longkun Zou Wanru Zhu Ke Chen Lihua Guo K. Guo Kui Jia Yaowei Wang 3DPC ViT 24 0 0 26 Jul 2024
SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation Pengfei Chen Lingxi Xie Xinyue Huo Xuehui Yu Xiaopeng Zhang Yingfei Sun Zhenjun Han Qi Tian VLM 53 1 0 23 Jul 2024
Multi-modal Relation Distillation for Unified 3D Representation Learning Huiqun Wang Yiping Bao Panwang Pan Zeming Li Xiao Liu Ruijie Yang Di Huang 45 0 0 19 Jul 2024
Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation Pengfei Wang Yuxi Wang Shuai Li Zhaoxiang Zhang Zhen Lei Lei Zhang 28 2 0 18 Jul 2024
Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities Xueye Zheng Yuanhuiyi Lyu Lin Wang VLM 47 10 0 16 Jul 2024
Learning Robust 3D Representation from CLIP via Dual Denoising Shuqing Luo Bowen Qu Wei-Nan Gao 37 1 0 01 Jul 2024
Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation Bingfeng Zhang Siyue Yu Yunchao Wei Yao Zhao Jimin Xiao VLM 33 8 0 17 Jun 2024
Duoduo CLIP: Efficient 3D Understanding with Multi-View Images Han-Hung Lee Yiming Zhang Angel X. Chang 3DPC 36 3 0 17 Jun 2024
OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding Y. Wu Jiarui Meng Haijie Li Chenming Wu Yahao Shi ... Chen Zhao Haocheng Feng Errui Ding Jingdong Wang Jian Andrew Zhang 3DGS 3DPC 31 28 0 04 Jun 2024
DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors Tianyu Huang Yihan Zeng Hui Li Zhilu Zhang Rynson W. H. Lau Wangmeng Zuo Rynson W. H. Lau 3DGS VGen 27 5 0 03 Jun 2024
OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All Yuanhuiyi Lyu Xueye Zheng Dahun Kim Lin Wang 32 10 0 25 May 2024
Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation Jin Wang Bingfeng Zhang Jian Pang Honglong Chen Weifeng Liu VLM 24 6 0 14 May 2024
PRENet: A Plane-Fit Redundancy Encoding Point Cloud Sequence Network for Real-Time 3D Action Recognition Shenglin He Xiaoyang Qu Jiguang Wan Guokuan Li Changsheng Xie Jianzong Wang 3DPC 3DH 33 1 0 11 May 2024
COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval Hao Wu Ruochong Li Hao Wang Hui Xiong 3DPC 30 2 0 07 May 2024
ESP-Zero: Unsupervised enhancement of zero-shot classification for Extremely Sparse Point cloud Jiayi Han Zidi Cao Weibo Zheng Xiangguo Zhou Xiangjian He Yuanfang Zhang Daisen Wei 3DPC 36 0 0 30 Apr 2024
PEVA-Net: Prompt-Enhanced View Aggregation Network for Zero/Few-Shot Multi-View 3D Shape Recognition Dongyun Lin Yi Cheng Shangbo Mao Aiyuan Guo Yiqun Li 24 2 0 30 Apr 2024
OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images Ye Mao Junpeng Jing K. Mikolajczyk VLM 24 0 0 25 Apr 2024
VG4D: Vision-Language Model Goes 4D Video Recognition Zhichao Deng Xiangtai Li Xia Li Yunhai Tong Shen Zhao Mengyuan Liu 3DPC 27 6 0 17 Apr 2024
Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels Amaya Dharmasiri Muzammal Naseer Salman Khan Fahad Shahbaz Khan VLM 3DPC 26 1 0 15 Apr 2024
SUGAR: Pre-training 3D Visual Representations for Robotics Shizhe Chen Ricardo Garcia Pinel Ivan Laptev Cordelia Schmid 37 13 0 01 Apr 2024
GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields Yunsong Wang Hanlin Chen Gim Hee Lee 24 5 0 01 Apr 2024
Meta Episodic learning with Dynamic Task Sampling for CLIP-based Point Cloud Classification S. Ghose Yang Wang 3DPC 25 0 0 01 Apr 2024