Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer?

Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer?

15 September 2022

Hehe Fan

Papers citing "Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer?"

7 / 7 papers shown

Title
Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics Lukas Klein Carsten T. Lüth U. Schlegel Till J. Bungert Mennatallah El-Assady Paul F. Jäger XAI ELM 29 1 0 03 Jan 2025
OmniVec: Learning robust representations with cross modal sharing Siddharth Srivastava Gaurav Sharma SSL 16 64 0 07 Nov 2023
Omnivore: A Single Model for Many Visual Modalities Rohit Girdhar Mannat Singh Nikhil Ravi L. V. D. van der Maaten Armand Joulin Ishan Misra 209 222 0 20 Jan 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Yin Cui Boqing Gong ViT 231 573 0 22 Apr 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,939 0 09 Feb 2021
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation C. Qi Hao Su Kaichun Mo Leonidas J. Guibas 3DH 3DPC 3DV PINN 219 13,886 0 02 Dec 2016