Deep ViT Features as Dense Visual Descriptors

10 December 2021

Papers citing "Deep ViT Features as Dense Visual Descriptors"

50 / 220 papers shown

Title
In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation Dahyun Kang Minsu Cho ObjD VLM 24 9 0 09 Aug 2024
Adapting Skills to Novel Grasps: A Self-Supervised Approach Georgios Papagiannis Kamil Dreczkowski Vitalis Vosylius Arno Solin SSL 26 0 0 31 Jul 2024
Improving 2D Feature Representations by 3D-Aware Fine-Tuning Yuanwen Yue Anurag Das Francis Engelmann Siyu Tang J. E. Lenssen 38 23 0 29 Jul 2024
SHIC: Shape-Image Correspondences with no Keypoint Supervision Aleksandar Shtedritski Christian Rupprecht Andrea Vedaldi 3DPC 3DH 3DV 17 3 0 26 Jul 2024
The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations Jan Ole von Hartz Tim Welschehold Abhinav Valada Joschka Boedecker 16 7 0 18 Jul 2024
R+X: Retrieval and Execution from Everyday Human Videos Georgios Papagiannis Norman Di Palo Pietro Vitiello Edward Johns 48 15 0 17 Jul 2024
SpaceJAM: a Lightweight and Regularization-free Method for Fast Joint Alignment of Images Nir Barel R. Weber Nir Mualem Shahaf E. Finder O. Freifeld 42 1 0 16 Jul 2024
Part2Object: Hierarchical Unsupervised 3D Instance Segmentation Cheng Shi Yulin Zhang Bin Yang Jiajin Tang Yuexin Ma Sibei Yang 3DPC 29 1 0 14 Jul 2024
CLOVER: Context-aware Long-term Object Viewpoint- and Environment- Invariant Representation Learning Dongmyeong Lee Amanda Adkins Joydeep Biswas 24 0 0 12 Jul 2024
3x2: 3D Object Part Segmentation by 2D Semantic Correspondences Anh Thai Weiyao Wang Hao Tang Stefan Stojanov Matt Feiszli James M. Rehg 3DPC 29 3 0 12 Jul 2024
FM-OSD: Foundation Model-Enabled One-Shot Detection of Anatomical Landmarks Juzheng Miao Cheng Chen Keli Zhang Jie Chuai Quanzheng Li Pheng-Ann Heng 24 0 0 07 Jul 2024
PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers Ananthu Aniraj C. Dantas Dino Ienco Diego Marcos 29 1 0 05 Jul 2024
Label-free Neural Semantic Image Synthesis Jiayi Wang Kevin Laube Yumeng Li J. H. Metzen Shin-I Cheng Julio Borges Anna Khoreva DiffM 23 0 0 01 Jul 2024
SpotlessSplats: Ignoring Distractors in 3D Gaussian Splatting S. Sabour Lily Goli George Kopanas Mark J. Matthews Dmitry Lagun Leonidas J. Guibas Alec Jacobson David J. Fleet Andrea Tagliasacchi 26 18 0 28 Jun 2024
Cycle-Correspondence Loss: Learning Dense View-Invariant Visual Features from Unlabeled and Unordered RGB Images David B. Adrian A. Kupcsik Markus Spies Heiko Neumann SSL 19 0 0 18 Jun 2024
AToM-Bot: Embodied Fulfillment of Unspoken Human Needs with Affective Theory of Mind Wei Ding Fanhong Li Ziteng Ji Zhengrong Xue Jia Liu LM&Ro 31 0 0 12 Jun 2024
Eye-for-an-eye: Appearance Transfer with Semantic Correspondence in Diffusion Models Sooyeon Go Kyungmook Choi Minjung Shin Youngjung Uh DiffM 29 2 0 11 Jun 2024
UVIS: Unsupervised Video Instance Segmentation Shuaiyi Huang Saksham Suri Kamal Gupta Sai Saketh Rambhatla Ser-Nam Lim Abhinav Shrivastava VLM 26 3 0 11 Jun 2024
Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph S. Linok T. Zemskova Svetlana Ladanova Roman Titkov Dmitry A. Yudin Maxim Monastyrny Aleksei Valenkov LM&Ro 43 0 0 11 Jun 2024
The 3D-PC: a benchmark for visual perspective taking in humans and machines Drew Linsley Peisen Zhou A. Ashok Akash Nagaraj Gaurav Gaonkar Francis E Lewis Zygmunt Pizlo Thomas Serre 37 6 0 06 Jun 2024
$$\textit{S}^3$Gaussian: Self-Supervised Street Gaussians for Autonomous Driving$ $\textit{S}^3$ Gaussian: Self-Supervised Street Gaussians for Autonomous Driving Nan Huang Xiaobao Wei Wenzhao Zheng Pengju An Ming Lu Wei Zhan Masayoshi Tomizuka Kurt Keutzer Shanghang Zhang 3DGS 26 27 0 30 May 2024
Learning Robust Correlation with Foundation Model for Weakly-Supervised Few-Shot Segmentation Xinyang Huang Chuanglu Zhu Kebin Liu Ruiying Ren Shengjie Liu 25 2 0 30 May 2024
EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition Issar Tzachor Boaz Lerner Matan Levy Michael Green T. Shalev ... Dvir Samuel Noam Korngut Zailer O. Shimshi N. Darshan Rami Ben-Ari 24 4 0 28 May 2024
Recasting Generic Pretrained Vision Transformers As Object-Centric Scene Encoders For Manipulation Policies Jianing Qian Anastasios Panagopoulos Dinesh Jayaraman LM&Ro ViT 38 5 0 24 May 2024
Visuo-Tactile Keypoint Correspondences for Object Manipulation Jeong-Jung Kim Dooyeol Koh Chang-Hyun Kim 25 0 0 23 May 2024
Dusk Till Dawn: Self-supervised Nighttime Stereo Depth Estimation using Visual Foundation Models M. Vankadari Samuel Hodgson Sangyun Shin Kaichen Zhou Andrew Markham Niki Trigoni MDE 24 3 0 18 May 2024
Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals Oliver Hahn Nikita Araslanov Simone Schaub-Meyer Stefan Roth 3DPC 28 3 0 25 Apr 2024
Representing Part-Whole Hierarchies in Foundation Models by Learning Localizability, Composability, and Decomposability from Anatomy via Self-Supervision M. Taher Michael B. Gotway Jianming Liang MedIm 19 4 0 24 Apr 2024
Composing Pre-Trained Object-Centric Representations for Robotics From "What" and "Where" Foundation Models Junyao Shi Jianing Qian Yecheng Jason Ma Dinesh Jayaraman OCL 24 4 0 20 Apr 2024
Probing the 3D Awareness of Visual Foundation Models Mohamed El Banani Amit Raj Kevis-Kokitsi Maninis Abhishek Kar Yuanzhen Li Michael Rubinstein Deqing Sun Leonidas J. Guibas Justin Johnson Varun Jampani 25 79 0 12 Apr 2024
Learning 3D-Aware GANs from Unposed Images with Template Feature Field Xinya Chen Hanlei Guo Yanrui Bin Shangzhan Zhang Yuanbo Yang Yue Wang Yujun Shen Yiyi Liao 3DH 24 2 0 08 Apr 2024
LOSS-SLAM: Lightweight Open-Set Semantic Simultaneous Localization and Mapping Kurran Singh Tim Magoun John J. Leonard 28 1 0 05 Apr 2024
Dissecting Query-Key Interaction in Vision Transformers Xu Pan Aaron Philip Ziqian Xie Odelia Schwartz 25 1 0 04 Apr 2024
Masked Completion via Structured Diffusion with White-Box Transformers Druv Pai Ziyang Wu Sam Buchanan Yaodong Yu Yi-An Ma 27 12 0 03 Apr 2024
Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics Norman Di Palo Edward Johns 41 30 0 28 Mar 2024
LiFT: A Surprisingly Simple Lightweight Feature Transform for Dense ViT Descriptors Saksham Suri Matthew Walmer Kamal Gupta Abhinav Shrivastava 31 4 0 21 Mar 2024
DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video Narek Tumanyan Assaf Singer Shai Bagon Tali Dekel MQ 26 28 0 21 Mar 2024
VXP: Voxel-Cross-Pixel Large-scale Image-LiDAR Place Recognition Yun-Jin Li M. Gladkova Yan Xia Rui Wang Daniel Cremers 19 5 0 21 Mar 2024
Selective, Interpretable, and Motion Consistent Privacy Attribute Obfuscation for Action Recognition Filip Ilic Henghui Zhao T. Pock Richard P. Wildes PICV AAML 28 2 0 19 Mar 2024
Zero-Shot Image Feature Consensus with Deep Functional Maps Xinle Cheng Congyue Deng Adam W. Harley Yixin Zhu Leonidas J. Guibas 29 0 0 18 Mar 2024
Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence Sung‐Jin Hong Seokju Cho Seungryong Kim Stephen Lin ViT 48 5 0 17 Mar 2024
Self-supervised co-salient object detection via feature correspondence at multiple scales Souradeep Chakraborty Dimitris Samaras 23 1 0 17 Mar 2024
Endora: Video Generation Models as Endoscopy Simulators Chenxin Li Hengyu Liu Yifan Liu Brandon Yushan Feng Wuyang Li Xinyu Liu Zhen Chen Jing Shao Yixuan Yuan VGen MedIm 77 33 0 17 Mar 2024
FeatUp: A Model-Agnostic Framework for Features at Any Resolution Stephanie Fu Mark Hamilton Laura E. Brandt Axel Feldmann Zhoutong Zhang William T. Freeman MDE 22 49 0 15 Mar 2024
Towards Zero-Shot Interpretable Human Recognition: A 2D-3D Registration Framework Henrique Jesus Hugo Proença 28 0 0 11 Mar 2024
OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation Baran Ozaydin Tong Zhang Deblina Bhattacharjee Sabine Süsstrunk Mathieu Salzmann 21 1 0 11 Mar 2024
3D-aware Image Generation and Editing with Multi-modal Conditions Bo Li Yike Li Zhien He Bin Liu Yu-Kun Lai 27 2 0 11 Mar 2024
Bi-KVIL: Keypoints-based Visual Imitation Learning of Bimanual Manipulation Tasks Jianfeng Gao Xiaoshu Jin F. Krebs Noémie Jaquier Tamim Asfour SSL 26 14 0 05 Mar 2024
Deformable One-shot Face Stylization via DINO Semantic Guidance Yang Zhou Zichong Chen Hui Huang CVBM 32 5 0 01 Mar 2024
Objective and Interpretable Breast Cosmesis Evaluation with Attention Guided Denoising Diffusion Anomaly Detection Model Sang-Il Park Yong Bae Kim J. Chang Seo Hee Choi Hyungjin Chung Ik-jae Lee H. Byun DiffM MedIm 14 0 0 28 Feb 2024