Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

19 January 2023

Pascal Vincent

Papers citing "Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture"

50 / 67 papers shown

Title
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions Qingwen Bu Y. Yang Jisong Cai Shenyuan Gao Guanghui Ren Maoqing Yao Ping Luo Hongyang Li 60 0 0 09 May 2025
Towards a Unified Representation Evaluation Framework Beyond Downstream Tasks Christos Plachouras Julien Guinot George Fazekas Elio Quinton Emmanouil Benetos Johan Pauwels 62 1 0 09 May 2025
Looking Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models Aarti Ghatkesar Uddeshya Upadhyay Ganesh Venkatesh VLM 31 0 0 08 May 2025
seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models Hafez Ghaemi Eilif Muller Shahab Bakhtiari 44 0 0 06 May 2025
Contextures: Representations from Contexts Runtian Zhai Kai Yang Che-Ping Tsai Burak Varici Zico Kolter Pradeep Ravikumar 65 0 0 02 May 2025
CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis Alexander Baumann Leonardo Ayala S. Jan Sellner Alexander Studier-Fischer Berkin Özdemir Lena Maier-Hein Slobodan Ilic 51 0 0 27 Apr 2025
JEPA for RL: Investigating Joint-Embedding Predictive Architectures for Reinforcement Learning Tristan Kenneweg Philip Kenneweg Barbara Hammer AI4TS 25 0 0 23 Apr 2025
Can Masked Autoencoders Also Listen to Birds? Lukas Rauch Ilyass Moummad René Heinrich Alexis Joly Bernhard Sick Christoph Scholz 27 0 0 17 Apr 2025
Evolved Hierarchical Masking for Self-Supervised Learning Zhanzhou Feng Shiliang Zhang 37 0 0 12 Apr 2025
Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image Retrieval Yuanmin Tang Jing Yu Keke Gai Jiamin Zhuang Gang Xiong Gaopeng Gou Qi Wu VGen 39 1 0 21 Mar 2025
TULIP: Towards Unified Language-Image Pretraining Zineng Tang Long Lian Seun Eisape Xudong Wang Roei Herzig Adam Yala Alane Suhr Trevor Darrell David M. Chan VLM CLIP MLLM 95 3 0 19 Mar 2025
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning Xin Wen Bingchen Zhao Yilun Chen Jiangmiao Pang Xiaojuan Qi LM&Ro 39 0 0 10 Mar 2025
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei K. Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
Learning Actionable World Models for Industrial Process Control Peng Yan Ahmed Abdulkadir Gerrit A. Schatte Giulia Anguzzi Joonsu Gha Nikola Pascher Matthias Rosenthal Yunlong Gao Benjamin Grewe Thilo Stadelmann DRL AI4CE 49 0 0 03 Mar 2025
MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations Benedikt Alkin Lukas Miklautz Sepp Hochreiter Johannes Brandstetter VLM 63 8 0 24 Feb 2025
UNION: Unsupervised 3D Object Detection using Object Appearance-based Pseudo-Classes T. Lentsch Holger Caesar D. Gavrila 3DPC 89 7 0 20 Feb 2025
Simplifying DINO via Coding Rate Regularization Ziyang Wu Jingyuan Zhang Druv Pai X. Wang Chandan Singh Jianwei Yang Jianfeng Gao Yi-An Ma 122 1 0 17 Feb 2025
Leveraging Joint Predictive Embedding and Bayesian Inference in Graph Self Supervised Learning Srinitish Srinivasan Omkumar CU SSL BDL 44 0 0 02 Feb 2025
Memory Storyboard: Leveraging Temporal Segmentation for Streaming Self-Supervised Learning from Egocentric Videos Yanlai Yang Mengye Ren 113 0 0 21 Jan 2025
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures Alain Riou Antonin Gagnere Gaëtan Hadjeres Stefan Lattner Geoffroy Peeters 86 0 0 29 Nov 2024
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos Xinhao Liu J. Li Yichen Jiang Niranjan Sujay Z. Yang Juexiao Zhang John Abanes Jing Zhang Chen Feng 112 1 0 26 Nov 2024
RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training Raktim Gautam Goswami P. Krishnamurthy Yann LeCun Farshad Khorrami 90 1 0 26 Nov 2024
EchoFM: Foundation Model for Generalizable Echocardiogram Analysis Sekeun Kim Pengfei Jin S. Song Cheng Chen Yiwei Li Hui Ren Xiang Li Tianming Liu Quanzheng Li 34 0 0 30 Oct 2024
Revisiting MAE pre-training for 3D medical image segmentation Tassilo Wald Constantin Ulrich Stanislav Lukyanenko Andrei Goncharov Alberto Paderno Leander Maerkisch Paul F. Jäger Paul F. Jäger Klaus Maier-Hein 37 2 0 30 Oct 2024
TIPS: Text-Image Pretraining with Spatial awareness Kevis-Kokitsi Maninis Kaifeng Chen Soham Ghosh Arjun Karpur Koert Chen ... Jan Dlabal Dan Gnanapragasam Mojtaba Seyedhosseini Howard Zhou Andre Araujo VLM 30 3 0 21 Oct 2024
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think Sihyun Yu Sangkyung Kwak Huiwon Jang Jongheon Jeong Jonathan Huang Jinwoo Shin Saining Xie OCL 68 62 0 09 Oct 2024
T-JEPA: Augmentation-Free Self-Supervised Learning for Tabular Data Hugo Thimonier José Lucas De Melo Costa Fabrice Popineau Arpad Rimmel Bich-Liên Doan 53 1 0 07 Oct 2024
PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation Mike Ranzinger Jon Barker Greg Heinrich Pavlo Molchanov Bryan Catanzaro Andrew Tao 28 4 0 02 Oct 2024
DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control Zichen Jeff Cui Hengkai Pan Aadhithya Iyer Siddhant Haldar Lerrel Pinto VGen 24 9 0 18 Sep 2024
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding Yunze Man Shuhong Zheng Zhipeng Bao M. Hebert Liang-Yan Gui Yu-xiong Wang 70 15 0 05 Sep 2024
A Survey of the Self Supervised Learning Mechanisms for Vision Transformers Asifullah Khan A. Sohail M. Fiaz Mehdi Hassan Tariq Habib Afridi ... Muhammad Zaigham Zaheer Kamran Ali Tangina Sultana Ziaurrehman Tanoli Naeem Akhter 41 3 0 30 Aug 2024
PooDLe: Pooled and dense self-supervised learning from naturalistic videos Alex N. Wang Christopher Hoang Yuwen Xiong Yann LeCun Mengye Ren 64 0 0 20 Aug 2024
CNN-JEPA: Self-Supervised Pretraining Convolutional Neural Networks Using Joint Embedding Predictive Architecture András Kalapos Bálint Gyires-Tóth 33 2 0 14 Aug 2024
Joint-Embedding Predictive Architecture for Self-Supervised Learning of Mask Classification Architecture Donghee Kim Sungduk Cho Hyeonwoo Cho Chanmin Park Jinyoung Kim Won Hwa Kim 38 0 0 15 Jul 2024
Representation Learning and Identity Adversarial Training for Facial Behavior Understanding Mang Ning A. A. Salah Itir Onal Ertugrul CVBM 73 4 0 15 Jul 2024
Video-to-Audio Generation with Hidden Alignment Manjie Xu Chenxing Li Yong Ren Rilin Chen Yu Gu Yu Gu Dong Yu Dong Yu DiffM VGen 43 11 0 10 Jul 2024
Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review Moseli Motsóehli VLM 3DV 25 0 0 28 Jun 2024
UniZero: Generalized and Efficient Planning with Scalable Latent World Models Yuan Pu Yazhe Niu Jiyuan Ren Zhenjie Yang Hongsheng Li Yu Liu OffRL 38 1 0 15 Jun 2024
A deep cut into Split Federated Self-supervised Learning Marcin Przewiȩźlikowski Marcin Osial Bartosz Zieliñski Marek 'Smieja FedML 38 0 0 12 Jun 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 67 41 0 23 May 2024
LaT-PFN: A Joint Embedding Predictive Architecture for In-context Time-series Forecasting Stijn Verdenius Andrea Zerio Roy L.M. Wang BDL AI4TS AI4CE 32 2 0 16 May 2024
Modeling Caption Diversity in Contrastive Vision-Language Pretraining Samuel Lavoie Polina Kirichenko Mark Ibrahim Mahmoud Assran Andrew Gordon Wilson Aaron Courville Nicolas Ballas CLIP VLM 59 19 0 30 Apr 2024
Point-JEPA: A Joint Embedding Predictive Architecture for Self-Supervised Learning on Point Cloud Ayumu Saito Prachi Kudeshia Jiju Poovvancheri 3DPC 33 7 0 25 Apr 2024
OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks Sophia Sirko-Galouchenko Alexandre Boulch Spyros Gidaris Andrei Bursuc Antonín Vobecký Patrick Pérez Renaud Marlet 3DPC 30 7 0 22 Apr 2024
Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements Robin Weiler Matthias Brucklacher C. Pennartz Sander M. Bohté 29 0 0 12 Apr 2024
OmniSat: Self-Supervised Modality Fusion for Earth Observation Guillaume Astruc Nicolas Gonthier Clement Mallet Loic Landrieu 28 24 0 12 Apr 2024
Dissecting Query-Key Interaction in Vision Transformers Xu Pan Aaron Philip Ziqian Xie Odelia Schwartz 30 1 0 04 Apr 2024
Joint-Embedding Masked Autoencoder for Self-supervised Learning of Dynamic Functional Connectivity from the Human Brain Jungwon Choi Hyungi Lee Byung-Hoon Kim Juho Lee 72 0 0 11 Mar 2024
GenAINet: Enabling Wireless Collective Intelligence via Knowledge Transfer and Reasoning Han Zou Qiyang Zhao Lina Bariah Yu Tian M. Bennis S. Lasaulce 91 12 0 26 Feb 2024
RudolfV: A Foundation Model by Pathologists for Pathologists Jonas Dippel Barbara Feulner Tobias Winterhoff Timo Milbich Stephan Tietz ... David Horst Lukas Ruff Klaus-Robert Muller Frederick Klauschen Maximilian Alber 23 28 0 08 Jan 2024