Back to the Features: DINO as a Foundation for Video World Models

Back to the Features: DINO as a Foundation for Video World Models

25 July 2025

Federico Baldassarre

Marc Szafraniec

Francisco Massa

Patrick Labatut

Maximilian Seitzer

Piotr Bojanowski

ArXiv (abs)PDF HTML

Papers citing "Back to the Features: DINO as a Foundation for Video World Models"

11 / 11 papers shown

Title
Weakly-supervised Latent Models for Task-specific Visual-Language Control Xian Yeow Lee Lasitha Vidyaratne Gregory Sin Ahmed K. Farahat Chetan Gupta 64 0 0 23 Nov 2025
X-WIN: Building Chest Radiograph World Model via Predictive Sensing Zefan Yang Ge Wang James A. Hendler Mannudeep K. Kalra Pingkun Yan MedIm 149 0 0 18 Nov 2025
SRNN: Spatiotemporal Relational Neural Network for Intuitive Physics Understanding Fei Yang 101 0 0 10 Nov 2025
Learning Interactive World Model for Object-Centric Reinforcement Learning Fan Feng Phillip Lippe Sara Magliacane OffRL OCL 286 0 0 04 Nov 2025
A Comprehensive Survey on World Models for Embodied AI Xinqing Li Xin He Le Zhang Yun-Hai Liu Xiaoli Li Yun Liu VGen LM&Ro SyDa 228 2 0 19 Oct 2025
Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation Yifei Dong Fengyi Wu Guangyu Chen Zhi-Qi Cheng Qiyu Hu Yuxuan Zhou Yuxuan Zhou Jun-Yan He Jingdong Sun Alexander G. Hauptmann 105 3 0 09 Oct 2025
Aligning Perception, Reasoning, Modeling and Interaction: A Survey on Physical AI Kun Xiang Terry Jingchen Zhang Yinya Huang Jixi He Zirong Liu ... J. N. Han Hang Xu Han Li Bin Dong Xiaodan Liang PINN AI4CE 348 1 0 06 Oct 2025
Foundation Visual Encoders Are Secretly Few-Shot Anomaly Detectors Guangyao Zhai Yue Zhou Xinyan Deng Lars Heckler Nassir Navab Benjamin Busam 112 0 0 02 Oct 2025
Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers Xianhang Li Chen Huang Chun-Liang Li Eran Malach J. Susskind Vimal Thilak Etai Littwin 134 1 0 29 Sep 2025
MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation Yu Shang Yangcheng Yu Xin Zhang Xin Jin Haisheng Su Wei Wu Yong Li VGen 155 1 0 26 Sep 2025
LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE Yu Shang Lei Jin Yiding Ma Xin Zhang Chen Gao Wei Wu Yong Li DiffM VGen 140 1 0 26 Sep 2025