Title
PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop Chenyu Li Oscar Michel Xichen Pan Sainan Liu Mike Roberts Saining Xie VGen 195 20 0 12 Mar 2025
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation Hyeonho Jeong Suhyeon Lee Jong Chul Ye VGen 1.1K 9 0 12 Mar 2025
Infinite Leagues Under the Sea: Photorealistic 3D Underwater Terrain Generation by Latent Fractal Diffusion Models Tianyi Zhang Weiming Zhi Joshua Mangelson Matthew Johnson-Roberson 204 0 0 09 Mar 2025
Online Dense Point Tracking with Streaming Memory Qiaole Dong Yanwei Fu 274 1 0 09 Mar 2025
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models Mark YU Wenbo Hu Jinbo Xing Mingyu Ding VGen 283 35 0 07 Mar 2025
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera ControlComputer Vision and Pattern Recognition (CVPR), 2025 Xuanchi Ren Tianchang Shen Jiahui Huang Huan Ling Yifan Lu Merlin Nimier-David Thomas Muller Alexander Keller Sanja Fidler Jun Gao DiffM VGen 291 113 0 05 Mar 2025
L4P: Towards Unified Low-Level 4D Vision Perception Abhishek Badki Hang Su Bowen Wen Orazio Gallo VLM 433 6 0 18 Feb 2025
Dynamic Scene Understanding through Object-Centric Voxelization and Neural RenderingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 Yanpeng Zhao Yiwei Hao Siyu Gao Yunbo Wang Xiaokang Yang OCL 386 4 0 17 Feb 2025
Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model Zinan Lin Tadas Baltrusaitis Wenyu Wang Sergey Yekhanin SyDa 393 7 0 08 Feb 2025
Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional GenerationInternational Conference on Learning Representations (ICLR), 2025 Adil Kaan Akan Yucel Yemez DiffM OCL 348 4 0 27 Jan 2025
Learning segmentation from point trajectoriesNeural Information Processing Systems (NeurIPS), 2025 Laurynas Karazija Iro Laina Christian Rupprecht Andrea Vedaldi 3DPC 845 8 0 21 Jan 2025
Slot-BERT: Self-supervised Object Discovery in Surgical Video Guiqiu Liao M. Jogan Marcel Hussing Kenta Nakahashi Kazuhiro Yasufuku Amin Madani Eric Eaton Daniel A. Hashimoto 1.0K 2 0 21 Jan 2025
Scaling 4D Representations João Carreira Dilara Gokay Michael King Chuhan Zhang Ignacio Rocco ... Viorica Patraucean Dima Damen Pauline Luc Mehdi S. M. Sajjadi Andrew Zisserman 383 17 0 19 Dec 2024
MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized DataComputer Vision and Pattern Recognition (CVPR), 2024 Hanwen Jiang Zexiang Xu Desai Xie Zheyu Chen Haian Jin ... Xin Sun Jiuxiang Gu Qixing Huang Georgios Pavlakos Hao Tan 900 8 0 18 Dec 2024
Efficient Object-centric Representation Learning with Pre-trained Geometric Prior Phúc H. Lê Khắc Graham Healy Alan F. Smeaton OCL 306 1 0 16 Dec 2024
Proc-GS: Procedural Building Generation for City Assembly with 3D Gaussians Shouqing Yang Xingjian Ran Linning Xu Tao Lu Mulin Yu Zhenzhi Wang Yuanbo Xiangli Dahua Lin Bo Dai 3DGS 226 6 0 10 Dec 2024
Using Diffusion Priors for Video Amodal SegmentationComputer Vision and Pattern Recognition (CVPR), 2024 Kaihua Chen Deva Ramanan Tarasha Khurana DiffM VOS VGen 168 8 0 05 Dec 2024
EgoPoints: Advancing Point Tracking for Egocentric VideosIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Ahmad Darkhalil Rhodri Guerrier Adam W. Harley Dima Damen 244 6 0 05 Dec 2024
CAT4D: Create Anything in 4D with Multi-View Video Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2024 Rundi Wu Ruiqi Gao Ben Poole Alex Trevithick Changxi Zheng Jonathan T. Barron Aleksander Holyñski VGen 374 100 0 27 Nov 2024
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video Jinyuan Qu Hongyang Li Shilong Liu Tianhe Ren Zhaoyang Zeng Lei Zhang 3DPC 469 5 0 27 Nov 2024
Generative Omnimatte: Learning to Decompose Video into LayersComputer Vision and Pattern Recognition (CVPR), 2024 Yao-Chih Lee Erika Lu Sarah Rumbley Michal Geyer Jia-Bin Huang Tali Dekel Forrester Cole DiffM VGen 410 12 0 25 Nov 2024
LaVin-DiT: Large Vision Diffusion TransformerComputer Vision and Pattern Recognition (CVPR), 2024 Zhaoqing Wang Xiaobo Xia Runnan Chen Dongdong Yu Changhu Wang Mingming Gong Tongliang Liu 485 19 0 18 Nov 2024
MFTIQ: Multi-Flow Tracker with Independent Matching Quality EstimationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Jonas Serych Michal Neoral Jirí Matas 272 4 0 14 Nov 2024
Towards an Efficient Synthetic Image Data Pipeline for Training Vision-Based Robot Systems Peter Gavriel Adam Norton Kenneth Kimble Megan Zimmerman 221 1 0 09 Nov 2024
Moving Off-the-Grid: Scene-Grounded Video RepresentationsNeural Information Processing Systems (NeurIPS), 2024 Sjoerd van Steenkiste Daniel Zoran Yi Yang Yulia Rubanova Rishabh Kabra ... Thomas Keck João Carreira Alexey Dosovitskiy Mehdi S. M. Sajjadi Thomas Kipf 244 9 0 08 Nov 2024
Few-Shot Task Learning through Inverse Generative ModelingNeural Information Processing Systems (NeurIPS), 2024 Aviv Netanyahu Yilun Du Antonia Bronars Jyothish Pari J. Tenenbaum Tianmin Shu Pulkit Agrawal 432 4 0 07 Nov 2024
Bootstrapping Top-down Information for Self-modulating Slot AttentionNeural Information Processing Systems (NeurIPS), 2024 Dongwon Kim Seoyeon Kim Suha Kwak OCL ObjD 320 1 0 04 Nov 2024
Object segmentation from common fate: Motion energy processing enables human-like zero-shot generalization to random dot stimuliNeural Information Processing Systems (NeurIPS), 2024 Matthias Tangemann Matthias Kümmerer Matthias Bethge VOS 290 1 0 03 Nov 2024
Improving Viewpoint-Independent Object-Centric Representations through Active Viewpoint SelectionNeural Information Processing Systems (NeurIPS), 2024 Yinxuan Huang Chengmin Gao Bin Li Xiangyang Xue OCL 153 0 0 01 Nov 2024
DELTA: Dense Efficient Long-range 3D Tracking for any videoInternational Conference on Learning Representations (ICLR), 2024 Tuan Duc Ngo Peiye Zhuang Chuang Gan E. Kalogerakis Sergey Tulyakov Hsin-Ying Lee Chaoyang Wang 572 31 0 31 Oct 2024
Does equivariance matter at scale? Johann Brehmer S. Behrends P. D. Haan Taco S. Cohen 300 32 0 30 Oct 2024
Learning Global Object-Centric Representations via Disentangled Slot AttentionMachine-mediated learning (ML), 2024 Tonglin Chen Yinxuan Huang Zhimeng Shen Jinghao Huang Bin Li Xiangyang Xue OCL 161 1 0 24 Oct 2024
SYNOSIS: Image synthesis pipeline for machine vision in metal surface inspectionItalian National Conference on Sensors (INS), 2024 Juraj Fulir Natascha Jeziorski Lovro Bosnar Hans Hagen C. Redenbach Petra Gospodnetić Tobias Herrfurth Marcus Trost Thomas Gischkat 139 3 0 18 Oct 2024
CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos Nikita Karaev Iurii Makarov Jianyuan Wang Natalia Neverova Andrea Vedaldi Christian Rupprecht 256 192 0 15 Oct 2024
Jigsaw++: Imagining Complete Shape Priors for Object Reassembly Jiaxin Lu Gang Hua Qixing Huang 189 3 0 15 Oct 2024
DINTR: Tracking via Diffusion-based InterpolationNeural Information Processing Systems (NeurIPS), 2024 Pha Nguyen Ngan Le J. Cothren Alper Yilmaz Khoa Luu DiffM 281 3 0 14 Oct 2024
OmniPose6D: Towards Short-Term Object Pose Tracking in Dynamic Scenes from Monocular RGB Yunzhi Lin Yipu Zhao Fu-Jen Chu Xingyu Chen Weiyao Wang Hao Tang Patricio A. Vela Matt Feiszli Kevin J. Liang 180 1 0 09 Oct 2024
MBDS: A Multi-Body Dynamics Simulation Dataset for Graph Networks Simulators Sheng Yang Fengge Wu Junsuo Zhao AI4CE 176 1 0 04 Oct 2024
DMC-VB: A Benchmark for Representation Learning for Control with Visual DistractorsNeural Information Processing Systems (NeurIPS), 2024 Joseph Ortiz Antoine Dedieu Wolfgang Lehrach Swaroop Guntupalli Carter Wendelken Ahmad Humayun Guangyao Zhou Sivaramakrishnan Swaminathan Miguel Lázaro-Gredilla Kevin P. Murphy OffRL 179 2 0 26 Sep 2024
Self-Supervised Any-Point Tracking by Contrastive Random WalksEuropean Conference on Computer Vision (ECCV), 2024 Ayush Shrivastava Andrew Owens 163 10 0 24 Sep 2024
MHRC: Closed-loop Decentralized Multi-Heterogeneous Robot Collaboration with Large Language Models Wenhao Yu Jie Peng Yueliang Ying Sai Li Jianmin Ji Yanyong Zhang 319 7 0 24 Sep 2024
DROP: Dexterous Reorientation via Online PlanningIEEE International Conference on Robotics and Automation (ICRA), 2024 Albert H. Li Preston Culbertson Vince Kurtz Aaron D. Ames 326 17 0 22 Sep 2024
Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation Liu He Yizhi Song Hejun Huang Pinxin Liu Yunlong Tang Daniel G. Aliaga Xin Zhou DiffM VGen 390 9 0 19 Aug 2024
Zero-Shot Object-Centric Representation Learning Aniket Didolkar Antonios Tragoudaras Anirudh Goyal Mike Mozer Yoshua Bengio Georg Martius Maximilian Seitzer VLM OCL 249 13 0 17 Aug 2024
Local All-Pair Correspondence for Point Tracking Seokju Cho Jiahui Huang Jisu Nam Honggyu An Seungryong Kim Joon-Young Lee 250 55 0 22 Jul 2024
Shape of Motion: 4D Reconstruction from a Single Video Qianqian Wang Vickie Ye Hang Gao Weijia Zeng Jake Austin Zhengqi Li Angjoo Kanazawa VGen 404 165 0 18 Jul 2024
TAPVid-3D: A Benchmark for Tracking Any Point in 3D Skanda Koppula Ignacio Rocco Yi Yang Joe Heyward João Carreira Andrew Zisserman Gabriel J. Brostow Carl Doersch 259 41 0 08 Jul 2024
Attention Normalization Impacts Cardinality Generalization in Slot Attention Markus Krimmel Jan Achterhold Joerg Stueckler OCL 229 2 0 04 Jul 2024
Guiding Video Prediction with Explicit Procedural Knowledge Patrick Takenaka Johannes Maucher Marco F. Huber 180 2 0 26 Jun 2024
ViPro: Enabling and Controlling Video Prediction for Complex Dynamical Scenarios using Procedural Knowledge Patrick Takenaka Johannes Maucher Marco F. Huber VGen 164 0 0 26 Jun 2024