Unsupervised Learning for Physical Interaction through Video Prediction

23 May 2016

Papers citing "Unsupervised Learning for Physical Interaction through Video Prediction"

50 / 173 papers shown

Title
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei K. Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation Sihyun Yu Meera Hahn Dan Kondratyuk Jinwoo Shin Agrim Gupta José Lezama Irfan Essa David A. Ross Jonathan Huang DiffM VGen 72 0 0 18 Feb 2025
BaB-ND: Long-Horizon Motion Planning with Branch-and-Bound and Neural Dynamics Keyi Shen Jiangwei Yu Huan Zhang Yunzhu Li Yunzhu Li 76 1 0 12 Dec 2024
Online Control-Informed Learning Zihao Liang Tianyu Zhou Zehui Lu Shaoshuai Mou 31 1 0 04 Oct 2024
StackGen: Generating Stable Structures from Silhouettes via Diffusion Luzhe Sun Takuma Yoneda Samuel Wheeler Tianchong Jiang Matthew R. Walter DiffM 27 0 0 26 Sep 2024
Hand-Object Interaction Pretraining from Videos Himanshu Gaurav Singh Antonio Loquercio Carmelo Sferrazza Jane Wu Haozhi Qi Pieter Abbeel Jitendra Malik 42 13 0 12 Sep 2024
Dreamitate: Real-World Visuomotor Policy Learning via Video Generation Junbang Liang Ruoshi Liu Ege Ozguroglu Sruthi Sudhakar Achal Dave P. Tokmakov Shuran Song Carl Vondrick VGen 40 22 0 24 Jun 2024
Visual Representation Learning with Stochastic Frame Prediction Huiwon Jang Dongyoung Kim Junsu Kim Jinwoo Shin Pieter Abbeel Younggyo Seo 34 2 0 11 Jun 2024
COMBO: Compositional World Models for Embodied Multi-Agent Cooperation Hongxin Zhang Zeyuan Wang Qiushi Lyu Zheyuan Zhang Sunli Chen Tianmin Shu Yilun Du Kwonjoon Lee Yilun Du Chuang Gan 41 12 0 16 Apr 2024
Action-conditioned video data improves predictability Meenakshi Sarkar Debasish Ghose VGen 33 0 0 08 Apr 2024
USTEP: Spatio-Temporal Predictive Learning under A Unified View Cheng Tan Jue Wang Zhangyang Gao Siyuan Li Stan Z. Li 36 1 0 09 Oct 2023
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani J. Liu 65 31 0 27 Aug 2023
Long-Term Prediction of Natural Video Sequences with Robust Video Predictors Luke Ditria Tom Drummond 36 0 0 21 Aug 2023
Context-Conditional Navigation with a Learning-Based Terrain- and Robot-Aware Dynamics Model Suresh Guttikonda Jan Achterhold Haolong Li Joschka Boedecker Joerg Stueckler 12 1 0 18 Jul 2023
Multimodal Detection and Identification of Robot Manipulation Failures A. Inceoğlu E. Aksoy Sanem Sariel 20 2 0 08 May 2023
3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive Physics under Challenging Scenes Haotian Xue Antonio Torralba J. Tenenbaum Daniel L. K. Yamins Yunzhu Li H. Tung PINN VGen AI4CE 46 8 0 22 Apr 2023
WF-UNet: Weather Fusion UNet for Precipitation Nowcasting Christos Kaparakis S. Mehrkanoon 19 4 0 08 Feb 2023
Long-horizon video prediction using a dynamic latent hierarchy Alexey Zakharov Qinghai Guo Z. Fountas 19 4 0 29 Dec 2022
Towards Smooth Video Composition Qihang Zhang Ceyuan Yang Yujun Shen Yinghao Xu Bolei Zhou VGen 31 14 0 14 Dec 2022
Curiosity in Hindsight: Intrinsic Exploration in Stochastic Environments Daniel Jarrett Corentin Tallec Florent Altché Thomas Mesnard Rémi Munos Michal Valko 32 5 0 18 Nov 2022
Self-supervised remote sensing feature learning: Learning Paradigms, Challenges, and Future Works Chao Tao Ji Qi Mingning Guo Qing Zhu Haifeng Li SSL 19 56 0 15 Nov 2022
Disentangling Content and Motion for Text-Based Neural Video Manipulation Levent Karacan Tolga Kerimouglu .Ismail .Inan Tolga Birdal Erkut Erdem Aykut Erdem 16 1 0 05 Nov 2022
Phenaki: Variable Length Video Generation From Open Domain Textual Description Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang M. Saffar Santiago Castro Julius Kunze D. Erhan DiffM VGen 43 371 0 05 Oct 2022
Imagen Video: High Definition Video Generation with Diffusion Models Jonathan Ho William Chan Chitwan Saharia Jay Whang Ruiqi Gao ... Diederik P. Kingma Ben Poole Mohammad Norouzi David J. Fleet Tim Salimans VGen 15 1,471 0 05 Oct 2022
Temporal View Synthesis of Dynamic Scenes through 3D Object Motion Estimation with Multi-Plane Images Nagabhushan Somraj Pranali Sancheti R. Soundararajan 27 4 0 19 Aug 2022
InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images Zhengqi Li Qianqian Wang Noah Snavely Angjoo Kanazawa VGen 22 59 0 22 Jul 2022
DayDreamer: World Models for Physical Robot Learning Philipp Wu Alejandro Escontrela Danijar Hafner Ken Goldberg Pieter Abbeel 36 276 0 28 Jun 2022
Learn to Predict How Humans Manipulate Large-sized Objects from Interactive Motions Weilin Wan Lei Yang Lingjie Liu Zhuoying Zhang Ruixing Jia Yi-King Choi Jia Pan Christian Theobalt Taku Komura Wenping Wang 13 22 0 25 Jun 2022
Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning Cheng Tan Zhangyang Gao Lirong Wu Yongjie Xu Jun-Xiong Xia Siyuan Li Stan Z. Li 25 107 0 24 Jun 2022
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 100 110 0 23 Jun 2022
BYOL-Explore: Exploration by Bootstrapped Prediction Z. Guo S. Thakoor Miruna Pislar Bernardo Avila-Pires Florent Altché ... Yunhao Tang Michal Valko Rémi Munos M. G. Azar Bilal Piot 22 67 0 16 Jun 2022
Forecasting of depth and ego-motion with transformers and self-supervision Houssem-eddine Boulahbal A. Voicila Andrew I. Comport ViT MDE 19 3 0 15 Jun 2022
SimVP: Simpler yet Better Video Prediction Zhangyang Gao Cheng Tan Lirong Wu Stan Z. Li 23 210 0 09 Jun 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 243 565 0 29 May 2022
Deep-learning-based prediction of nanoparticle phase transitions during in situ transmission electron microscopy W. Fu Steven Spurgeon Chongmin Wang Yuyan Shao Wei Wang A. Peles 28 1 0 23 May 2022
Action Conditioned Tactile Prediction: case study on slip prediction Willow Mandil Kiyanoush Nazari E. AmirGhalamzan 22 15 0 19 May 2022
Multimodel Sensor Fusion for Learning Rich Models for Interacting Soft Robots T. G. Thuruthel Fumiya Iida 11 9 0 09 May 2022
Predicting Future Occupancy Grids in Dynamic Environment with Spatio-Temporal Learning K. S. Mann Abhishek Tomy Anshul K. Paigwar A. Renzaglia Christian Laugier 26 10 0 06 May 2022
STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond Zheng Chang Xinfeng Zhang Shanshe Wang Siwei Ma Wen Gao 28 1 0 20 Apr 2022
Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer Songwei Ge Thomas Hayes Harry Yang Xiaoyue Yin Guan Pang David Jacobs Jia-Bin Huang Devi Parikh ViT 38 214 0 07 Apr 2022
Joint Hand Motion and Interaction Hotspots Prediction from Egocentric Videos Shao-Wei Liu Subarna Tripathi Somdeb Majumdar Xiaolong Wang EgoV 20 93 0 04 Apr 2022
STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution Video Prediction Zheng Chang Xinfeng Zhang Shanshe Wang Siwei Ma Wen Gao 13 50 0 30 Mar 2022
Reinforcement Learning with Action-Free Pre-Training from Videos Younggyo Seo Kimin Lee Stephen James Pieter Abbeel SSL OnRL 16 115 0 25 Mar 2022
Diffusion Probabilistic Modeling for Video Generation Ruihan Yang Prakhar Srivastava Stephan Mandt DiffM VGen 32 255 0 16 Mar 2022
Playable Environments: Video Manipulation in Space and Time Willi Menapace Stéphane Lathuilière Aliaksandr Siarohin Christian Theobalt Sergey Tulyakov Vladislav Golyanik Elisa Ricci VGen 19 22 0 03 Mar 2022
Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks Sihyun Yu Jihoon Tack Sangwoo Mo Hyunsu Kim Junho Kim Jung-Woo Ha Jinwoo Shin DiffM VGen 18 199 0 21 Feb 2022
Robot Skill Adaptation via Soft Actor-Critic Gaussian Mixture Models Iman Nematollahi Erick Rosete-Beas Adrian Rofer Tim Welschehold Abhinav Valada Wolfram Burgard 11 15 0 25 Nov 2021
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan ViT VGen 14 292 0 24 Nov 2021
Development of a robust cascaded architecture for intelligent robot grasping using limited labelled data Priya Shukla V. Kushwaha G. C. Nandi 13 4 0 06 Nov 2021
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language Mingyu Ding Zhenfang Chen Tao Du Ping Luo J. Tenenbaum Chuang Gan VGen PINN OCL 22 74 0 28 Oct 2021