Generative Image as Action Models

10 July 2024

Papers citing "Generative Image as Action Models"

17 / 17 papers shown

Title
Pixel Motion as Universal Representation for Robot Control Kanchana Ranasinghe Xiang Li Cristina Mata J. Park Michael S. Ryoo VGen 11 0 0 12 May 2025
GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation Yangtao Chen Zixuan Chen Junhui Yin Jing Huo Pinzhuo Tian Jieqi Shi Yang Gao LM&Ro 40 2 0 30 Sep 2024
ALDM-Grasping: Diffusion-aided Zero-Shot Sim-to-Real Transfer for Robot Grasping Yiwei Li Zihao Wu Huaqin Zhao Tianze Yang Zheng Liu Peng Shu Jin Sun Ramviyas Parasuraman Tianming Liu 26 2 0 18 Mar 2024
Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation Xiao Ma Sumit Patidar Iain Haughton Stephen James 35 46 0 06 Mar 2024
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data Lihe Yang Bingyi Kang Zilong Huang Xiaogang Xu Jiashi Feng Hengshuang Zhao VLM 133 681 0 19 Jan 2024
Adversarial Diffusion Distillation Axel Sauer Dominik Lorenz A. Blattmann Robin Rombach 138 326 0 28 Nov 2023
Video Language Planning Yilun Du Mengjiao Yang Peter R. Florence Fei Xia Ayzaan Wahid ... Pieter Abbeel Josh Tenenbaum L. Kaelbling Andy Zeng Jonathan Tompson PINN LM&Ro 84 83 0 16 Oct 2023
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation Mel Vecerík Carl Doersch Yi Yang Todor Davchev Y. Aytar Guangyao Zhou R. Hadsell Lourdes Agapito Jonathan Scholz 40 47 0 30 Aug 2023
Real-World Robot Learning with Masked Visual Pre-training Ilija Radosavovic Tete Xiao Stephen James Pieter Abbeel Jitendra Malik Trevor Darrell SSL 146 238 0 06 Oct 2022
DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics Ivan Kapelyukh Vitalis Vosylius Edward Johns LM&Ro DiffM 96 143 0 05 Oct 2022
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation Mohit Shridhar Lucas Manuelli D. Fox LM&Ro 143 449 0 12 Sep 2022
Instruction-driven history-aware policies for robotic manipulations Pierre-Louis Guhur Shizhe Chen Ricardo Garcia Pinel Makarand Tapaswi Ivan Laptev Cordelia Schmid LM&Ro 91 101 0 11 Sep 2022
SE(3)-DiffusionFields: Learning smooth cost functions for joint grasp and motion optimization through diffusion Julen Urain Niklas Funk Jan Peters Georgia Chalvatzaki DiffM 45 118 0 08 Sep 2022
Planning with Diffusion for Flexible Behavior Synthesis Michael Janner Yilun Du J. Tenenbaum Sergey Levine DiffM 196 622 0 20 May 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Transferring End-to-End Visuomotor Control from Simulation to Real World for a Multi-Stage Task Stephen James Andrew J. Davison Edward Johns 159 275 0 07 Jul 2017
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 229 74,467 0 18 May 2015