Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models

16 October 2023

Papers citing "Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models"

50 / 99 papers shown

Title
Pixel Motion as Universal Representation for Robot Control Kanchana Ranasinghe Xiang Li Cristina Mata J. Park Michael S. Ryoo VGen 18 0 0 12 May 2025
ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning Hongyin Zhang Zifeng Zhuang H. Zhao Pengxiang Ding Hongchao Lu Donglin Wang OffRL 34 0 0 12 May 2025
Efficient Robotic Policy Learning via Latent Space Backward Planning Dongxiu Liu Haoyi Niu Zhihao Wang Jinliang Zheng Yinan Zheng Zhonghong Ou Jianming Hu Jianxiong Li Xianyuan Zhan 13 0 0 11 May 2025
Demystifying Diffusion Policies: Action Memorization and Simple Lookup Table Alternatives Chengyang He Xu Liu Gadiel Sznaier Camps Guillaume Sartoretti Mac Schwager 23 0 0 09 May 2025
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions Qingwen Bu Y. Yang Jisong Cai Shenyuan Gao Guanghui Ren Maoqing Yao Ping Luo Hongyang Li 37 0 0 09 May 2025
CrayonRobo: Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation Xiaoqi Li Lingyun Xu M. Zhang Jiaming Liu Yan Shen ... Jiahui Xu Liang Heng Siyuan Huang S. Zhang Hao Dong LM&Ro 39 0 0 04 May 2025
ViSA-Flow: Accelerating Robot Skill Learning via Large-Scale Video Semantic Action Flow Changhe Chen Quantao Yang Xiaohao Xu Nima Fazeli Olov Andersson 22 0 0 02 May 2025
A Survey of Interactive Generative Video Jiwen Yu Yiran Qin Haoxuan Che Quande Liu X. Wang Pengfei Wan Di Zhang Kun Gai Hao Chen Xihui Liu VGen 53 0 0 30 Apr 2025
RoboGround: Robotic Manipulation with Grounded Vision-Language Priors Haifeng Huang Xinyi Chen Y. Chen H. Li Xiaoshen Han Z. Wang Tai Wang Jiangmiao Pang Zhou Zhao LM&Ro 75 0 0 30 Apr 2025
GPA-RAM: Grasp-Pretraining Augmented Robotic Attention Mamba for Spatial Task Learning Juyi Sheng Yangjun Liu Sheng Xu Zhixin Yang Mengyuan Liu 51 0 0 28 Apr 2025
Latent Diffusion Planning for Imitation Learning Amber Xie Oleh Rybkin Dorsa Sadigh Chelsea Finn 33 1 0 23 Apr 2025
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention Yucheng Li Huiqiang Jiang Chengruidong Zhang Qianhui Wu Xufang Luo ... Amir H. Abdi Dongsheng Li Jianfeng Gao Y. Yang Lili Qiu 31 1 0 22 Apr 2025
Diffusion Models for Robotic Manipulation: A Survey Rosa Wolf Yitian Shi Sheng Liu Rania Rayyes 49 1 0 11 Apr 2025
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models Qingqing Zhao Yao Lu Moo Jin Kim Zipeng Fu Zhuoyang Zhang ... Ankur Handa Ming-Yu Liu Donglai Xiang Gordon Wetzstein Tsung-Yi Lin LM&Ro LRM 43 9 0 27 Mar 2025
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy Zhi Hou Tianyi Zhang Yuwen Xiong Haonan Duan Hengjun Pu ... Chengyang Zhao X. Zhu Yu Qiao Jifeng Dai Y. Chen 59 0 0 25 Mar 2025
Target-Aware Video Diffusion Models Taeksoo Kim Hanbyul Joo DiffM VGen 89 1 0 24 Mar 2025
Do Visual Imaginations Improve Vision-and-Language Navigation Agents? Akhil Perincherry Jacob Krantz Stefan Lee LM&Ro 39 0 0 20 Mar 2025
GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback Sungjae Lee Yeonjoo Hong Kwang In KIm 44 0 0 19 Mar 2025
PANDORA: Diffusion Policy Learning for Dexterous Robotic Piano Playing Yanjia Huang Renjie Li Zhengzhong Tu VGen 53 0 0 17 Mar 2025
LUMOS: Language-Conditioned Imitation Learning with World Models Iman Nematollahi Branton DeMoss Akshay L Chandra Nick Hawes Wolfram Burgard Ingmar Posner OffRL 43 0 0 13 Mar 2025
NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models Mert Albaba Chenhao Li Markos Diomataris Omid Taheri Andreas Krause M. Black VGen 58 0 0 13 Mar 2025
Generating Robot Constitutions & Benchmarks for Semantic Safety P. Sermanet Anirudha Majumdar A. Irpan Dmitry Kalashnikov Vikas Sindhwani LM&Ro 58 0 0 11 Mar 2025
Object-Centric World Model for Language-Guided Manipulation Youngjoon Jeong Junha Chun S. Cha Taesup Kim OCL VGen 81 0 0 08 Mar 2025
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei K. Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
Shadow: Leveraging Segmentation Masks for Cross-Embodiment Policy Transfer Marion Lepert Ria Doshi Jeannette Bohg 32 2 0 02 Mar 2025
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation Yunhai Feng Jiaming Han Z. Yang Xiangyu Yue Sergey Levine Jianlan Luo LM&Ro 40 1 0 23 Feb 2025
View-Invariant Policy Learning via Zero-Shot Novel View Synthesis Stephen Tian Blake Wulfe Kyle Sargent Katherine Liu Sergey Zakharov Vitor Campagnolo Guizilini Jiajun Wu 70 10 0 21 Feb 2025
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control Junjie Wen Y. X. Zhu Jinming Li Zhibin Tang Chaomin Shen Feifei Feng VLM 53 10 0 09 Feb 2025
Strengthening Generative Robot Policies through Predictive World Modeling Han Qi Haocheng Yin Yilun Du Heng Yang 56 1 0 02 Feb 2025
Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation Yang Tian Sizhe Yang Jia Zeng P. Wang Dahua Lin Hao Dong Jiangmiao Pang 76 13 0 19 Dec 2024
Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning Moritz Reuss Jyothish Pari Pulkit Agrawal Rudolf Lioutikov DiffM MoE 74 5 0 17 Dec 2024
RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation Feng Yan Fanfan Liu Liming Zheng Yufeng Zhong Yiyang Huang Zechao Guan Chengjian Feng Lin Ma 82 2 0 10 Dec 2024
Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression Junjie Wen Minjie Zhu Y. X. Zhu Zhibin Tang Jinming Li ... Chengmeng Li Xiaoyu Liu Yaxin Peng Chaomin Shen Feifei Feng 85 13 0 04 Dec 2024
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation Youpeng Wen Junfan Lin Y. X. Zhu J. Han Hang Xu Shen Zhao Xiaodan Liang VGen DiffM 40 2 0 14 Nov 2024
Grounding Video Models to Actions through Goal Conditioned Exploration Yunhao Luo Yilun Du LM&Ro VGen 77 1 0 11 Nov 2024
STEER: Flexible Robotic Manipulation via Dense Language Grounding Laura Smith A. Irpan Montserrat Gonzalez Arenas Sean Kirmani Dmitry Kalashnikov Dhruv Shah Ted Xiao LLMSV 32 1 0 05 Nov 2024
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution Yang Yue Yulin Wang Bingyi Kang Yizeng Han Shenzhi Wang Shiji Song Jiashi Feng Gao Huang VLM 38 16 0 04 Nov 2024
NeRF-Aug: Data Augmentation for Robotics with Neural Radiance Fields Eric Zhu Mara Levy M. Gwilliam Abhinav Shrivastava 40 0 0 04 Nov 2024
PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene Rearrangement Shutong Jin Ruiyu Wang Kuangyi Chen Florian T. Pokorny 24 0 0 29 Oct 2024
GHIL-Glue: Hierarchical Control with Filtered Subgoal Images Kyle Hatch Ashwin Balakrishna Oier Mees Suraj Nair Seohong Park ... Masha Itkina Benjamin Eysenbach Sergey Levine Thomas Kollar Benjamin Burchfiel 50 1 0 26 Oct 2024
WorldSimBench: Towards Video Generation Models as World Simulators Yiran Qin Zhelun Shi Jiwen Yu Xijun Wang Enshen Zhou ... Lu Sheng Jing Shao Lei Bai Wanli Ouyang Ruimao Zhang EGVM VGen 119 364 0 23 Oct 2024
GRS: Generating Robotic Simulation Tasks from Real-World Images Alex Zook Fan-Yun Sun Josef Spjut Valts Blukis Stan Birchfield Jonathan Tremblay 42 4 0 20 Oct 2024
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance Mitsuhiko Nakamoto Oier Mees Aviral Kumar Sergey Levine OffRL 71 9 0 17 Oct 2024
Imagine2Servo: Intelligent Visual Servoing with Diffusion-Driven Goal Generation for Robotic Tasks Pranjali Pathre Gunjan Gupta M. N. Qureshi Mandyam Brunda Samarth Brahmbhatt K. M. Krishna VGen 27 0 0 16 Oct 2024
Incorporating Task Progress Knowledge for Subgoal Generation in Robotic Manipulation through Image Edits Xuhui Kang Yen-Ling Kuo 24 3 0 14 Oct 2024
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation K. Zhang Pengzhen Ren Bingqian Lin Junfan Lin Shikui Ma Hang Xu Xiaodan Liang 18 0 0 14 Oct 2024
VideoAgent: Self-Improving Video Generation Achint Soni Sreyas Venkataraman Abhranil Chandra Sebastian Fischmeister Percy Liang Bo Dai Sherry Yang LM&Ro VGen 45 7 0 14 Oct 2024
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation Qingwen Bu Hongyang Li Li Chen Jisong Cai Jia Zeng Heming Cui Maoqing Yao Yu Qiao 34 2 0 10 Oct 2024
GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation Chi-Lam Cheang Guangzeng Chen Ya Jing Tao Kong Hang Li ... Hongtao Wu Jiafeng Xu Yichu Yang Hanbo Zhang Minzhao Zhu VGen LM&Ro 58 48 0 08 Oct 2024
VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning Han Lin Tushar Nagarajan Nicolas Ballas Mido Assran Mojtaba Komeili Mohit Bansal Koustuv Sinha AI4TS 49 3 0 04 Oct 2024