Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

v1v2 (latest)

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

21 May 2025

ArXiv (abs)PDF HTML

Papers citing "Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization"

14 / 14 papers shown

Title
Omni-Perception: Omnidirectional Collision Avoidance for Legged Locomotion in Dynamic Environments Zifan Wang Teli Ma Yufei Jia X. Yang Jiaming Zhou Wenlong Ouyang Qiang Zhang Junwei Liang 56 0 0 25 May 2025
Panoptic Captioning: Seeking An Equivalency Bridge for Image and Text Kun-Yu Lin Hongjun Wang Weining Ren Kai Han 297 0 0 22 May 2025
Decoupled Distillation to Erase: A General Unlearning Method for Any Class-centric Tasks Yu Zhou Dian Zheng Qijie Mo Renjie Lu Kun-Yu Lin Wei-Shi Zheng MU 137 2 0 31 Mar 2025
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy Zhi Hou Tianyi Zhang Yuwen Xiong Haonan Duan Hengjun Pu ... Chengyang Zhao X. Zhu Yu Qiao Jifeng Dai Yuxiao Chen 143 6 0 25 Mar 2025
PointVLA: Injecting the 3D World into Vision-Language-Action Models Chengmeng Li Junjie Wen Yan Peng Chaomin Shen Feifei Feng Yinlin Zhu 3DPC 162 9 0 10 Mar 2025
AffordDexGrasp: Open-set Language-guided Dexterous Grasp with Generalizable-Instructive Affordance Yi-Lin Wei Mu Lin Yuhao Lin Jian-Jian Jiang Xiao-Ming Wu Ling-an Zeng Wei-Shi Zheng 124 3 0 10 Mar 2025
Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation Yuelei Li Ge Yan Annabella Macaluso Mazeyu Ji Xueyan Zou Xinze Wang 79 1 0 30 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 395 2,033 0 22 Jan 2025
FAST: Efficient Action Tokenization for Vision-Language-Action Models Karl Pertsch Kyle Stachowicz Brian Ichter Danny Driess Suraj Nair Q. Vuong Oier Mees Chelsea Finn Sergey Levine 147 70 0 17 Jan 2025
Improving Vision-Language-Action Models via Chain-of-Affordance Jinming Li Yinlin Zhu Zhibin Tang Junjie Wen Minjie Zhu Xiaoyu Liu Chengmeng Li Ran Cheng Chaomin Shen Feifei Feng LRM LM&Ro 63 4 0 31 Dec 2024
In-Context Learning Enables Robot Action Prediction in LLMs Yida Yin Zekai Wang Yuvan Sharma Dantong Niu Trevor Darrell Roei Herzig LM&Ro 278 4 0 16 Oct 2024
RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation Songming Liu Lingxuan Wu Bangguo Li Hengkai Tan Huayu Chen Zhengyi Wang Ke Xu Hang Su Jun Zhu 146 126 0 10 Oct 2024
GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation Yangtao Chen Zixuan Chen Junhui Yin Jing Huo Pinzhuo Tian Jieqi Shi Yang Gao LM&Ro 148 3 0 30 Sep 2024
Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation Jiaming Zhou Teli Ma Kun-Yu Lin Ronghe Qiu Zifan Wang Junwei Liang 149 7 0 20 Jun 2024