Learning Reward for Robot Skills Using Large Language Models via Self-Alignment

12 May 2024

Papers citing "Learning Reward for Robot Skills Using Large Language Models via Self-Alignment"

12 / 12 papers shown

Title
Multi-agent Embodied AI: Advances and Future Directions Zhaohan Feng Ruiqi Xue Lei Yuan Yang Yu Ning Ding M. Liu Bingzhao Gao Jian-jun Sun Gang Wang AI4CE 47 0 0 08 May 2025
Boosting Universal LLM Reward Design through Heuristic Reward Observation Space Evolution Zen Kit Heng Zimeng Zhao Tianhao Wu Yuanfei Wang Mingdong Wu Yangang Wang Hao Dong 28 0 0 10 Apr 2025
LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning Chan Kim Seung-Woo Seo Seong-Woo Kim OODD 72 0 0 21 Mar 2025
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei K. Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
The Evolving Landscape of LLM- and VLM-Integrated Reinforcement Learning Sheila Schoepp Masoud Jafaripour Yingyue Cao Tianpei Yang Fatemeh Abdollahi Shadan Golestan Zahin Sufiyan Osmar Zaiane Matthew E. Taylor OffRL LM&Ro 46 0 0 24 Feb 2025
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification Taja Kuzman Nikola Ljubesic 62 0 0 29 Nov 2024
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge Dawei Li Bohan Jiang Liangjie Huang Alimohammad Beigi Chengshuai Zhao ... Canyu Chen Tianhao Wu Kai Shu Lu Cheng Huan Liu ELM AILaw 106 61 0 25 Nov 2024
GRS: Generating Robotic Simulation Tasks from Real-World Images Alex Zook Fan-Yun Sun Josef Spjut Valts Blukis Stan Birchfield Jonathan Tremblay 35 4 0 20 Oct 2024
DAG-Plan: Generating Directed Acyclic Dependency Graphs for Dual-Arm Cooperative Planning Zeyu Gao Yao Mu Jinye Qu Mengkang Hu Lingyue Guo Ping Luo Yanfeng Lu Ping Luo Shanghang Zhang Yanfeng Lu 47 10 0 14 Jun 2024
Large Language Models for Data Annotation: A Survey Zhen Tan Dawei Li Song Wang Alimohammad Beigi Bohan Jiang Amrita Bhattacharjee Mansooreh Karami Jundong Li Lu Cheng Huan Liu SyDa 42 44 0 21 Feb 2024
Reward Learning with Intractable Normalizing Functions Joshua Hoegerman Dylan P. Losey 18 2 0 16 May 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022