Value Augmented Sampling for Language Model Alignment and
Personalization

Value Augmented Sampling for Language Model Alignment and Personalization

10 May 2024

Akash Srivastava

Papers citing "Value Augmented Sampling for Language Model Alignment and Personalization"

4 / 4 papers shown

Title
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance Mitsuhiko Nakamoto Oier Mees Aviral Kumar Sergey Levine OffRL 71 9 0 17 Oct 2024
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment Yuancheng Xu Udari Madhushani Sehwag Alec Koppel Sicheng Zhu Bang An Furong Huang Sumitra Ganesh 52 5 0 10 Oct 2024
Offline RL for Natural Language Generation with Implicit Language Q Learning Charles Burton Snell Ilya Kostrikov Yi Su Mengjiao Yang Sergey Levine OffRL 121 101 0 05 Jun 2022
The Primacy Bias in Deep Reinforcement Learning Evgenii Nikishin Max Schwarzer P. DÓro Pierre-Luc Bacon Aaron C. Courville OnRL 85 178 0 16 May 2022