Bandits with Preference Feedback: A Stackelberg Game Perspective

24 June 2024

Andreas Krause

Papers citing "Bandits with Preference Feedback: A Stackelberg Game Perspective"

2 / 2 papers shown

Title
Bayesian Optimization from Human Feedback: Near-Optimal Regret Bounds Aya Kayal Sattar Vakili Laura Toni Da-shan Shiu A. Bernacchia 149 0 0 29 May 2025
Adversarial Policy Optimization for Offline Preference-based Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2025 Hyungkyu Kang Min-hwan Oh OffRL 249 2 0 07 Mar 2025