v1v2v3 (latest)

Bandits with Preference Feedback: A Stackelberg Game Perspective

24 June 2024

Andreas Krause

Papers citing "Bandits with Preference Feedback: A Stackelberg Game Perspective"

2 / 2 papers shown

Title
Bayesian Optimization from Human Feedback: Near-Optimal Regret Bounds Aya Kayal Sattar Vakili Laura Toni Da-shan Shiu A. Bernacchia 161 0 0 29 May 2025
Adversarial Policy Optimization for Offline Preference-based Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2025 Hyungkyu Kang Min-hwan Oh OffRL 257 2 0 07 Mar 2025