v1v2 (latest)

Improved Optimistic Algorithms for Logistic Bandits

International Conference on Machine Learning (ICML), 2020

18 February 2020

Papers citing "Improved Optimistic Algorithms for Logistic Bandits"

50 / 82 papers shown

Tractable Instances of Bilinear Maximization: Implementing LinUCB on EllipsoidsInternational Journal of Intelligent Systems and Applications in Engineering (IJISAE), 2025

Raymond Zhang

Hedi Hadiji

Richard Combes

112

10 Nov 2025

Inference-Time Personalized Alignment with a Few User Preference Queries

Victor-Alexandru Pădurean

Parameswaran Kamalaruban

Nachiket Kotalwar

Alkis Gotovos

Adish Singla

181

04 Nov 2025

Preference-based Reinforcement Learning beyond Pairwise Comparisons: Benefits of Multiple Options

184

21 Oct 2025

Exploration via Feature Perturbation in Contextual Bandits

Seouh-won Yi

Min-hwan Oh

AAML

219

20 Oct 2025

The Good, the Bad, and the Sampled: a No-Regret Approach to Safe Online Classification

Tavor Z. Baharav

Spyros Dragazis

Aldo Pacchiano

138

01 Oct 2025

Stochastic Matching Bandits with Rare Optimization Updates

Jung-hun Kim

Min-hwan Oh

188

04 Sep 2025

Recycling History: Efficient Recommendations from Contextual Dueling Bandits

Suryanarayana Sankagiri

Jalal Etesami

Pouria Fatemi

Matthias Grossglauser

149

26 Aug 2025

Multi-User Contextual Cascading Bandits for Personalized Recommendation

Jiho Park

Huiwen Jia

124

19 Aug 2025

Achieving Limited Adaptivity for Multinomial Logistic Bandits

Sukruta Prakash Midigeshi

Tanmay Goyal

Gaurav Sinha

133

05 Aug 2025

Generalized Kernelized Bandits: A Novel Self-Normalized Bernstein-Like Dimension-Free Inequality and Regret Bounds

Alberto Maria Metelli

Simone Drago

Marco Mussi

175

03 Aug 2025

PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training

Sarat Chandra Bobbili

Ujwal Dinesha

Dheeraj Narasimha

S. Shakkottai

228

26 Jul 2025

Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update

213

16 Jul 2025

Enjoying Non-linearity in Multinomial Logistic Bandits: A Minimax-Optimal Algorithm

Pierre Boudart

Pierre Gaillard

Alessandro Rudi

161

07 Jul 2025

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit FeedbackConference on Uncertainty in Artificial Intelligence (UAI), 2025

Tanmay Goyal

Gaurav Sinha

257

16 Jun 2025

Learning Parametric Distributions from Samples and Preferences

Marc Jourdan

Gizem Yüce

Nicolas Flammarion

211

29 May 2025

Bayesian Optimization from Human Feedback: Near-Optimal Regret Bounds

190

29 May 2025

A Unified Online-Offline Framework for Co-Branding Campaign RecommendationsKnowledge Discovery and Data Mining (KDD), 2025

219

28 May 2025

PromptWise: Online Learning for Cost-Aware Prompt Assignment in Generative Models

266

24 May 2025

Neural Logistic Bandits

Seoungbin Bae

Dabeen Lee

1.1K

04 May 2025

Reinforcement Learning from Multi-level and Episodic Human FeedbackConference on Learning for Dynamics & Control (L4DC), 2025

Muhammad Qasim Elahi

Somtochukwu Oguchienti

Maheed H. Ahmed

Mahsa Ghasemi

OffRL

570

20 Apr 2025

Dynamic Assortment Selection and Pricing with Censored Preference FeedbackInternational Conference on Learning Representations (ICLR), 2025

Jung-hun Kim

Min-hwan Oh

225

03 Apr 2025

Language Model Personalization via Reward Factorization

373

08 Mar 2025

Provably Efficient Reinforcement Learning with Multinomial Logit Function ApproximationNeural Information Processing Systems (NeurIPS), 2024

596

17 Jan 2025

Near Optimal Pure Exploration in Logistic Bandits

Eduardo Ochoa Rivera

Ambuj Tewari

420

28 Oct 2024

Optimal Design for Reward Modeling in RLHF

Etienne Boursier

Michal Valko

514

22 Oct 2024

Almost Free: Self-concordance in Natural Exponential Families and an Application to BanditsNeural Information Processing Systems (NeurIPS), 2024

304

01 Oct 2024

Advances in Preference-based Reinforcement Learning: A ReviewIEEE International Conference on Systems, Man and Cybernetics (SMC), 2022

261

21 Aug 2024

Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift

460

26 Jul 2024

Neural Dueling Bandits: Preference-Based Optimization with Human Feedback

457

24 Jul 2024

A Unified Confidence Sequence for Generalized Linear Models, with Applications to Bandits

Junghyun Lee

Se-Young Yun

Kwang-Sung Jun

661

19 Jul 2024

Bandits with Preference Feedback: A Stackelberg Game Perspective

Barna Pásztor

Parnian Kassraie

Andreas Krause

388

24 Jun 2024

The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback

Ruitao Chen

Liwei Wang

338

18 May 2024

Nearly Minimax Optimal Regret for Multinomial Logistic BanditNeural Information Processing Systems (NeurIPS), 2024

Joongkyu Lee

Min-hwan Oh

408

16 May 2024

Active Preference Learning for Ordering Items In- and Out-of-sampleNeural Information Processing Systems (NeurIPS), 2024

Herman Bergström

Emil Carlsson

Devdatt Dubhashi

Fredrik D. Johansson

273

05 May 2024

DPO Meets PPO: Reinforced Token Optimization for RLHF

682

108

29 Apr 2024

Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback

Qiwei Di

Jiafan He

Quanquan Gu

463

16 Apr 2024

Generalized Linear Bandits with Limited AdaptivityNeural Information Processing Systems (NeurIPS), 2024

746

10 Apr 2024

Horizon-Free Regret for Linear Markov Decision Processes

226

15 Mar 2024

Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown TransitionInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Long-Fei Li

Peng Zhao

Zhi Zhou

284

07 Mar 2024

Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF

Banghua Zhu

Michael I. Jordan

Jiantao Jiao

320

29 Jan 2024

Long-term Safe Reinforcement Learning with Binary FeedbackAAAI Conference on Artificial Intelligence (AAAI), 2024

387

08 Jan 2024

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint

Wei Xiong

Tong Zhang

433

324

18 Dec 2023

Time-Uniform Confidence Spheres for Means of Random Vectors

Ben Chugg

Hongjian Wang

Aaditya Ramdas

911

14 Nov 2023

Exploration via linearly perturbed loss minimisationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

315

13 Nov 2023

Likelihood Ratio Confidence Sets for Sequential Decision Making

N. Emmenegger

Mojmír Mutný

Andreas Krause

180

08 Nov 2023

Improved Regret Bounds of (Multinomial) Logistic Bandits via Regret-to-Confidence-Set ConversionInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Junghyun Lee

Se-Young Yun

Kwang-Sung Jun

425

28 Oct 2023

Experimental Designs for Heteroskedastic VarianceNeural Information Processing Systems (NeurIPS), 2023

296

06 Oct 2023

Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with Application to FairnessNeural Information Processing Systems (NeurIPS), 2023

204

25 May 2023

Ranking with Popularity Bias: User Welfare under Self-Amplification
Dynamics

275

24 May 2023

Borda Regret Minimization for Generalized Linear Dueling BanditsInternational Conference on Machine Learning (ICML), 2023

Quanquan Gu

391

15 Mar 2023