Diffusion Models Meet Contextual Bandits

15 February 2024

Imad Aouali

DiffM

ArXiv (abs)PDF HTML

Main:10 Pages

8 Figures

Bibliography:4 Pages

4 Tables

Appendix:18 Pages

Abstract

Efficient decision-making in contextual bandits with large action spaces is challenging, as methods lacking additional prior information may suffer from computational and statistical inefficiencies. In this work, we leverage pre-trained diffusion models as priors to capture complex action distributions and introduce a diffusion-based decision framework for contextual bandits. We develop practical algorithms to efficiently approximate posteriors under diffusion priors, enabling flexible decision-making strategies. Empirical evaluations demonstrate the effectiveness and versatility of our approach across diverse contextual bandit settings.

View on arXiv

Comments on this paper