Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation

17 September 2021

Papers citing "Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation"

13 / 13 papers shown

A Case for Leveraging Generative AI to Expand and Enhance Training in the Provision of Mental Health Services

Hannah R. Lawrence

Shannon Wiltsey Stirman

195

08 Oct 2025

Generative Auto-Bidding with Value-Guided ExplorationsAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025

Peng Jiang

...

531

20 Apr 2025

AutoOPE: Automated Off-Policy Estimator Selection

Nicolò Felicioni

Michael Benigni

Maurizio Ferrari Dacrema

OffRL

212

26 Jun 2024

Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It

Yuta Saito

Masahiro Nomura

OffRL

338

23 Apr 2024

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction

Haruka Kiyohara

Masahiro Nomura

Yuta Saito

693

03 Feb 2024

Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy EvaluationInternational Conference on Learning Representations (ICLR), 2023

510

30 Nov 2023

SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation

535

30 Nov 2023

Off-Policy Evaluation of Ranking Policies under Diverse User BehaviorKnowledge Discovery and Data Mining (KDD), 2023

328

26 Jun 2023

User Behavior Simulation with Large Language Model based Agents

Lei Wang

...

Jun Xu

465

151

05 Jun 2023

Policy-Adaptive Estimator Selection for Off-Policy EvaluationAAAI Conference on Artificial Intelligence (AAAI), 2022

296

25 Nov 2022

Synthetic Data-Based Simulators for Recommender Systems: A Survey

Klavdiya Olegovna Bochenina

D. Bugaychenko

SyDa

204

22 Jun 2022

Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior ModelWeb Search and Data Mining (WSDM), 2022

258

03 Feb 2022

Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation

733

17 Aug 2020