Multi-Armed Bandits Meet Large Language Models

19 May 2025

Papers citing "Multi-Armed Bandits Meet Large Language Models"

5 / 5 papers shown

Title
Reinforcement Learning from Human Feedback Nathan Lambert OffRL AI4CE 112 22 0 16 Apr 2025
LLM Bandit: Cost-Efficient LLM Generation via Preference-Conditioned Dynamic Routing Yang Li 79 5 0 04 Feb 2025
Multilinguality in LLM-Designed Reward Functions for Restless Bandits: Effects on Task Performance and Fairness Ambreesh Parthasarathy Chandrasekar Subramanian Ganesh Senrayan Shreyash Adappanavar Aparna Taneja Balaraman Ravindran Milind Tambe 40 1 0 20 Jan 2025
Multi-Agent Conversational Online Learning for Adaptive LLM Response Identification Xiangxiang Dai Yuejin Xie Maoli Liu Xuchuang Wang Zhuohua Li Huanyu Wang J. C. Lui LLMAG 73 8 0 03 Jan 2025
The Prompt Alchemist: Automated LLM-Tailored Prompt Optimization for Test Case Generation Shuzheng Gao Chaozheng Wang Cuiyun Gao Xiaoqian Jiao Chun Yong Chong Shan Gao Michael R. Lyu 59 3 0 03 Jan 2025