v1v2 (latest)

A Multi-Agent Conversational Bandit Approach to Online Evaluation and Selection of User-Aligned LLM Responses

3 January 2025

ArXiv (abs)PDF HTML Github (1★)

Papers citing "A Multi-Agent Conversational Bandit Approach to Online Evaluation and Selection of User-Aligned LLM Responses"

6 / 6 papers shown

Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMsISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences (ISPRS Annals), 2025

451

08 Nov 2025

Learning to Deliberate: Meta-policy Collaboration for Agentic LLMs with Multi-agent Reinforcement Learning

Wei Yang

Jesse Thomason

255

04 Sep 2025

ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges

353

21 May 2025

Survey: Multi-Armed Bandits Meet Large Language Models

Djallel Bouneffouf

Raphael Feraud

398

19 May 2025

SU-YOLO: Spiking Neural Network for Efficient Underwater Object Detection

261

31 Mar 2025

Neuroplasticity in Artificial Intelligence -- An Overview and Inspirations on Drop In & Out Learning

698

27 Mar 2025