AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit

20 September 2024

Maarten de Rijke

Papers citing "AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit"

1 / 1 papers shown

Title
MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization Yougang Lyu Lingyong Yan Zihan Wang Dawei Yin Pengjie Ren Maarten de Rijke Z. Z. Ren 55 6 0 10 Oct 2024