QPO: Query-dependent Prompt Optimization via Multi-Loop Offline
Reinforcement Learning

QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning

20 August 2024

Li Shen

Yongzhe Chang

Xueqian Wang

Rui Zhao

Dacheng Tao

Papers citing "QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning"

4 / 4 papers shown

Title
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping Haoyu Wang Guozheng Ma Ziqiao Meng Zeyu Qin Li Shen ... Liu Liu Yatao Bian Tingyang Xu Xueqian Wang Peilin Zhao 55 12 0 12 Feb 2024
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 278 3,784 0 18 Apr 2021