Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

22 January 2025

Papers citing "Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback"

2 / 2 papers shown

Title
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond Xiaoye Qu Yafu Li Zhaochen Su Weigao Sun Jianhao Yan ... Chaochao Lu Yue Zhang Xian-Sheng Hua Bowen Zhou Yu Cheng ReLM OffRL LRM 76 11 0 27 Mar 2025
Self-Supervised Prompt Optimization Jinyu Xiang Jiayi Zhang Zhaoyang Yu Fengwei Teng Jinhao Tu Xinbing Liang Sirui Hong Chenglin Wu Yuyu Luo OffRL LRM 41 5 0 07 Feb 2025