Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering

18 November 2024

Papers citing "Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering"

4 / 4 papers shown

Title
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? Xueru Wen Jie Lou Yaojie Lu Hongyu Lin Xing Yu Xinyu Lu Xianpei Han Jia Zheng Debing Zhang Le Sun ALM 125 7 0 17 Feb 2025
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 394 338 0 18 Jan 2024
WizardCoder: Empowering Code Large Language Models with Evol-Instruct Ziyang Luo Can Xu Pu Zhao Qingfeng Sun Xiubo Geng Wenxiang Hu Chongyang Tao Jing Ma Qingwei Lin Daxin Jiang ELM SyDa ALM 167 694 0 14 Jun 2023
Can Large Language Models Play Text Games Well? Current State-of-the-Art and Open Questions Chen Feng Tsai Xiaochen Zhou Sierra S. Liu Jing Li Mo Yu Hongyuan Mei LLMAG ELM AI4MH LM&MA 102 32 0 06 Apr 2023