Self-playing Adversarial Language Game Enhances LLM Reasoning

16 April 2024

Xiaolong Li

Papers citing "Self-playing Adversarial Language Game Enhances LLM Reasoning"

28 / 28 papers shown

Title
clem:todd: A Framework for the Systematic Benchmarking of LLM-Based Task-Oriented Dialogue System Realisations Chalamalasetti Kranti Sherzod Hakimov David Schlangen LLMAG 32 0 0 08 May 2025
Learning to Plan Before Answering: Self-Teaching LLMs to Learn Abstract Plans for Problem Solving J. Zhang Flood Sung Z. Yang Yang Gao Chongjie Zhang LLMAG 28 0 0 28 Apr 2025
Anyprefer: An Agentic Framework for Preference Data Synthesis Yiyang Zhou Z. Wang Tianle Wang Shangyu Xing Peng Xia ... Chetan Bansal Weitong Zhang Ying Wei Mohit Bansal Huaxiu Yao 52 0 0 27 Apr 2025
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning Jiaqi Chen Bang Zhang Ruotian Ma Peisong Wang Xiaodan Liang Zhaopeng Tu X. Li Kwan-Yee Kenneth Wong LLMAG ReLM LRM 82 0 0 27 Apr 2025
Meta-Thinking in LLMs via Multi-Agent Reinforcement Learning: A Survey Ahsan Bilal Muhammad Ahmed Mohsin Muhammad Umer Muhammad Awais Khan Bangash Muhammad Ali Jamshed LLMAG LRM AI4CE 38 0 0 20 Apr 2025
Playpen: An Environment for Exploring Learning Through Conversational Interaction Nicola Horst Davide Mazzaccara Antonia Schmidt Michael Sullivan Filippo Momentè ... Alexander Koller Oliver Lemon David Schlangen Mario Giulianelli Alessandro Suglia OffRL 27 0 0 11 Apr 2025
Scalable Evaluation of Online Moderation Strategies via Synthetic Simulations Dimitris Tsirmpas Ion Androutsopoulos John Pavlopoulos 31 0 0 13 Mar 2025
Evaluation and Facilitation of Online Discussions in the LLM Era: A Survey Katerina Korre Dimitris Tsirmpas Nikos Gkoumas Emma Cabalé Dionysis Kontarinis Danai Myrtzani Theodoros Evgeniou Ion Androutsopoulos John Pavlopoulos 35 1 0 03 Mar 2025
Dynamic Parallel Tree Search for Efficient LLM Reasoning Yifu Ding Wentao Jiang Shunyu Liu Yongcheng Jing J. Guo ... Zengmao Wang Z. Liu Bo Du X. Liu Dacheng Tao LRM 44 4 0 22 Feb 2025
S $^2$ R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning Ruotian Ma Peisong Wang Cheng Liu Xingyan Liu Jiaqi Chen Bang Zhang Xin Zhou Nan Du Jia Li LRM 54 2 0 18 Feb 2025
Game Theory Meets Large Language Models: A Systematic Survey Haoran Sun Yusen Wu Yukun Cheng Xu Chu LM&MA OffRL AI4CE 52 1 0 13 Feb 2025
Can Large Language Models Invent Algorithms to Improve Themselves? Yoichi Ishibashi Taro Yano Masafumi Oyamada AIFin LRM 25 1 0 21 Oct 2024
Self-Boosting Large Language Models with Synthetic Preference Data Qingxiu Dong Li Dong Xingxing Zhang Zhifang Sui Furu Wei SyDa 31 1 0 09 Oct 2024
Agents' Room: Narrative Generation through Multi-step Collaboration Fantine Huot Reinald Kim Amplayo Jennimaria Palomaki Alice Shoshana Jakobovits Elizabeth Clark Mirella Lapata 37 7 0 03 Oct 2024
Visual Agents as Fast and Slow Thinkers Guangyan Sun Mingyu Jin Zhenting Wang Cheng-Long Wang Siqi Ma Qifan Wang Ying Nian Wu Ying Nian Wu Dongfang Liu Dongfang Liu LLMAG LRM 63 11 0 16 Aug 2024
A Survey on Self-play Methods in Reinforcement Learning Ruize Zhang Zelai Xu Chengdong Ma Chao Yu Weijuan Tu ... Deheng Ye Wenbo Ding Yaodong Yang Yu Wang Yu Wang SyDa SSL OnRL 36 7 0 02 Aug 2024
Direct Alignment of Language Models via Quality-Aware Self-Refinement Runsheng Yu Yong Wang Xiaoqi Jiao Youzhi Zhang James T. Kwok 39 7 0 31 May 2024
From Persona to Personalization: A Survey on Role-Playing Language Agents Jiangjie Chen Xintao Wang Rui Xu Siyu Yuan Yikai Zhang ... Caiyu Hu Siye Wu Scott Ren Ziquan Fu Yanghua Xiao 50 72 0 28 Apr 2024
Large Language Models for Data Annotation: A Survey Zhen Tan Dawei Li Song Wang Alimohammad Beigi Bohan Jiang Amrita Bhattacharjee Mansooreh Karami Jundong Li Lu Cheng Huan Liu SyDa 37 44 0 21 Feb 2024
Evolving AI Collectives to Enhance Human Diversity and Enable Self-Regulation Shiyang Lai Yujin Potter Junsol Kim Richard Zhuang Dawn Song James Evans 40 3 0 19 Feb 2024
Enhance Reasoning for Large Language Models in the Game Werewolf Shuang Wu Liwen Zhu Tao Yang Shiwei Xu Qiang Fu Yang Wei Haobo Fu LRM LLMAG 69 16 0 04 Feb 2024
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 215 291 0 18 Jan 2024
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models Avi Singh John D. Co-Reyes Rishabh Agarwal Ankesh Anand Piyush Patil ... Yamini Bansal Ethan Dyer Behnam Neyshabur Jascha Narain Sohl-Dickstein Noah Fiedel ALM LRM ReLM SyDa 144 143 0 11 Dec 2023
Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers Jiawen Xie Pengyu Cheng Xiao Liang Yong Dai Nan Du 26 2 0 25 Aug 2023
How Language Model Hallucinations Can Snowball Muru Zhang Ofir Press William Merrill Alisa Liu Noah A. Smith HILM LRM 75 246 0 22 May 2023
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond Jingfeng Yang Hongye Jin Ruixiang Tang Xiaotian Han Qizhang Feng Haoming Jiang Bing Yin Xia Hu LM&MA 123 593 0 26 Apr 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022