Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2402.12621
Cited By

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs

v1v2 (latest)

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs

20 February 2024

Runlong Zhou

ArXiv (abs)PDF HTML Github (10★)

Papers citing "Reflect-RL: Two-Player Online RL Fine-Tuning for LMs"

3 / 3 papers shown

Reinforced Language Models for Sequential Decision Making

Reinforced Language Models for Sequential Decision Making

Sebastian Stein

143

0

0

14 Aug 2025

Self-Rewarding Language Models

Self-Rewarding Language Models

Richard Yuanzhe Pang

Xian Li

Sainbayar Sukhbaatar

Jason Weston

ReLM SyDa ALM LRM

979

540

0

18 Jan 2024

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

...

Ahmed Hassan Awadallah

591

1,285

0

16 Aug 2023

Page 1 of 1