Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2506.15068
Cited By

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

18 June 2025

Jordan L. Boyd-Graber

ArXiv (abs)PDF HTML HuggingFace (14 upvotes)

Papers citing "Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation"

5 / 5 papers shown

Guided Self-Evolving LLMs with Minimal Human Supervision

Guided Self-Evolving LLMs with Minimal Human Supervision

Chengsong Huang

Kishan Panaganti

361

5

0

02 Dec 2025

SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

237

0

0

17 Nov 2025

Self-Rewarding Vision-Language Model via Reasoning Decomposition

Self-Rewarding Vision-Language Model via Reasoning Decomposition

Chengsong Huang

...

Jordan L. Boyd-Graber

149

42

0

27 Aug 2025

R-Zero: Self-Evolving Reasoning LLM from Zero Data

R-Zero: Self-Evolving Reasoning LLM from Zero Data

Chengsong Huang

240

52

0

07 Aug 2025

Compositional Coordination for Multi-Robot Teams with Large Language Models

Compositional Coordination for Multi-Robot Teams with Large Language Models

Gaurav Sukhatme

433

0

0

21 Jul 2025

Page 1 of 1