v1v2v3v4v5 (latest)

Evolving LLMs' Self-Refinement Capability via Iterative Preference Optimization

8 February 2025

Papers citing "Evolving LLMs' Self-Refinement Capability via Iterative Preference Optimization"

1 / 1 papers shown

Title
Sherlock: Self-Correcting Reasoning in Vision-Language Models Yi Ding Ruqi Zhang ReLM LRM VLM 224 6 0 28 May 2025