v1v2 (latest)

SEE-DPO: Self Entropy Enhanced Direct Preference Optimization

6 November 2024

Papers citing "SEE-DPO: Self Entropy Enhanced Direct Preference Optimization"

5 / 5 papers shown

Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

257

05 Nov 2025

Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering

198

27 Jul 2025

LookAlike: Consistent Distractor Generation in Math MCQsWorkshop on Innovative Use of NLP for Building Educational Applications (UNBEA), 2025

499

03 May 2025

ROCM: RLHF on consistency models

Shivanshu Shekhar

Tong Zhang

203

08 Mar 2025

Self-Rewarding Language Models

Xian Li

Jason Weston

899

461

18 Jan 2024