v1v2v3 (latest)

Token-level Accept or Reject: A Micro Alignment Approach for Large Language Models

International Joint Conference on Artificial Intelligence (IJCAI), 2025

26 May 2025

Papers citing "Token-level Accept or Reject: A Micro Alignment Approach for Large Language Models"

26 / 26 papers shown

DPO Meets PPO: Reinforced Token Optimization for RLHF

618

29 Apr 2024

Token-level Direct Preference Optimization

Jun Wang

521

106

18 Apr 2024

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

648

1,132

20 Mar 2024

Aligner: Efficient Alignment by Learning to Correct

Jiaming Ji

Juntao Dai

361

04 Feb 2024

Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

...

644

137

14 Dec 2023

Safe RLHF: Safe Reinforcement Learning from Human Feedback

Jiaming Ji

395

531

19 Oct 2023

A General Theoretical Paradigm to Understand Learning from Human PreferencesInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Bilal Piot

Daniele Calandriello

597

835

18 Oct 2023

Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence ConstraintsInternational Conference on Learning Representations (ICLR), 2023

254

145

28 Sep 2023

RAIN: Your Language Models Can Align Themselves without FinetuningInternational Conference on Learning Representations (ICLR), 2023

291

156

13 Sep 2023

Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

Rishabh Bhardwaj

Soujanya Poria

ELM

369

211

18 Aug 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models

Louis Martin

...

Sharan Narang

Sergey Edunov

7.7K

15,207

18 Jul 2023

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference DatasetNeural Information Processing Systems (NeurIPS), 2023

Jiaming Ji

Juntao Dai

Chi Zhang

Chi Zhang

395

707

10 Jul 2023

Direct Preference Optimization: Your Language Model is Secretly a Reward ModelNeural Information Processing Systems (NeurIPS), 2023

Christopher D. Manning

Chelsea Finn

ALM

843

6,615

29 May 2023

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

Wei Xiong

Tong Zhang

458

635

13 Apr 2023

RRHF: Rank Responses to Align Language Models with Human Feedback without tearsNeural Information Processing Systems (NeurIPS), 2023

Zheng Yuan

Hongyi Yuan

Chuanqi Tan

402

475

11 Apr 2023

Discovering Language Model Behaviors with Model-Written EvaluationsAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

...

Deep Ganguli

359

580

19 Dec 2022

Constitutional AI: Harmlessness from AI Feedback

...

884

2,269

15 Dec 2022

Self-critiquing models for assisting human evaluators

378

357

12 Jun 2022

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

...

897

3,458

12 Apr 2022

Training language models to follow instructions with human feedbackNeural Information Processing Systems (NeurIPS), 2022

Carroll L. Wainwright

...

2.1K

17,490

04 Mar 2022

WebGPT: Browser-assisted question-answering with human feedback

...

462

1,605

17 Dec 2021

Recursively Summarizing Books with Human Feedback

501

341

22 Sep 2021

Dynamic Context Selection for Document-level Neural Machine Translation via Reinforcement LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

140

09 Oct 2020

Learning to summarize from human feedbackNeural Information Processing Systems (NeurIPS), 2020

854

2,720

02 Sep 2020

Fine-Tuning Language Models from Human Preferences

1.7K

2,197

18 Sep 2019

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

Tuomas Haarnoja

Aurick Zhou

Pieter Abbeel

Sergey Levine

2.3K

10,060

04 Jan 2018