Fair-PP: A Synthetic Dataset for Aligning LLM with Personalized Preferences of Social Equity

17 May 2025

Papers citing "Fair-PP: A Synthetic Dataset for Aligning LLM with Personalized Preferences of Social Equity"

20 / 20 papers shown

MonoCLUE : Object-Aware Clustering Enhances Monocular 3D Object DetectionAnnual Conference of the IEEE Industrial Electronics Society (IECON), 2022

136

11 Nov 2025

SEA-LION: Southeast Asian Languages in One Network

...

431

08 Apr 2025

SafeWorld: Geo-Diverse Safety AlignmentNeural Information Processing Systems (NeurIPS), 2024

339

09 Dec 2024

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-ExpertsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Haoxiang Wang

Wei Xiong

Tengyang Xie

Han Zhao

Tong Zhang

316

307

18 Jun 2024

Safety Alignment Should Be Made More Than Just a Few Tokens DeepInternational Conference on Learning Representations (ICLR), 2024

250

283

10 Jun 2024

Group Robust Preference Optimization in Reward-free RLHF

329

30 May 2024

WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models

Yuling Gu

283

25 Apr 2024

Investigating Cultural Alignment of Large Language Models

Badr AlKhamissi

Muhammad N. ElNokrashy

Mai AlKhamissi

Mona T. Diab

407

119

20 Feb 2024

CultureLLM: Incorporating Cultural Differences into Large Language Models

Xing Xie

315

09 Feb 2024

Cultural Bias and Cultural Alignment of Large Language ModelsPNAS Nexus (PNAS Nexus), 2023

461

222

23 Nov 2023

Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and DutiesAAAI Conference on Artificial Intelligence (AAAI), 2023

...

Yejin Choi

509

02 Sep 2023

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference DatasetNeural Information Processing Systems (NeurIPS), 2023

Jiaming Ji

Juntao Dai

Chi Zhang

Chi Zhang

414

733

10 Jul 2023

Towards Measuring the Representation of Subjective Global Opinions in Language Models

Esin Durmus

...

Deep Ganguli

368

341

28 Jun 2023

Direct Preference Optimization: Your Language Model is Secretly a Reward ModelNeural Information Processing Systems (NeurIPS), 2023

Christopher D. Manning

Chelsea Finn

ALM

953

6,888

29 May 2023

AlpacaFarm: A Simulation Framework for Methods that Learn from Human FeedbackNeural Information Processing Systems (NeurIPS), 2023

Jimmy Ba

Tatsunori B. Hashimoto

ALM

506

774

22 May 2023

Whose Opinions Do Language Models Reflect?International Conference on Machine Learning (ICML), 2023

Esin Durmus

Tatsunori Hashimoto

376

653

30 Mar 2023

GPT-4 Technical Report

...

4.7K

21,366

15 Mar 2023

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

...

976

3,520

12 Apr 2022

Fine-Tuning Language Models from Human Preferences

1.8K

2,212

18 Sep 2019

Deep reinforcement learning from human preferencesNeural Information Processing Systems (NeurIPS), 2017

1.6K

4,461

12 Jun 2017