v1v2v3 (latest)

A General Language Assistant as a Laboratory for Alignment

1 December 2021

Deep Ganguli

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "A General Language Assistant as a Laboratory for Alignment"

50 / 701 papers shown

Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language ModelsACM Journal on Responsible Computing (ACM JRC), 2024

Ned Cooper

Alexandra Zafiroglu

238

27 Aug 2024

Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language ModelsInternational Conference on Learning Representations (ICLR), 2024

494

27 Aug 2024

Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates

504

23 Aug 2024

Value Alignment from Unstructured TextConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Inkit Padhi

Karthikeyan N. Ramamurthy

227

19 Aug 2024

Minor DPO reject penalty to increase training robustness

202

19 Aug 2024

Offline RLHF Methods Need More Accurate Supervision SignalsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Rui Zhao

Cam Tu Nguyen

18 Aug 2024

Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks

Kexin Chen

168

18 Aug 2024

SEAL: Systematic Error Analysis for Value ALignmentAAAI Conference on Artificial Intelligence (AAAI), 2024

286

16 Aug 2024

The Future of Open Human FeedbackNature Machine Intelligence (Nat. Mach. Intell.), 2024

Shachar Don-Yehiya

Ben Burtenshaw

Ramon Fernandez Astudillo

...

280

15 Aug 2024

Bridging and Modeling Correlations in Pairwise Data for Direct Preference OptimizationInternational Conference on Learning Representations (ICLR), 2024

Yasheng Wang

Lifeng Shang

Ruiming Tang

Wei Wang

306

14 Aug 2024

Building Decision Making Models Through Language Model Regime

Weihua Luo

171

12 Aug 2024

Mission Impossible: A Statistical Perspective on Jailbreaking LLMsNeural Information Processing Systems (NeurIPS), 2024

Jingtong Su

Mingyu Lee

SangKeun Lee

207

02 Aug 2024

ABC Align: Large Language Model Alignment for Safety & Accuracy

190

01 Aug 2024

LLMmap: Fingerprinting For Large Language Models

Dario Pasquini

Evgenios M. Kornaropoulos

G. Ateniese

505

22 Jul 2024

Improving Context-Aware Preference Modeling for Language Models

Silviu Pitis

Ziang Xiao

Nicolas Le Roux

Alessandro Sordoni

208

20 Jul 2024

Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs)

432

20 Jul 2024

Learning Goal-Conditioned Representations for Language Reward Models

182

18 Jul 2024

The Better Angels of Machine Personality: How Personality Relates to LLM Safety

Yu Qiao

224

17 Jul 2024

How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies

Alina Leidinger

Richard Rogers

390

16 Jul 2024

Thorns and Algorithms: Navigating Generative AI Challenges Inspired by Giraffes and Acacias

Waqar Hussain

274

16 Jul 2024

Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

Shiji Song

423

11 Jul 2024

Grounding and Evaluation for Large Language Models: Practical Challenges and Lessons Learned (Survey)

219

10 Jul 2024

Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders

154

09 Jul 2024

OffsetBias: Leveraging Debiased Data for Tuning Evaluators

300

09 Jul 2024

AI Safety in Generative AI Large Language Models: A Survey

Lina Yao

349

06 Jul 2024

Spontaneous Reward Hacking in Iterative Self-Refinement

Jane Pan

He He

Samuel R. Bowman

Shi Feng

257

05 Jul 2024

Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment

Janghwan Lee

Du-Seong Chang

117

03 Jul 2024

RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs

Sara Hooker

247

02 Jul 2024

Purple-teaming LLMs with Adversarial Defender Training

Jingyan Zhou

Kun Li

Junan Li

Jiawen Kang

Minda Hu

Xixin Wu

Helen Meng

AAML

221

01 Jul 2024

Self-Cognition in Large Language Models: An Exploratory Study

Dongping Chen

Pan Zhou

Lichao Sun

224

01 Jul 2024

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

Tzu-Han Lin

Chen-An Li

Hung-yi Lee

Yun-Nung Chen

VLM ALM

139

01 Jul 2024

Badllama 3: removing safety finetuning from Llama 3 in minutes

Dmitrii Volkov

134

01 Jul 2024

BAPO: Base-Anchored Preference Optimization for Personalized Alignment in Large Language Models

Sangmook Kim

256

30 Jun 2024

Advancing Process Verification for Large Language Models via Tree-Based Preference Learning

Weiming Lu

226

29 Jun 2024

Rethinking harmless refusals when fine-tuning foundation models

Florin Pop

Judd Rosenblatt

Diogo Schwerz de Lucena

Michael Vaiana

27 Jun 2024

Suri: Multi-constraint Instruction Following for Long-form Text Generation

281

27 Jun 2024

AI Alignment through Reinforcement Learning from Human Feedback? Contradictions and Limitations

Adam Dahlgren Lindstrom

Leila Methnani

Lea Krause

Petter Ericson

Ínigo Martínez de Rituerto de Troya

Dimitri Coelho Mollo

Roel Dobbe

ALM

208

26 Jun 2024

PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning

Regunathan Radhakrishnan

S. Asur

Cheng

MoMe

249

25 Jun 2024

DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph

222

25 Jun 2024

WARP: On the Benefits of Weight Averaged Rewarded Policies

311

24 Jun 2024

Guardrails for avoiding harmful medical product recommendations and off-label promotion in generative AI models

Daniel Lopez-Martinez

MedIm

287

24 Jun 2024

On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

...

Leyang Cui

232

24 Jun 2024

Large Language Models Assume People are More Rational than We Really are

525

24 Jun 2024

How Well Do LLMs Represent Values Across Cultures? Empirical Analysis of LLM Responses Based on Hofstede Cultural Dimensions

222

21 Jun 2024

Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing

601

20 Jun 2024

Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons

338

20 Jun 2024

FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering

Yunqi Xu

Yinger Zhang

Jinjie Gu

287

19 Jun 2024

In-Context Former: Lightning-fast Compressing Context for Large Language ModelConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Xiangfeng Wang

Enhong Chen

202

19 Jun 2024

BeHonest: Benchmarking Honesty in Large Language Models

Steffi Chern

Zhulin Hu

Yuqing Yang

Ethan Chern

Binjie Wang

296

19 Jun 2024

Low-Redundant Optimization for Large Language Model AlignmentConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Zhipeng Chen

Kun Zhou

Wayne Xin Zhao

Jingyuan Wang

Ji-Rong Wen

248

18 Jun 2024