v1v2v3 (latest)

A General Language Assistant as a Laboratory for Alignment

1 December 2021

Deep Ganguli

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "A General Language Assistant as a Laboratory for Alignment"

50 / 701 papers shown

VoCo-LLaMA: Towards Vision Compression with Large Language Models

Yansong Tang

390

18 Jun 2024

WPO: Enhancing RLHF with Weighted Preference Optimization

334

17 Jun 2024

A Survey on Human Preference Learning for Large Language Models

Ruili Jiang

Kehai Chen

Xuefeng Bai

Zhixuan He

Juntao Li

Muyun Yang

Tiejun Zhao

Liqiang Nie

Min Zhang

282

17 Jun 2024

Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens

Weiyao Luo

Suncong Zheng

Heming Xia

Weikang Wang

Yan Lei

Tianyu Liu

Shuang Chen

Zhifang Sui

150

16 Jun 2024

Self-Evolution Fine-Tuning for Policy Optimization

210

16 Jun 2024

Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon CaptioningNeural Information Processing Systems (NeurIPS), 2024

...

Kevin Jamieson

Robert Nowak

270

15 Jun 2024

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMsNeural Information Processing Systems (NeurIPS), 2024

Rui Yang

Ruomeng Ding

Yong Lin

Huan Zhang

Tong Zhang

291

14 Jun 2024

Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models

...

Ethan Perez

388

14 Jun 2024

Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models

227

14 Jun 2024

Security of AI Agents

Hao Chen

399

12 Jun 2024

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

188

12 Jun 2024

Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets

Youcheng Huang

169

12 Jun 2024

It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF

Xinyu Yang

329

12 Jun 2024

Collective Constitutional AI: Aligning a Language Model with Public Input

334

133

12 Jun 2024

A Critical Look At Tokenwise Reward-Guided Text Generation

601

12 Jun 2024

Aligning Large Language Models with Representation Editing: A Control PerspectiveNeural Information Processing Systems (NeurIPS), 2024

Chao Zhang

265

10 Jun 2024

Language Models Resist Alignment: Evidence From Data CompressionAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

609

10 Jun 2024

Deconstructing The Ethics of Large Language Models from Long-standing Issues to New-emerging Dilemmas

...

Lu Cheng

265

08 Jun 2024

CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Ling Shi

Deyi Xiong

ELM

257

07 Jun 2024

Benchmark Data Contamination of Large Language Models: A Survey

271

06 Jun 2024

AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

...

Qi Zhang

Xipeng Qiu

Xuanjing Huang

Zuxuan Wu

Yu-Gang Jiang

LLMAG LM&Ro

286

06 Jun 2024

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art

Chen Cecilia Liu

Iryna Gurevych

Anna Korhonen

577

06 Jun 2024

Exploring Human-AI Perception Alignment in Sensory Experiences: Do LLMs Understand Textile Hand?

164

05 Jun 2024

Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers

228

05 Jun 2024

Dishonesty in Helpful and Harmless Alignment

306

04 Jun 2024

A Robot Walks into a Bar: Can Language Models Serve as Creativity Support Tools for Comedy? An Evaluation of LLMs' Humour Alignment with Comedians

Piotr Wojciech Mirowski

Juliette Love

K. Mathewson

Shakir Mohamed

305

31 May 2024

Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment

Mingyuan Zhou

213

31 May 2024

Transfer Q Star: Principled Decoding for LLM Alignment

Ming Yin

Mengdi Wang

Furong Huang

277

30 May 2024

Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks

365

30 May 2024

AI Risk Management Should Incorporate Both Safety and Security

Yi Zeng

...

272

29 May 2024

Participation in the age of foundation models

354

29 May 2024

Self-Exploring Language Models: Active Preference Elicitation for Online Alignment

273

29 May 2024

TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing Large Language Models

251

28 May 2024

Aligning to Thousands of Preferences via System Message Generalization

321

28 May 2024

The Impossibility of Fair LLMs

439

28 May 2024

Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier

Anirudhan Badrinath

Prabhat Agarwal

Jiajing Xu

162

28 May 2024

Exploring the LLM Journey from Cognition to Expression with Linear Representations

234

27 May 2024

Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models

455

27 May 2024

Robustifying Safety-Aligned Large Language Models through Clean Data Curation

379

24 May 2024

Bayesian WeakS-to-Strong from Text Classification to Generation

361

24 May 2024

Lessons from the Trenches on Reproducible Evaluation of Language Models

...

360

103

23 May 2024

SimPO: Simple Preference Optimization with a Reference-Free RewardNeural Information Processing Systems (NeurIPS), 2024

Yu Meng

Mengzhou Xia

Danqi Chen

538

778

23 May 2024

ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based EvaluationNeural Information Processing Systems (NeurIPS), 2024

357

23 May 2024

Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences

Keertana Chidambaram

Karthik Vinay Seetharaman

Vasilis Syrgkanis

431

23 May 2024

LIRE: listwise reward enhancement for preference alignment

Lei Zhang

182

22 May 2024

Annotation-Efficient Language Model Alignment via Diverse and Representative Response Texts

Yuu Jinnai

Ukyo Honda

265

22 May 2024

Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting

Krishna Prasad Varadarajan Srinivasan

Prasanth Gumpena

Madhusudhana Yattapu

Vishal H. Brahmbhatt

104

21 May 2024

SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling

Junge Zhang

Kaiqi Huang

203

21 May 2024

Hummer: Towards Limited Competitive Preference Dataset

395

19 May 2024

Language Models can Evaluate Themselves via Probability DiscrepancyAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Bowen Yu

Chang Zhou

270

17 May 2024