v1v2v3 (latest)

A General Language Assistant as a Laboratory for Alignment

1 December 2021

Deep Ganguli

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "A General Language Assistant as a Laboratory for Alignment"

50 / 701 papers shown

A safety realignment framework via subspace-oriented model fusion for large language modelsKnowledge-Based Systems (KBS), 2024

220

15 May 2024

SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Raghuveer Peri

Sai Muralidhar Jayanthi

S. Ronanki

Anshu Bhatia

Karel Mundnich

...

Srikanth Vishnubhotla

283

14 May 2024

LLM Theory of Mind and Alignment: Opportunities and Risks

Winnie Street

139

13 May 2024

Designing and Evaluating Dialogue LLMs for Co-Creative Improvised Theatre

Boyd Branch

Piotr Wojciech Mirowski

Kory W. Mathewson

Sophia Ppali

A. Covaci

235

11 May 2024

Value Augmented Sampling for Language Model Alignment and Personalization

Akash Srivastava

248

10 May 2024

Mitigating Exaggerated Safety in Large Language Models

Ruchi Bhalani

Ruchira Ray

202

08 May 2024

Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks

Georgios Pantazopoulos

Amit Parekh

Malvina Nikandrou

Alessandro Suglia

267

07 May 2024

Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

...

Cyprien de Masson dÁutume

246

03 May 2024

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Graham Neubig

375

328

02 May 2024

Self-Play Preference Optimization for Language Model Alignment

Quanquan Gu

586

207

01 May 2024

RepEval: Effective Text Evaluation with LLM Representation

Luoyi Fu

Xinbing Wang

189

30 Apr 2024

The AI Companion in Education: Analyzing the Pedagogical Potential of ChatGPT in Computer Science and Engineering

108

23 Apr 2024

Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels

266

22 Apr 2024

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

347

235

19 Apr 2024

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Aitor Ormazabal

Che Zheng

Cyprien de Masson dÁutume

...

265

18 Apr 2024

OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

Chandeepa Dissanayake

172

18 Apr 2024

Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs

437

15 Apr 2024

Explainable Generative AI (GenXAI): A Survey, Conceptualization, and Research Agenda

Johannes Schneider

259

15 Apr 2024

Towards Practical Tool Usage for Continually Learning LLMs

Jerry Huang

Prasanna Parthasarathi

Mehdi Rezagholizadeh

Sarath Chandar

CLL KELM

201

14 Apr 2024

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs

Bruno Castro da Silva

407

12 Apr 2024

Best Practices and Lessons Learned on Synthetic Data for Language Models

Ruibo Liu

...

Diyi Yang

304

112

11 Apr 2024

Laissez-Faire Harms: Algorithmic Biases in Generative Language Models

207

11 Apr 2024

MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

Xu Han

...

Zhiyuan Liu

Maosong Sun

MoE

446

557

09 Apr 2024

Towards Understanding the Influence of Reward Margin on Preference Model Performance

Bowen Qin

Duanyu Feng

Xi Yang

143

07 Apr 2024

Aligning Diffusion Models by Optimizing Human Utility

Shufan Li

Konstantinos Kallidromitis

Akash Gokul

Yusuke Kato

Kazuki Kozuka

305

06 Apr 2024

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique PipelineConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Xiao Liu

...

Yuxiao Dong

231

03 Apr 2024

Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models

198

03 Apr 2024

Calibrating the Confidence of Large Language Models by Eliciting FidelityConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Xipeng Qiu

277

03 Apr 2024

HyperCLOVA X Technical Report

...

232

02 Apr 2024

Efficient Prompting Methods for Large Language Models: A Survey

Jingbo Zhu

406

01 Apr 2024

A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias

444

01 Apr 2024

Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization

416

31 Mar 2024

Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model

Qi Gou

Cam-Tu Nguyen

309

28 Mar 2024

Fine-Tuning Language Models with Reward Learning on Policy

239

28 Mar 2024

IterAlign: Iterative Constitutional Alignment of Large Language Models

118

27 Mar 2024

Assessment of Multimodal Large Language Models in Alignment with Human Values

Yu Qiao

230

26 Mar 2024

Language Models in Dialogue: Conversational Maxims for Human-AI InteractionsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Erik Miehling

377

22 Mar 2024

RewardBench: Evaluating Reward Models for Language Modeling

Nathan Lambert

Valentina Pyatkin

Jacob Morrison

Lester James V. Miranda

Bill Yuchen Lin

...

Sachin Kumar

Tom Zick

Yejin Choi

Noah A. Smith

Hanna Hajishirzi

ALM

468

335

20 Mar 2024

Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Chengjin Xu

183

18 Mar 2024

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language ModelsEuropean Conference on Computer Vision (ECCV), 2024

497

14 Mar 2024

HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback

...

Ying Shan

334

13 Mar 2024

Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards

Wei Shen

Yang Liu

236

12 Mar 2024

Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A Brain-Inspired Method for Parameter-Efficient Fine-Tuning

Yao Liang

Yuwei Wang

Yang Li

Yi Zeng

224

12 Mar 2024

MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context LearningInternational Conference on Learning Representations (ICLR), 2024

204

11 Mar 2024

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models

Maosong Sun

Xing Xie

OffRL

396

07 Mar 2024

Negating Negatives: Alignment without Human Positive Samples via Distributional Dispreference Optimization

Xing Xie

158

06 Mar 2024

Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing Conversational LLMs with Direct RLHF

217

04 Mar 2024

Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models

Arijit Ghosh Chowdhury

Vinija Jain

275

03 Mar 2024

Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes

Xiaomeng Hu

Pin-Yu Chen

Tsung-Yi Ho

AAML

196

01 Mar 2024

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards

Haoxiang Wang

Yong Lin

Wei Xiong

Tong Zhang

428

125

28 Feb 2024