v1v2v3 (latest)

A General Language Assistant as a Laboratory for Alignment

1 December 2021

Deep Ganguli

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "A General Language Assistant as a Laboratory for Alignment"

50 / 701 papers shown

WARM: On the Benefits of Weight Averaged Reward ModelsInternational Conference on Machine Learning (ICML), 2024

Nino Vieillard

Olivier Bachem

355

130

22 Jan 2024

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model GuidanceConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Xipeng Qiu

279

20 Jan 2024

Large-scale Reinforcement Learning for Diffusion ModelsEuropean Conference on Computer Vision (ECCV), 2024

264

20 Jan 2024

Reinforcement learning for question answering in programming domain using public community scoring as a human feedback

Alexey Gorbatovski

Sergey Kovalchuk

19 Jan 2024

Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

198

13 Jan 2024

Towards Conversational Diagnostic AI

...

Yossi Matias

Alan Karthikesalingam

Vivek Natarajan

AI4MH LM&MA

257

140

11 Jan 2024

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust AdaptationInternational Conference on Machine Learning (ICML), 2024

Mahdi Nikdan

Soroush Tabesh

Elvir Crnčević

Dan Alistarh

502

09 Jan 2024

Agent Alignment in Evolving Social Norms

Shimin Li

Tianxiang Sun

Qinyuan Cheng

Xipeng Qiu

LLMAG

298

09 Jan 2024

MERA: A Comprehensive LLM Evaluation in RussianAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Alena Fenogenova

...

271

09 Jan 2024

A Philosophical Introduction to Language Models -- Part I: Continuity With Classic Debates

Raphael Milliere

Cameron Buckner

LRM ELM

191

08 Jan 2024

InFoBench: Evaluating Instruction Following Ability in Large Language Models

Wenlin Yao

Dong Yu

232

07 Jan 2024

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

268

04 Jan 2024

Understanding LLMs: A Comprehensive Overview from Training to Inference

...

Tuo Zhang

Tianming Liu

464

123

04 Jan 2024

Align on the Fly: Adapting Chatbot Behavior to Established Norms

Chunpu Xu

Ge Zhang

Ruibo Liu

181

26 Dec 2023

Learning and Forgetting Unsafe Examples in Large Language Models

359

20 Dec 2023

InstructVideo: Instructing Video Diffusion Models with Human Feedback

259

19 Dec 2023

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint

Wei Xiong

Tong Zhang

374

294

18 Dec 2023

Challenges with unsupervised LLM knowledge discovery

310

15 Dec 2023

Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHFInternational Conference on Learning Representations (ICLR), 2023

Anand Siththaranjan

Cassidy Laidlaw

Dylan Hadfield-Menell

460

13 Dec 2023

AI capabilities can be significantly improved without expensive retraining

Tom Davidson

Jean-Stanislas Denain

Pablo Villalobos

Guillem Bas

OffRL VLM

236

12 Dec 2023

On Diversified Preferences of Large Language Model AlignmentConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

388

12 Dec 2023

Alignment for HonestyNeural Information Processing Systems (NeurIPS), 2023

Yuqing Yang

Ethan Chern

Xipeng Qiu

Graham Neubig

Pengfei Liu

258

12 Dec 2023

Control Risk for Potential Misuse of Artificial Intelligence in Science

...

215

11 Dec 2023

Steering Llama 2 via Contrastive Activation AdditionAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Alexander Matt Turner

LLMSV

445

446

09 Dec 2023

Language Model Alignment with Elastic Reset

Aaron Courville

324

06 Dec 2023

ULMA: Unified Language Model Alignment with Human Demonstration and Point-wise Preference

197

05 Dec 2023

MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-FollowingInternational Conference on Learning Representations (ICLR), 2023

Yuxuan Sun

265

05 Dec 2023

Personality of AIInternational Conference on Artificial Intelligence and Soft Computing (ICAISC), 2023

Byunggu Yu

Junwhan Kim

169

03 Dec 2023

Axiomatic Preference Modeling for Longform Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Corby Rosset

Guoqing Zheng

Victor C. Dibia

Ahmed Hassan Awadallah

Paul Bennett

SyDa

150

02 Dec 2023

TaskWeaver: A Code-First Agent Framework

...

264

29 Nov 2023

Elo Uncovered: Robustness and Best Practices in Language Model EvaluationIEEE Games Entertainment Media Conference (IEEE GEM), 2023

224

29 Nov 2023

Adversarial Diffusion DistillationEuropean Conference on Computer Vision (ECCV), 2023

884

603

28 Nov 2023

Foundational Moral Values for AI Alignment

Betty Hou

Brian Patrick Green

177

28 Nov 2023

CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models

Xing Xie

169

28 Nov 2023

A Survey of the Evolution of Language Model-Based Dialogue Systems: Data, Task and Models

452

28 Nov 2023

Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Kevin Liu

Stephen Casper

Dylan Hadfield-Menell

Jacob Andreas

HILM

265

27 Nov 2023

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

...

979

1,953

25 Nov 2023

Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency TrainingEuropean Conference on Computer Vision (ECCV), 2023

Cheng Tan

Jingxuan Wei

Zhangyang Gao

Linzhuang Sun

Siyuan Li

Ruifeng Guo

Xihong Yang

Stan Z. Li

LRM

291

23 Nov 2023

Diffusion Model Alignment Using Direct Preference OptimizationComputer Vision and Pattern Recognition (CVPR), 2023

449

516

21 Nov 2023

Case Repositories: Towards Case-Based Reasoning for AI Alignment

Amy X. Zhang

167

18 Nov 2023

DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback

Heng Ji

439

16 Nov 2023

Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking

360

16 Nov 2023

LifeTox: Unveiling Implicit Toxicity in Life Advice

307

16 Nov 2023

An Empathetic User-Centric Chatbot for Emotional Support

Yanting Pan

Yixuan Tang

Yuchen Niu

15 Nov 2023

Value FULCRA: Mapping Large Language Models to the Multidimensional Spectrum of Basic Human ValuesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

Xing Xie

299

15 Nov 2023

Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM GameAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

706

14 Nov 2023

Generalization Analogies: A Testbed for Generalizing AI Oversight to Hard-To-Measure Domains

365

13 Nov 2023

MART: Improving LLM Safety with Multi-round Automatic Red-TeamingNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

Madian Khabsa

212

150

13 Nov 2023

Psychometric Predictive Power of Large Language Models

277

13 Nov 2023

Flames: Benchmarking Value Alignment of LLMs in ChineseNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

Xiangyang Liu

Tianxiang Sun

...

Xipeng Qiu

Dahua Lin

412

12 Nov 2023