Title
COPR: Continual Learning Human Preference through Optimal Policy Regularization Han Zhang Lin Gui Yuanzhao Zhai Hui Wang Yu Lei Ruifeng Xu CLL 43 0 0 24 Oct 2023
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression Jiduan Liu Jiahao Liu Qifan Wang Jingang Wang Xunliang Cai Dongyan Zhao R. Wang Rui Yan 19 4 0 24 Oct 2023
The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks Xiaoyi Chen Siyuan Tang Rui Zhu Shijun Yan Lei Jin Zihao Wang Liya Su Zhikun Zhang XiaoFeng Wang Haixu Tang AAML PILM 16 17 0 24 Oct 2023
EpiK-Eval: Evaluation for Language Models as Epistemic Models Gabriele Prato Jerry Huang Prasannna Parthasarathi Shagun Sodhani Sarath Chandar ELM 30 4 0 23 Oct 2023
Specialist or Generalist? Instruction Tuning for Specific NLP Tasks Chufan Shi Yixuan Su Cheng Yang Yujiu Yang Deng Cai 29 18 0 23 Oct 2023
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation Swarnadeep Saha Omer Levy Asli Celikyilmaz Mohit Bansal Jason Weston Xian Li MoMe 23 70 0 23 Oct 2023
Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models Matthieu Meeus Shubham Jain Marek Rei Yves-Alexandre de Montjoye MIALM 26 29 0 23 Oct 2023
Active teacher selection for reinforcement learning from human feedback Rachel Freedman Justin Svegliato K. H. Wray Stuart J. Russell 31 6 0 23 Oct 2023
Which Prompts Make The Difference? Data Prioritization For Efficient Human LLM Evaluation M. Boubdir Edward Kim B. Ermiş Marzieh Fadaee Sara Hooker ALM 31 18 0 22 Oct 2023
Language Model Unalignment: Parametric Red-Teaming to Expose Hidden Harms and Biases Rishabh Bhardwaj Soujanya Poria ALM 49 14 0 22 Oct 2023
Copyright Violations and Large Language Models Antonia Karamolegkou Jiaang Li Li Zhou Anders Sogaard 17 53 0 20 Oct 2023
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak D. Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 211 178 0 20 Oct 2023
CLAIR: Evaluating Image Captions with Large Language Models David M. Chan Suzanne Petryk Joseph E. Gonzalez Trevor Darrell John F. Canny 38 20 0 19 Oct 2023
Safe RLHF: Safe Reinforcement Learning from Human Feedback Josef Dai Xuehai Pan Ruiyang Sun Jiaming Ji Xinbo Xu Mickel Liu Yizhou Wang Yaodong Yang 27 286 0 19 Oct 2023
Reliable Academic Conference Question Answering: A Study Based on Large Language Model Zhiwei Huang Long Jin Junjie Wang Mingchen Tu Yin Hua Zhiqiang Liu Jiawei Meng Hua-zeng Chen Wen Zhang 26 0 0 19 Oct 2023
Attack Prompt Generation for Red Teaming and Defending Large Language Models Boyi Deng Wenjie Wang Fuli Feng Yang Deng Qifan Wang Xiangnan He AAML 25 48 0 19 Oct 2023
Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization Lijie Ding Jenny Zhang Jeff Clune Lee Spector Joel Lehman EGVM 24 7 0 18 Oct 2023
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning Rui Zheng Wei Shen Yuan Hua Wenbin Lai Shihan Dou ... Xiao Wang Haoran Huang Tao Gui Qi Zhang Xuanjing Huang 54 14 0 18 Oct 2023
Emptying the Ocean with a Spoon: Should We Edit Models? Yuval Pinter Michael Elhadad KELM 20 26 0 18 Oct 2023
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning Ming Li Lichang Chen Jiuhai Chen Shwai He Heng-Chiao Huang Jiuxiang Gu Tianyi Zhou 102 20 0 18 Oct 2023
Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging Joel Jang Seungone Kim Bill Yuchen Lin Yizhong Wang Jack Hessel Luke Zettlemoyer Hannaneh Hajishirzi Yejin Choi Prithviraj Ammanabrolu MoMe 43 131 0 17 Oct 2023
Group Preference Optimization: Few-Shot Alignment of Large Language Models Siyan Zhao John Dang Aditya Grover 25 29 0 17 Oct 2023
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective Ming Zhong Chenxin An Weizhu Chen Jiawei Han Pengcheng He 21 9 0 17 Oct 2023
Compositional preference models for aligning LMs Dongyoung Go Tomasz Korbak Germán Kruszewski Jos Rozen Marc Dymetman 16 15 0 17 Oct 2023
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks Erfan Shayegani Md Abdullah Al Mamun Yu Fu Pedram Zaree Yue Dong Nael B. Abu-Ghazaleh AAML 147 145 0 16 Oct 2023
Llemma: An Open Language Model For Mathematics Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen Marcus McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck CLL 29 270 0 16 Oct 2023
Factored Verification: Detecting and Reducing Hallucination in Summaries of Academic Papers Charlie George Andreas Stuhlmuller HILM 20 5 0 16 Oct 2023
ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models Ziniu Li Tian Xu Yushun Zhang Zhihang Lin Yang Yu Ruoyu Sun Zhimin Luo 19 47 0 16 Oct 2023
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis Kai Chen Chunwei Wang Kuo Yang Jianhua Han Lanqing Hong ... Zhenguo Li Dit-Yan Yeung Lifeng Shang Xin Jiang Qun Liu 42 33 0 16 Oct 2023
Privacy in Large Language Models: Attacks, Defenses and Future Directions Haoran Li Yulin Chen Jinglong Luo Yan Kang Xiaojin Zhang Qi Hu Chunkit Chan Yangqiu Song PILM 40 41 0 16 Oct 2023
Multi-Stage Pre-training Enhanced by ChatGPT for Multi-Scenario Multi-Domain Dialogue Summarization Weixiao Zhou Gengyao Li Xianfu Cheng Xinnian Liang Junnan Zhu Feifei Zhai Zhoujun Li 16 5 0 16 Oct 2023
Character-LLM: A Trainable Agent for Role-Playing Yunfan Shao Linyang Li Junqi Dai Xipeng Qiu LLMAG 17 211 0 16 Oct 2023
Verbosity Bias in Preference Labeling by Large Language Models Keita Saito Akifumi Wachi Koki Wataoka Youhei Akimoto ALM 8 28 0 16 Oct 2023
Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task Maya Okawa Ekdeep Singh Lubana Robert P. Dick Hidenori Tanaka CoGe DiffM 35 45 0 13 Oct 2023
SeqXGPT: Sentence-Level AI-Generated Text Detection Pengyu Wang Linyang Li Ke Ren Botian Jiang Dong Zhang Xipeng Qiu DeLMO 21 50 0 13 Oct 2023
InstructTODS: Large Language Models for End-to-End Task-Oriented Dialogue Systems Willy Chung Samuel Cahyawijaya Bryan Wilie Holy Lovenia Pascale Fung 17 5 0 13 Oct 2023
Understanding and Controlling a Maze-Solving Policy Network Ulisse Mini Peli Grietzer Mrinank Sharma Austin Meek M. MacDiarmid Alexander Matt Turner 14 15 0 12 Oct 2023
An Information Bottleneck Characterization of the Understanding-Workload Tradeoff Lindsay M. Sanneman Mycal Tucker Julie A. Shah 24 2 0 11 Oct 2023
InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining Boxin Wang Wei Ping Lawrence C. McAfee Peng-Tao Xu Bo Li M. Shoeybi Bryan Catanzaro RALM 16 45 0 11 Oct 2023
The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values Hannah Rose Kirk Andrew M. Bean Bertie Vidgen Paul Röttger Scott A. Hale ALM 19 41 0 11 Oct 2023
KwaiYiiMath: Technical Report Jia-Yi Fu Lei Lin Xiaoyang Gao Pengli Liu Zhengzong Chen ... Zijia Lin Fuzheng Zhang Zhongyuan Wang Di Zhang Kun Gai LRM ReLM RALM 45 2 0 11 Oct 2023
Online Speculative Decoding Xiaoxuan Liu Lanxiang Hu Peter Bailis Alvin Cheung Zhijie Deng Ion Stoica Hao Zhang 23 50 0 11 Oct 2023
Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation Yangsibo Huang Samyak Gupta Mengzhou Xia Kai Li Danqi Chen AAML 27 267 0 10 Oct 2023
Teaching Language Models to Hallucinate Less with Synthetic Tasks Erik Jones Hamid Palangi Clarisse Simoes Varun Chandrasekaran Subhabrata Mukherjee Arindam Mitra Ahmed Hassan Awadallah Ece Kamar HILM 21 23 0 10 Oct 2023
Multilingual Jailbreak Challenges in Large Language Models Yue Deng Wenxuan Zhang Sinno Jialin Pan Lidong Bing AAML 34 113 0 10 Oct 2023
Understanding the Effects of RLHF on LLM Generalisation and Diversity Robert Kirk Ishita Mediratta Christoforos Nalmpantis Jelena Luketina Eric Hambro Edward Grefenstette Roberta Raileanu AI4CE ALM 97 121 0 10 Oct 2023
Constructive Large Language Models Alignment with Diverse Feedback Tianshu Yu Ting-En Lin Yuchuan Wu Min Yang Fei Huang Yongbin Li ALM 35 9 0 10 Oct 2023
SALMON: Self-Alignment with Instructable Reward Models Zhiqing Sun Yikang Shen Hongxin Zhang Qinhong Zhou Zhenfang Chen David D. Cox Yiming Yang Chuang Gan ALM SyDa 27 35 0 09 Oct 2023
A Closer Look into Automatic Evaluation Using Large Language Models Cheng-Han Chiang Hunghuei Lee ELM ALM LM&MA 25 13 0 09 Oct 2023
Generative Judge for Evaluating Alignment Junlong Li Shichao Sun Weizhe Yuan Run-Ze Fan Hai Zhao Pengfei Liu ELM ALM 35 76 0 09 Oct 2023