Title
Leveraging GPT-4 for Food Effect Summarization to Enhance Product-Specific Guidance Development via Iterative Prompting Yiwen Shi Ping Ren Jing Wang Biao Han Taha ValizadehAslani Felix Agbavor Yi Zhang Meng Hu Liang Zhao Hualou Liang 25 16 0 28 Jun 2023
Is RLHF More Difficult than Standard RL? Yuanhao Wang Qinghua Liu Chi Jin OffRL 4 57 0 25 Jun 2023
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models Neel Jain Khalid Saifullah Yuxin Wen John Kirchenbauer Manli Shu Aniruddha Saha Micah Goldblum Jonas Geiping Tom Goldstein ALM ELM 22 22 0 23 Jun 2023
System-Level Natural Language Feedback Weizhe Yuan Kyunghyun Cho Jason Weston 28 5 0 23 Jun 2023
ToolQA: A Dataset for LLM Question Answering with External Tools Yuchen Zhuang Yue Yu Kuan-Chieh Jackson Wang Haotian Sun Chao Zhang ELM LLMAG 20 211 0 23 Jun 2023
Visual Adversarial Examples Jailbreak Aligned Large Language Models Xiangyu Qi Kaixuan Huang Ashwinee Panda Peter Henderson Mengdi Wang Prateek Mittal AAML 23 136 0 22 Jun 2023
Apolitical Intelligence? Auditing Delphi's responses on controversial political issues in the US J. H. Rystrøm 11 0 0 22 Jun 2023
LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models Shizhe Diao Rui Pan Hanze Dong Kashun Shum Jipeng Zhang Wei Xiong Tong Zhang ALM 20 63 0 21 Jun 2023
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents Hugo Laurenccon Lucile Saulnier Léo Tronchon Stas Bekman Amanpreet Singh ... Siddharth Karamcheti Alexander M. Rush Douwe Kiela Matthieu Cord Victor Sanh 25 227 0 21 Jun 2023
Opportunities and Risks of LLMs for Scalable Deliberation with Polis Christopher T. Small Ivan Vendrov Esin Durmus Hadjar Homaei Elizabeth Barry Julien Cornebise Ted Suzman Deep Ganguli Colin Megill 24 26 0 20 Jun 2023
Learning to Generate Better Than Your LLM Jonathan D. Chang Kianté Brantley Rajkumar Ramamurthy Dipendra Kumar Misra Wen Sun 19 39 0 20 Jun 2023
The Importance of Human-Labeled Data in the Era of LLMs Yang Liu ALM 10 8 0 18 Jun 2023
Aligning Synthetic Medical Images with Clinical Knowledge using Human Feedback Shenghuan Sun Gregory M. Goldgof A. Butte Ahmed Alaa MedIm 19 12 0 16 Jun 2023
Inverse Scaling: When Bigger Isn't Better I. R. McKenzie Alexander Lyzhov Michael Pieler Alicia Parrish Aaron Mueller ... Yuhui Zhang Zhengping Zhou Najoung Kim Sam Bowman Ethan Perez 22 126 0 15 Jun 2023
Explore, Establish, Exploit: Red Teaming Language Models from Scratch Stephen Casper Jason Lin Joe Kwon Gatlen Culp Dylan Hadfield-Menell AAML 8 83 0 15 Jun 2023
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models Peng-Tao Xu Wenqi Shao Kaipeng Zhang Peng Gao Shuo Liu Meng Lei Fanqing Meng Siyuan Huang Yu Qiao Ping Luo ELM MLLM 23 159 0 15 Jun 2023
MiniLLM: Knowledge Distillation of Large Language Models Yuxian Gu Li Dong Furu Wei Minlie Huang ALM 31 76 0 14 Jun 2023
AutoML in the Age of Large Language Models: Current Challenges, Future Opportunities and Risks Alexander Tornede Difan Deng Theresa Eimer Joseph Giovanelli Aditya Mohan ... Sarah Segel Daphne Theodorakopoulos Tanja Tornede Henning Wachsmuth Marius Lindauer 28 22 0 13 Jun 2023
Can ChatGPT Enable ITS? The Case of Mixed Traffic Control via Reinforcement Learning Michael Villarreal Bibek Poudel Weizi Li 22 23 0 13 Jun 2023
Boosting Language Models Reasoning with Chain-of-Knowledge Prompting J. Wang Qiushi Sun Xiang Li Ming Gao ReLM LRM 19 64 0 10 Jun 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric P. Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 11 3,769 0 09 Jun 2023
When to Show a Suggestion? Integrating Human Feedback in AI-Assisted Programming Hussein Mozannar Gagan Bansal Adam Fourney Eric Horvitz 31 26 0 08 Jun 2023
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models Yew Ken Chia Pengfei Hong Lidong Bing Soujanya Poria ELM 25 61 0 07 Jun 2023
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources Yizhong Wang Hamish Ivison Pradeep Dasigi Jack Hessel Tushar Khot ... David Wadden Kelsey MacMillan Noah A. Smith Iz Beltagy Hannaneh Hajishirzi ALM ELM 11 367 0 07 Jun 2023
Improving Open Language Models by Learning from Organic Interactions Jing Xu Da Ju Joshua Lane M. Komeili Eric Michael Smith ... Rashel Moritz Sainbayar Sukhbaatar Y-Lan Boureau Jason Weston Kurt Shuster 17 8 0 07 Jun 2023
Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards Alexandre Ramé Guillaume Couairon Mustafa Shukor Corentin Dancette Jean-Baptiste Gaya Laure Soulier Matthieu Cord MoMe 35 135 0 07 Jun 2023
Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models Fobo Shi Peijun Qing D. Yang Nan Wang Youbo Lei H. Lu Xiaodong Lin Duantengchuan Li VLM ReLM LLMAG LRM 29 11 0 06 Jun 2023
PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation Runze Liu Yali Du Fengshuo Bai Jiafei Lyu Xiu Li 27 6 0 06 Jun 2023
Transition Role of Entangled Data in Quantum Machine Learning Xinbiao Wang Yuxuan Du Zhuozhuo Tu Yong Luo Xiao Yuan Dacheng Tao 36 8 0 06 Jun 2023
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model Kenneth Li Oam Patel Fernanda Viégas Hanspeter Pfister Martin Wattenberg KELM HILM 17 470 0 06 Jun 2023
Uncertainty in Natural Language Processing: Sources, Quantification, and Applications Mengting Hu Zhen Zhang Shiwan Zhao Minlie Huang Bingzhe Wu BDL 15 34 0 05 Jun 2023
Fine-Tuning Language Models with Advantage-Induced Policy Alignment Banghua Zhu Hiteshi Sharma Felipe Vieira Frujeri Shi Dong Chenguang Zhu Michael I. Jordan Jiantao Jiao OSLM 23 39 0 04 Jun 2023
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training Zeqiu Wu Yushi Hu Weijia Shi Nouha Dziri Alane Suhr Prithviraj Ammanabrolu Noah A. Smith Mari Ostendorf Hannaneh Hajishirzi ALM 25 303 0 02 Jun 2023
The ethical ambiguity of AI data enrichment: Measuring gaps in research ethics norms and practices Will Hawkins Brent Mittelstadt 33 10 0 01 Jun 2023
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering Wenjin Wang Yunhao Li Yixin Ou Yin Zhang VLM 16 24 0 01 Jun 2023
Preference-grounded Token-level Guidance for Language Model Fine-tuning Shentao Yang Shujian Zhang Congying Xia Yihao Feng Caiming Xiong Mi Zhou 21 23 0 01 Jun 2023
Thought Cloning: Learning to Think while Acting by Imitating Human Thinking Shengran Hu Jeff Clune LM&Ro OffRL LRM AI4CE 27 27 0 01 Jun 2023
Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback Paul Roit Johan Ferret Lior Shani Roee Aharoni Geoffrey Cideron ... Olivier Bachem G. Elidan Avinatan Hassidim Olivier Pietquin Idan Szpektor HILM 15 75 0 31 May 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 58 3,293 0 29 May 2023
Semantic Role Labeling Guided Out-of-distribution Detection Jinan Zou Maihao Guo Yu Tian Yuhao Lin Hai Cao Lingqiao Liu Ehsan Abbasnejad Javen Qinfeng Shi OODD 23 1 0 29 May 2023
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models Shuai Zhao Xiaohan Wang Linchao Zhu Yezhou Yang VLM 14 21 0 29 May 2023
Taming AI Bots: Controllability of Neural States in Large Language Models Stefano Soatto Paulo Tabuada Pratik Chaudhari Tianwei Liu LLMAG LM&Ro 13 13 0 29 May 2023
KoSBi: A Dataset for Mitigating Social Bias Risks Towards Safer Large Language Model Application Hwaran Lee Seokhee Hong Joonsuk Park Takyoung Kim Gunhee Kim Jung-Woo Ha 30 28 0 28 May 2023
SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable Responses Created Through Human-Machine Collaboration Hwaran Lee Seokhee Hong Joonsuk Park Takyoung Kim M. Cha ... Eun-Ju Lee Yong Lim Alice H. Oh San-hee Park Jung-Woo Ha 34 15 0 28 May 2023
Reward Collapse in Aligning Large Language Models Ziang Song Tianle Cai Jason D. Lee Weijie J. Su ALM 21 22 0 28 May 2023
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance Yao Fu Litu Ou Mingyu Chen Yuhao Wan Hao-Chun Peng Tushar Khot LLMAG ELM LRM ReLM 33 109 0 26 May 2023
CONA: A novel CONtext-Aware instruction paradigm for communication using large language model Nan Zhou Xinghui Tao Xi Chen 10 0 0 26 May 2023
The Dangers of trusting Stochastic Parrots: Faithfulness and Trust in Open-domain Conversational Question Answering Sabrina Chiesurin Dimitris Dimakopoulos Marco Antonio Sobrevilla Cabezudo Arash Eshghi Ioannis V. Papaioannou Verena Rieser Ioannis Konstas HILM 27 25 0 25 May 2023
DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models Ying Fan Olivia Watkins Yuqing Du Hao Liu Moonkyung Ryu Craig Boutilier Pieter Abbeel Mohammad Ghavamzadeh Kangwook Lee Kimin Lee 36 134 0 25 May 2023
RewriteLM: An Instruction-Tuned Large Language Model for Text Rewriting Lei Shu Liangchen Luo Jayakumar Hoskere Yun Zhu Canoee Liu Simon Tong Jindong Chen Lei Meng KELM LRM 25 43 0 25 May 2023