Title
Calibrating LLM-Based Evaluator Yuxuan Liu Tianchi Yang Shaohan Huang Zihan Zhang Haizhen Huang Furu Wei Weiwei Deng Feng Sun Qi Zhang 49 31 0 23 Sep 2023
AI Risk Profiles: A Standards Proposal for Pre-Deployment AI Risk Disclosures E. Sherman Ian W. Eisenberg 35 5 0 22 Sep 2023
ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs Justin Chih-Yao Chen Swarnadeep Saha Joey Tianyi Zhou LLMAG LRM 40 120 0 22 Sep 2023
HANS, are you clever? Clever Hans Effect Analysis of Neural Systems Leonardo Ranaldi Fabio Massimo Zanzotto 34 2 0 21 Sep 2023
LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset Lianmin Zheng Wei-Lin Chiang Ying Sheng Tianle Li Siyuan Zhuang ... Zi Lin Eric P. Xing Joseph E. Gonzalez Ion Stoica Haotong Zhang 27 178 0 21 Sep 2023
"It's a Fair Game", or Is It? Examining How Users Navigate Disclosure Risks and Benefits When Using LLM-Based Conversational Agents Zhiping Zhang Michelle Jia Hao-Ping Lee Bingsheng Yao Sauvik Das Ada Lerner Dakuo Wang Tianshi Li SILM ELM 24 70 0 20 Sep 2023
DreamLLM: Synergistic Multimodal Comprehension and Creation Runpei Dong Chunrui Han Yuang Peng Zekun Qi Zheng Ge ... Hao-Ran Wei Xiangwen Kong Xiangyu Zhang Kaisheng Ma Li Yi MLLM 39 173 0 20 Sep 2023
Studying Lobby Influence in the European Parliament Aswin Suresh Lazar Radojević Francesco Salvi Antoine Magron Victor Kristof Matthias Grossglauser 8 0 0 20 Sep 2023
DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services Shengbin Yue Wei Chen Siyuan Wang Bingxuan Li Chenchen Shen ... Yuxuan Zhou Yao Xiao Song Yun Xuanjing Huang Zhongyu Wei AILaw ELM 37 88 0 20 Sep 2023
OpenChat: Advancing Open-source Language Models with Mixed-Quality Data Guan-Bo Wang Sijie Cheng Xianyuan Zhan Xiangang Li Sen Song Yang Liu ALM 27 228 0 20 Sep 2023
Are Large Language Models Really Robust to Word-Level Perturbations? Haoyu Wang Guozheng Ma Cong Yu Ning Gui Linrui Zhang ... Sen Zhang Li Shen Xueqian Wang Peilin Zhao Dacheng Tao KELM 26 22 0 20 Sep 2023
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch Juntao Li Zecheng Tang Yuyang Ding Pinzheng Wang Pei Guo ... Wenliang Chen Guohong Fu Qiaoming Zhu Guodong Zhou M. Zhang 45 5 0 19 Sep 2023
MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback Xingyao Wang Zihan Wang Jiateng Liu Yangyi Chen Lifan Yuan Hao Peng Heng Ji LRM 133 141 0 19 Sep 2023
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 117 301 0 19 Sep 2023
LLM4Jobs: Unsupervised occupation extraction and standardization leveraging Large Language Models Nan Li Bo Kang T. D. Bie 13 1 0 18 Sep 2023
Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles Kung-Hsiang Huang Philippe Laban Alexander R. Fabbri Prafulla Kumar Choubey Shafiq R. Joty Caiming Xiong Chien-Sheng Wu 16 26 0 17 Sep 2023
OWL: A Large Language Model for IT Operations Hongcheng Guo Jian Yang Jiaheng Liu Liqun Yang Linzheng Chai ... Tieqiao Zheng Liangfan Zheng Bo-Wen Zhang Ke Xu Zhoujun Li VLM 66 41 0 17 Sep 2023
Can Large Language Models Understand Real-World Complex Instructions? Qi He Jie Zeng Wenhao Huang Lina Chen Jin Xiao ... Shisong Chen Yikai Zhang Zhouhong Gu Jiaqing Liang Yanghua Xiao ALM LRM ELM 98 52 0 17 Sep 2023
Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca Pinzhen Chen Shaoxiong Ji Nikolay Bogoychev Andrey Kutuzov Barry Haddow Kenneth Heafield 28 45 0 16 Sep 2023
PDFTriage: Question Answering over Long, Structured Documents Jon Saad-Falcon Joe Barrow Alexa F. Siu A. Nenkova David Seunghyun Yoon Ryan A. Rossi Franck Dernoncourt RALM 24 19 0 16 Sep 2023
Learning by Self-Explaining Wolfgang Stammer Felix Friedrich David Steinmann Manuel Brack Hikaru Shindo Kristian Kersting 26 7 0 15 Sep 2023
Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions Federico Bianchi Mirac Suzgun Giuseppe Attanasio Paul Röttger Dan Jurafsky Tatsunori Hashimoto James Zou ALM LM&MA LRM 34 178 0 14 Sep 2023
Zero-shot Audio Topic Reranking using Large Language Models Mengjie Qian Rao Ma Adian Liusie Erfan Loweimi Kate Knill Mark J. F. Gales 29 1 0 14 Sep 2023
Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? Rishav Hada Varun Gumma Adrian de Wynter Harshita Diddee Mohamed Ahmed Monojit Choudhury Kalika Bali Sunayana Sitaram ALM LM&MA ELM 35 61 0 14 Sep 2023
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization Dave Van Veen Cara Van Uden Louis Blankemeier Jean-Benoit Delbrouck Asad Aali ... C. Langlotz Jason Hom S. Gatidis John M. Pauly Akshay S. Chaudhari ELM AI4MH LM&MA 45 278 0 14 Sep 2023
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics Haoqin Tu Bingchen Zhao Chen Wei Cihang Xie MLLM 39 14 0 13 Sep 2023
Cognitive Mirage: A Review of Hallucinations in Large Language Models Hongbin Ye Tong Liu Aijia Zhang Wei Hua Weiqiang Jia HILM 48 76 0 13 Sep 2023
BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation Suite for Large Language Models Wei Qi Leong Jian Gang Ngui Yosephine Susanto Hamsawardhini Rengarajan Kengatharaiyer Sarveswaran William-Chandra Tjhi 26 9 0 12 Sep 2023
MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning Xiang Yue Xingwei Qu Ge Zhang Yao Fu Wenhao Huang Huan Sun Yu-Chuan Su Wenhu Chen AIMat LRM 62 361 0 11 Sep 2023
Textbooks Are All You Need II: phi-1.5 technical report Yuan-Fang Li Sébastien Bubeck Ronen Eldan Allison Del Giorno Suriya Gunasekar Yin Tat Lee ALM LRM 33 442 0 11 Sep 2023
$Decolonial AI Alignment: Openness, Viśe\d{s}a-Dharma, and Including Excluded Knowledges$ Decolonial AI Alignment: Openness, Viśe\d{s}a-Dharma, and Including Excluded Knowledges Kush R. Varshney 44 2 0 10 Sep 2023
Leveraging Large Language Models for Exploiting ASR Uncertainty Pranay Dighe Yi Su Shangshang Zheng Yunshu Liu Vineet Garg Xiaochuan Niu Ahmed H. Tewfik 13 12 0 09 Sep 2023
SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning Bin Wang Zhengyuan Liu Xin Huang Fangkai Jiao Yang Ding A. Aw Nancy F. Chen LRM 29 63 0 09 Sep 2023
Beyond Static Datasets: A Deep Interaction Approach to LLM Evaluation Jiatong Li Rui Li Qi Liu 31 15 0 08 Sep 2023
NESTLE: a No-Code Tool for Statistical Analysis of Legal Corpus Kyoungyeon Cho Seungkum Han Young Rok Choi Wonseok Hwang ELM AILaw 18 0 0 08 Sep 2023
FIND: A Function Description Benchmark for Evaluating Interpretability Methods Sarah Schwettmann Tamar Rott Shaham Joanna Materzyñska Neil Chowdhury Shuang Li Jacob Andreas David Bau Antonio Torralba 18 19 0 07 Sep 2023
Large Language Models Are Not Robust Multiple Choice Selectors Chujie Zheng Hao Zhou Fandong Meng Jie Zhou Minlie Huang 25 217 0 07 Sep 2023
FLM-101B: An Open LLM and How to Train It with $100K Budget$ Xiang Li Yiqun Yao Xin Jiang Xuezhi Fang Xuying Meng ... LI DU Bowen Qin Zheng-Wei Zhang Aixin Sun Yequan Wang 60 21 0 07 Sep 2023
Evaluating ChatGPT as a Recommender System: A Rigorous Approach Dario Di Palma Giovanni Maria Biancofiore Vito Walter Anelli Fedelucio Narducci Tommaso Di Noia E. Sciascio ALM 46 27 0 07 Sep 2023
XGen-7B Technical Report Erik Nijkamp Tian Xie Hiroaki Hayashi Bo Pang Congying Xia ... Chien-Sheng Wu Silvio Savarese Yingbo Zhou Shafiq R. Joty Caiming Xiong ALM 31 13 0 07 Sep 2023
Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation A. Sridhar Yinyi Guo Erik M. Visser Rehana Mahfuz 32 5 0 06 Sep 2023
Zero-Resource Hallucination Prevention for Large Language Models Junyu Luo Cao Xiao Fenglong Ma HILM 29 16 0 06 Sep 2023
CIEM: Contrastive Instruction Evaluation Method for Better Instruction Tuning Hongyu Hu Jiyuan Zhang Minyi Zhao Zhenbang Sun MLLM 25 41 0 05 Sep 2023
AGIBench: A Multi-granularity, Multimodal, Human-referenced, Auto-scoring Benchmark for Large Language Models Fei Tang Wanling Gao Luzhou Peng Jianfeng Zhan ELM 14 2 0 05 Sep 2023
Making Large Language Models Better Reasoners with Alignment Peiyi Wang Lei Li Liang Chen Feifan Song Binghuai Lin Yunbo Cao Tianyu Liu Zhifang Sui ALM LRM 39 64 0 05 Sep 2023
CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models Lingyue Fu Huacan Chai Shuang Luo Kounianhua Du Weiming Zhang ... Jingkuan Wang Siyuan Qi Kangning Zhang Weinan Zhang Yong Yu ELM 18 9 0 05 Sep 2023
Open Sesame! Universal Black Box Jailbreaking of Large Language Models Raz Lapid Ron Langberg Moshe Sipper AAML 21 103 0 04 Sep 2023
ModelScope-Agent: Building Your Customizable Agent System with Open-source Large Language Models Chenliang Li Hehong Chen Mingshi Yan Weizhou Shen Haiyang Xu ... Chen Cheng Hongzhu Shi Ji Zhang Fei Huang Jingren Zhou LLMAG 27 20 0 02 Sep 2023
TouchStone: Evaluating Vision-Language Models by Language Models Shuai Bai Shusheng Yang Jinze Bai Peng Wang Xing Zhang Junyang Lin Xinggang Wang Chang Zhou Jingren Zhou MLLM 37 44 0 31 Aug 2023
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations Xu Huang Jianxun Lian Yuxuan Lei Jing Yao Defu Lian Xing Xie LLMAG 26 87 0 31 Aug 2023