Title
ZeroSumEval: Scaling LLM Evaluation with Inter-Model Competition Haidar Khan H. A. Alyahya Yazeed Alnumay M Saiful Bari B. Yener ELM LRM 47 0 0 17 Apr 2025
From Stability to Inconsistency: A Study of Moral Preferences in LLMs Monika Jotautaite Mary Phuong Chatrik Singh Mangat Maria Angelica Martinez 24 0 0 08 Apr 2025
Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions Yubo Li Yidi Miao Xueying Ding Ramayya Krishnan R. Padman 37 0 0 28 Mar 2025
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering Sher Badshah Hassan Sajjad 60 1 0 11 Mar 2025
ZeroSumEval: An Extensible Framework For Scaling LLM Evaluation with Inter-Model Competition H. A. Alyahya Haidar Khan Yazeed Alnumay M Saiful Bari B. Yener LRM 60 1 0 10 Mar 2025
Topology-Aware Conformal Prediction for Stream Networks Jifan Zhang Fangxin Wang Philip S. Yu Kaize Ding Shixiang Zhu AI4TS 37 0 0 06 Mar 2025
Evaluating Polish linguistic and cultural competency in large language models Sławomir Dadas Małgorzata Grębowiec Michał Perełkiewicz Rafał Poświata ELM 39 1 0 02 Mar 2025
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging Md. Ashraful Islam Mohammed Eunus Ali Md. Rizwan Parvez LLMAG 64 2 0 08 Feb 2025
Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping Yue Yang S. Zhang Wenqi Shao Kaipeng Zhang Yi Bin Yu Wang Ping Luo 28 3 0 11 Oct 2024
ReflectDiffu:Reflect between Emotion-intent Contagion and Mimicry for Empathetic Response Generation via a RL-Diffusion Framework Jiahao Yuan Zixiang Di Zhiqing Cui Guisong Yang Usman Naseem 35 0 0 16 Sep 2024
CFBench: A Comprehensive Constraints-Following Benchmark for LLMs Leo Micklem Yan-Bin Shen Wenjing Luo Yan Zhang Hao Liang ... Weipeng Chen Bin Cui Blair Thornton Wentao Zhang Zenan Zhou ELM 76 16 0 02 Aug 2024
On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs Nitay Calderon Roi Reichart 29 10 0 27 Jul 2024
Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs Mohammed Saidul Islam Raian Rahman Ahmed Masry Md Tahmid Rahman Laskar Mir Tafseer Nayeem Enamul Hoque LRM ELM 36 4 0 01 Jun 2024
Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction Masamune Kobayashi Masato Mita Mamoru Komachi ELM 40 3 0 26 Mar 2024
RewardBench: Evaluating Reward Models for Language Modeling Nathan Lambert Valentina Pyatkin Jacob Morrison Lester James Validad Miranda Bill Yuchen Lin ... Sachin Kumar Tom Zick Yejin Choi Noah A. Smith Hanna Hajishirzi ALM 71 210 0 20 Mar 2024
Benchmarking Retrieval-Augmented Generation for Medicine Guangzhi Xiong Qiao Jin Zhiyong Lu Aidong Zhang RALM 75 143 0 20 Feb 2024
Task Contamination: Language Models May Not Be Few-Shot Anymore Changmao Li Jeffrey Flanigan 92 87 0 26 Dec 2023
The Falcon Series of Open Language Models Ebtesam Almazrouei Hamza Alobeidli Abdulaziz Alshamsi Alessandro Cappelli Ruxandra-Aimée Cojocaru ... Quentin Malartic Daniele Mazzotta Badreddine Noune B. Pannier Guilherme Penedo AI4TS ALM 113 389 0 28 Nov 2023
RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge Yi Liu Lianzhe Huang Shicheng Li Sishuo Chen Hao Zhou Fandong Meng Jie Zhou Xu Sun RALM 57 32 0 14 Nov 2023
Don't Make Your LLM an Evaluation Benchmark Cheater Kun Zhou Yutao Zhu Zhipeng Chen Wentong Chen Wayne Xin Zhao Xu Chen Yankai Lin Ji-Rong Wen Jiawei Han ELM 105 136 0 03 Nov 2023
Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs Xue-Yong Fu Md Tahmid Rahman Laskar Cheng-Hsiung Chen TN ShashiBhushan HILM ELM 65 17 0 01 Nov 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 206 559 0 03 May 2023
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation Jiawei Liu Chun Xia Yuyao Wang Lingming Zhang ELM ALM 178 780 0 02 May 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 203 883 0 27 Apr 2023
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 207 1,089 0 20 Sep 2022
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He D. Song Jacob Steinhardt ELM AIMat ALM 194 614 0 20 May 2021