Evaluating Language Models

ELM

The community introduces new metrics, methodologies, or frameworks for evaluating language models.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

Title

All papers

50 / 4,559 papers shown

Title
LLM-as-a-Judge is Bad, Based on AI Attempting the Exam Qualifying for the Member of the Polish National Board of Appeal Michał Karp Anna Kubaszewska Magdalena Król Robert Król Aleksander Smywiński-Pohl Mateusz Szymański Witold Wydmański ELM 16 0 0 06 Nov 2025
From Model to Breach: Towards Actionable LLM-Generated Vulnerabilities Reporting Cyril Vallez Alexander Sternfeld Andrei Kucharavy Ljiljana Dolamic ELM 20 0 0 06 Nov 2025
GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents Jian Mu Chaoyun Zhang Chiming Ni Lu Wang Bo Qiao ... Yu Kang Minghua Ma Qingwei Lin Saravan Rajmohan Dongmei Zhang ELM 12 0 0 06 Nov 2025
Generate, Evaluate, Iterate: Synthetic Data for Human-in-the-Loop Refinement of LLM Judges Hyo Jin Do Zahra Ashktorab Jasmina Gajcin Erik Miehling Martín Santillán Cooper Qian Pan Elizabeth M. Daly Werner Geyer SyDa ELM 8 0 0 06 Nov 2025
Secure Code Generation at Scale with Reflexion Arup Datta Ahmed Aljohani Hyunsook Do ELM 8 0 0 05 Nov 2025
Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study Haoyu Guo Maria Tikhanovskaya Paul Raccuglia Alexey Vlaskin Chris Co ... T. Senthil J. M. Tranquada Michael P. Brenner Subhashini Venugopalan Eun-Ah Kim ELM 8 0 0 05 Nov 2025
Large language models require a new form of oversight: capability-based monitoring Katherine C. Kellogg Bingyang Ye Yifan Hu G. Savova Byron Wallace Danielle S. Bitterman ALM ELM AI4MH 36 0 0 05 Nov 2025
AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda Mohd Nauman Sravan Gvm Vijay Devane Shyam Pawar Viraj Thakur Kundeshwar Pundalik Piyush Sawarkar Rohit Saluja Maunendra Sankar Desarkar Ganesh Ramakrishnan LM&MA ELM 43 0 0 04 Nov 2025
FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels Jiedong Jiang Wanyi He Yuefeng Wang Guoxiong Gao Yongle Hu ... Nailing Guan Peihao Wu Chunbo Dai Liang Xiao Bin Dong AIMat ELM LRM 94 0 0 04 Nov 2025
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo ELM 4 0 0 04 Nov 2025
The ORCA Benchmark: Evaluating Real-World Calculation Accuracy in Large Language Models Claudia Herambourg Dawid Siuda Julia Kopczyńska Joao R. L. Santos Wojciech Sas Joanna Śmietańska-Nowak ELM ALM LRM 125 0 0 04 Nov 2025
NABench: Large-Scale Benchmarks of Nucleotide Foundation Models for Fitness Prediction Zhongmin Li Runze Ma Jiahao Tan Chengzi Tan Shuangjia Zheng ELM 4 0 0 04 Nov 2025
LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context Yudong Li Zhongliang Yang Kejiang Chen Wenxuan Wang TianXin Zhang ... Yufei Sun Liyan Wu Wenya Wen Xingchi Gu Peiru Yang ELM 72 0 0 04 Nov 2025
Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities Amanda Bertsch Adithya Pratapa Teruko Mitamura Graham Neubig Matthew R. Gormley LLMAG ReLM ELM LRM 20 0 0 04 Nov 2025
No-Human in the Loop: Agentic Evaluation at Scale for Recommendation Tao Zhang Kehui Yao Luyi Ma Jiao Chen Reza Yousefi Maragheh Kai Zhao Jianpeng Xu Evren Körpeoglu Sushant Kumar Kannan Achan LLMAG ALM ELM 46 0 0 04 Nov 2025
AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence Md Tanvirul Alam Dipkamal Bhusal Salman Ahmad Nidhi Rastogi Peter Worth ELM 20 0 0 03 Nov 2025
The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation İbrahim Ethem Deveci Duygu Ataman ReLM ALM ELM LRM 43 0 0 03 Nov 2025
Analyzing the Power of Chain of Thought through Memorization Capabilities Lijia Yu Xiao-Shan Gao Lijun Zhang LRM ELM 52 0 0 03 Nov 2025
EngChain: A Symbolic Benchmark for Verifiable Multi-Step Reasoning in Engineering Ayesha Gull Muhammad Usman Safder Rania Elbadry Preslav Nakov Zhuohan Xie ELM LRM 52 0 0 03 Nov 2025
Prompt Injection as an Emerging Threat: Evaluating the Resilience of Large Language Models Daniyal Ganiuly Assel Smaiyl SILM AAML ELM 37 0 0 03 Nov 2025
Building a Silver-Standard Dataset from NICE Guidelines for Clinical LLMs Qing Ding Eric Hua Qing Zhang Felix Jozsa Julia Ive LM&MA AI4MH ELM 96 0 0 02 Nov 2025
Assessing LLM Reasoning Steps via Principal Knowledge Grounding Hyeon Hwang Yewon Cho Chanwoong Yoon Yein Park Minju Song Kyungjae Lee Gangwoo Kim Jaewoo Kang ELM LRM 34 0 0 02 Nov 2025
Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities Manan Roy Choudhury Adithya Chandramouli Mannan Anand Vivek Gupta AILaw ELM 120 0 0 01 Nov 2025
MedRECT: A Medical Reasoning Benchmark for Error Correction in Clinical Texts Naoto Iwase Hiroki Okuyama Junichiro Iwasawa LRM ELM 20 0 0 01 Nov 2025
MedCalc-Eval and MedCalc-Env: Advancing Medical Calculation Capabilities of Large Language Models Kangkun Mao Jinru Ding Jiayuan Chen Mouxiao Bian Ruiyao Chen Xinwei Peng Sijie Ren Linyang Li Jie Xu LM&MA ELM LRM 76 0 0 31 Oct 2025
Exploring the Utilities of the Rationales from Large Language Models to Enhance Automated Essay Scoring Hong Jiao Hanna Choi Haowei Hua ELM 20 0 0 31 Oct 2025
CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments Forough Mehralian Ryan Shar James Rae Alireza Hashemi ALM ELM 128 0 0 31 Oct 2025
DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models Malik H. Altakrori Nizar Habash Abdelhakim Freihat Younes Samih Kirill Chirkunov Muhammed AbuOdeh Radu Florian Teresa Lynn Preslav Nakov Alham Fikri Aji ELM 24 0 0 31 Oct 2025
EdgeRunner 20B: Military Task Parity with GPT-5 while Running on the Edge Jack FitzGerald Aristotelis Lazaridis Dylan Bates Aman Sharma Jonnathan Castillo ... Dave Anderson Jonathan Beck Jamie Cuticello Colton Malkerson Tyler Saltsman ELM 40 0 0 30 Oct 2025
CATArena: Evaluation of LLM Agents through Iterative Tournament Competitions Lingyue Fu Xin Ding Yaoming Zhu Shao Zhang Lin Qiu ... W. Zhang Xuezhi Cao Xunliang Cai Jiaxin Ding Yong Yu LLMAG ELM 29 0 0 30 Oct 2025
Cognition Envelopes for Bounded AI Reasoning in Autonomous UAS Operations Pedro Antonio Alarcon Granadeno Arturo Miguel Bernal Russell Sofia Nelson Demetrius Hernandez Maureen Petterson Michael Murphy Walter J. Scheirer Jane Cleland-Huang ELM LRM AI4CE 28 0 0 30 Oct 2025
SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word Level Hitomi Jin Ling Tee Chaoren Wang Zijie Zhang Zhizheng Wu AuLLM ELM 107 0 0 30 Oct 2025
Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation Musfiqur Rahman SayedHassan Khatoonabadi Emad Shihab ELM 108 0 0 30 Oct 2025
AMO-Bench: Large Language Models Still Struggle in High School Math Competitions Shengnan An Xunliang Cai Xuezhi Cao Xiaoyu Li Yehao Lin ... Xinxuan Lv Dan Ma X. Wang Z. Wang S. K. Zhou LRM ELM 32 0 0 30 Oct 2025
QuantumBench: A Benchmark for Quantum Problem Solving Shunya Minami Tatsuya Ishigaki Ikko Hamamura Taku Mikuriya Youmi Ma Naoaki Okazaki Hiroya Takamura Yohichi Suzuki Tadashi Kadowaki ELM 24 0 0 30 Oct 2025
ReaKase-8B: Legal Case Retrieval via Knowledge and Reasoning Representations with LLMs Yanran Tang Ruihong Qiu Xue Li Zi Huang AILaw ELM 56 0 0 30 Oct 2025
Gistify! Codebase-Level Understanding via Runtime Execution Hyunji Lee Minseon Kim Chinmay Singh Matheus Pereira Atharv Sonwane ... Zhengyan Shi Alessandro Sordoni Marc-Alexandre Côté Xingdi Yuan Lucas Caccia ELM 30 0 0 30 Oct 2025
QCoder Benchmark: Bridging Language Generation and Quantum Hardware through Simulator-Based Feedback Taku Mikuriya Tatsuya Ishigaki Masayuki Kawarada Shunya Minami Tadashi Kadowaki ... Shunya Takata Takumi Kato Tamotsu Basseda Reo Yamada Hiroya Takamura ALM ELM 44 1 0 30 Oct 2025
Cross-Platform Evaluation of Reasoning Capabilities in Foundation Models J. Curtò I. D. Zarzà Pablo García Jordi Cabot ELM LRM 54 0 0 30 Oct 2025
Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis Dong Huang Mingzhe Du J. Zhang Zheng Lin Meng Luo Qianru Zhang See-Kiong Ng ELM 24 0 0 30 Oct 2025
OmniEduBench: A Comprehensive Chinese Benchmark for Evaluating Large Language Models in Education Min Zhang Hao Chen Hao Chen Wenqi Zhang Didi Zhu Xin Lin Bo Jiang Aimin Zhou Fei Wu Kun Kuang ELM 28 0 0 30 Oct 2025
Not ready for the bench: LLM legal interpretation is unstable and out of step with human judgments Abhishek Purushothama Junghyun Min Brandon Waldon Nathan Schneider ELM 36 0 0 29 Oct 2025
Humains-Junior: A 3.8B Language Model Achieving GPT-4o-Level Factual Accuracy by Directed Exoskeleton Reasoning Nissan Yaron Dan Bystritsky Ben-Etzion Yaron ALM ELM LRM 44 0 0 29 Oct 2025
SciTrust 2.0: A Comprehensive Framework for Evaluating Trustworthiness of Large Language Models in Scientific Applications Emily Herron Junqi Yin Feiyi Wang HILM ELM 127 0 0 29 Oct 2025
BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains Vijay Devane Mohd Nauman Bhargav Patel Aniket Mahendra Wakchoure Yogeshkumar Sant ... Ajay Nagpal Piyush Sawarkar Kundeshwar Pundalik Rohit Saluja Ganesh Ramakrishnan ELM 52 0 0 29 Oct 2025
Testing Cross-Lingual Text Comprehension In LLMs Using Next Sentence Prediction Ritesh Sunil Chavan Jack Mostow ELM LRM 48 0 0 29 Oct 2025
Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content Abdullah Mushtaq Rafay Naeem Ezieddin Elmahjub Ibrahim Ghaznavi Shawqi Al-Maliki M. Abdallah Ala I. Al-Fuqaha Junaid Qadir ELM 60 0 0 28 Oct 2025
Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents María Sanz-Gómez Víctor Mayoral-Vilches Francesco Balassone Luis Javier Navarrete-Lozano Cristóbal R. J. Veas Chavez Maite del Mundo de Torres ELM 24 0 0 28 Oct 2025
S3C2 Summit 2025-03: Industry Secure Supply Chain Summit Elizabeth Lin Jonah Ghebremichael William Enck Yasemin Acar Michel Cukier A. Kapravelos Christian Kastner Laurie A. Williams SILM ELM 89 0 0 28 Oct 2025
Human-Level Reasoning: A Comparative Study of Large Language Models on Logical and Abstract Reasoning Benjamin Grando Moreira ReLM ELM LRM 32 0 0 28 Oct 2025

Loading #Papers per Month with "ELM"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available