Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
SMARTFinRAG: Interactive Modularized Financial RAG Benchmark Yiwei Zha 52 0 0 25 Apr 2025
Evaluating Large Language Models for Public Health Classification and Extraction Tasks Joshua Harris Timothy Laurence Leo Loman Fan Grayson Toby Nonnenmacher ... Hamish Mohammed Thomas Finnie Luke Hounsome Michael Borowitz Steven Riley LM&MA AI4MH 79 5 0 20 Feb 2025
FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering Siqiao Xue Tingting Chen Fan Zhou Qingyang Dai Zhixuan Chu Hongyuan Mei 31 4 0 06 Oct 2024
Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models Xin Sky Li Weize Chen Qizhi Chu Haopeng Li Zhaojun Sun ... Yiwei Wei Zhiyuan Liu Chuan Shi Maosong Sun Cheng Yang 32 5 0 29 Sep 2024
Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams Zheheng Luo Chenhan Yuan Qianqian Xie Sophia Ananiadou ELM AI4MH LM&MA 36 0 0 17 Jun 2024
JaFIn: Japanese Financial Instruction Dataset Kota Tanabe Masahiro Suzuki Hiroki Sakaji Itsuki Noda 36 1 0 14 Apr 2024
The Falcon Series of Open Language Models Ebtesam Almazrouei Hamza Alobeidli Abdulaziz Alshamsi Alessandro Cappelli Ruxandra-Aimée Cojocaru ... Quentin Malartic Daniele Mazzotta Badreddine Noune B. Pannier Guilherme Penedo AI4TS ALM 113 389 0 28 Nov 2023
FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design Yangyang Yu Haohang Li Zhi Chen Yuechen Jiang Yang Li Denghui Zhang Rong Liu Jordan W. Suchow K. Khashanah 42 56 0 23 Nov 2023
DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning Wei Chen Qiushi Wang Zefei Long Xianyin Zhang Zhongtian Lu ... Siyuan Wang Jiarong Xu Xiang Bai Xuanjing Huang Zhongyu Wei 68 43 0 23 Oct 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 203 2,232 0 22 Mar 2023
ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts Rajdeep Mukherjee Abhinav Bohra Akash Banerjee Soumya Sharma Manjunath Hegde ... Shivani Shrivastava Koustuv Dasgupta Niloy Ganguly Saptarshi Ghosh Pawan Goyal RALM 35 44 0 22 Oct 2022