Title
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games Davide Paglieri Bartłomiej Cupiał Samuel Coward Ulyana Piterbarg Maciej Wolczyk ... Lerrel Pinto Rob Fergus Jakob Foerster Jack Parker-Holder Tim Rocktaschel LLMAG LRM 101 10 0 20 Nov 2024
Benchmarking Complex Instruction-Following with Multiple Constraints Composition Bosi Wen Pei Ke Xiaotao Gu Lindong Wu Hao Huang ... Jiaxin Xu Yiming Liu Jie Tang Hongning Wang Minlie Huang CoGe 54 29 0 04 Jul 2024
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools Team GLM : Aohan Zeng Bin Xu Bowen Wang ... Zhaoyu Wang Zhen Yang Zhengxiao Du Zhenyu Hou Zihan Wang ALM 53 473 0 18 Jun 2024