Title
Improve LLM-as-a-Judge Ability as a General Ability Jiachen Yu Shaoning Sun Xiaohui Hu Jiaxu Yan Kaidong Yu Xuelong Li ELM 299 22 0 17 Feb 2025
TUMLU: A Unified and Native Language Understanding Benchmark for Turkic LanguagesAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Jafar Isbarov Arofat Akhundjanova Mammad Hajili Kavsar Huseynova Dmitry Gaynullin ... Amina Alisheva Aizirek Turdubaeva Abdullatif Köksal Samir Rustamov Duygu Ataman ELM 223 5 0 16 Feb 2025
Superpose Task-specific Features for Model Merging Haiquan Qiu You Wu Dong Li Jianmin Guo Quanming Yao MoMe 459 1 0 15 Feb 2025
Large Language Diffusion Models Shen Nie Fengqi Zhu Zebin You Xiaolu Zhang Jingyang Ou Jun Hu Jun Zhou Yankai Lin Ji-Rong Wen Chongxuan Li 798 293 0 14 Feb 2025
FRAME: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining StrategyAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Xuemiao Zhang Feiyu Duan Liangyu Xu Yongwei Zhou Sirui Wang Rongxiang Weng Jiadong Wang Xunliang Cai 512 0 0 08 Feb 2025
Improving Natural Language Understanding for LLMs via Large-Scale Instruction SynthesisAAAI Conference on Artificial Intelligence (AAAI), 2025 Lin Yuan Jun Xu Honghao Gui Mengshu Sun Qing Cui Lei Liang Jun Zhou AI4CE 774 2 0 06 Feb 2025
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning Yibo Yan Shen Wang Jiahao Huo Jingheng Ye Zhendong Chu Xuming Hu Philip S. Yu Daniel Schwalbe-Koda B. Selman Qingsong Wen LRM 482 26 0 05 Feb 2025
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models Xin Xu Qiyun Xu Tong Xiao Tianhao Chen Yuchen Yan Jiaxin Zhang Boyao Wang Can Yang Yang Wang LRM AI4CE ELM 755 20 0 01 Feb 2025
Baichuan-Omni-1.5 Technical Report Yadong Li Qingbin Liu Tao Zhang Tao Zhang Tian Jin ... Jianhua Xu Haoze Sun Mingan Lin Guosheng Dong Xin Wu AuLLM 308 59 0 28 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 1.2K 5,239 0 22 Jan 2025
Malware Classification using a Hybrid Hidden Markov Model-Convolutional Neural Network Ritik Mehta Olha Jurecková Mark Stamp 285 151 0 25 Dec 2024
Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and InferenceAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Siyuan Wang Dianyi Wang Chengxing Zhou Zejun Li Zhihao Fan Xuanjing Huang Zhongyu Wei VLM 979 2 0 17 Dec 2024
KULTURE Bench: A Benchmark for Assessing Language Model in Korean Cultural ContextPacific Asia Conference on Language, Information and Computation (PACLIC), 2024 Xiaonan Wang Jinyoung Yeo Joon-Ho Lim Hansaem Kim ELM 191 4 0 10 Dec 2024
Predictable Emergent Abilities of LLMs: Proxy Tasks Are All You Need Bo Zhang Yan Yan Boxiang Yang Yifei Xue Guang Liu LRM 247 2 0 10 Dec 2024
INCLUDE: Evaluating Multilingual Language Understanding with Regional KnowledgeInternational Conference on Learning Representations (ICLR), 2024 Angelika Romanou Negar Foroutan Anna Sotnikova Zeming Chen Sree Harsha Nelaturu ... Mike Zhang Imanol Schlag Marzieh Fadaee Sara Hooker Antoine Bosselut ELM 340 28 0 29 Nov 2024
Reassessing Layer Pruning in LLMs: New Insights and Methods Yao Lu Hao Cheng Yujie Fang Zeyu Wang Jiaheng Wei Dongwei Xu Qi Xuan Xiaoniu Yang Zhaowei Zhu 311 14 0 23 Nov 2024
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis Yingjie Zhou Zicheng Zhang Jiezhang Cao Jun Jia Yanwei Jiang Farong Wen Xiaohong Liu Xiongkuo Min Guoquan Zheng 234 12 0 18 Nov 2024
LLM-NEO: Parameter Efficient Knowledge Distillation for Large Language Models Runming Yang Taiqiang Wu Jiahao Wang Pengfei Hu Ngai Wong Yujiu Yang Yujiu Yang 896 3 0 11 Nov 2024
OpenCoder: The Open Cookbook for Top-Tier Code Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Siming Huang Tianhao Cheng J.K. Liu Jiaran Hao L. Song ... Ge Zhang Zili Wang Yuan Qi Yinghui Xu Wei Chu ALM 419 77 0 07 Nov 2024
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent Xingwu Sun Yanfeng Chen Yanwen Huang Ruobing Xie Jiaqi Zhu ... Zhanhui Kang Yong Yang Yuhong Liu Di Wang Jie Jiang MoE ALM ELM 432 68 0 04 Nov 2024
TableGPT2: A Large Multimodal Model with Tabular Data Integration Aofeng Su Aowen Wang Chao Ye Chen Zhou G. Zhang ... Xijun Gu Xingwu Sun Xianrui Li Yue Yang Zhiqing Xiao PINN VLM LMTD 427 49 0 04 Nov 2024
MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Jingfan Zhang Yi Zhao Dan Chen Xing Tian Huanran Zheng Wei Zhu MoE 303 34 0 23 Oct 2024
CLR-Bench: Evaluating Large Language Models in College-level Reasoning Hao-Heng Chen Zijin Hong Yuanchen Bei Feiran Huang Xinrun Wang Yi-Ju Chang ELM LRM 147 4 0 23 Oct 2024
Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Yanzhu Guo Simone Conia Zelin Zhou Min Li Saloni Potdar Henry Xiao 291 15 0 21 Oct 2024
Lossless KV Cache Compression to 2% Zhen Yang Jizong Han Kan Wu Ruobing Xie An Wang Xingwu Sun Zhanhui Kang VLM MQ 163 5 0 20 Oct 2024
MoH: Multi-Head Attention as Mixture-of-Head AttentionInternational Conference on Machine Learning (ICML), 2024 Peng Jin Bo Zhu Li Yuan Shuicheng Yan MoE 333 33 0 15 Oct 2024
Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family ExpertsInternational Conference on Learning Representations (ICLR), 2024 Guorui Zheng Xidong Wang Juhao Liang Nuo Chen Yuping Zheng Benyou Wang MoE 264 9 0 14 Oct 2024
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2024 Gen Luo Xue Yang Wenhan Dou Zhaokai Wang Jifeng Dai Jifeng Dai Yu Qiao Xizhou Zhu VLM MLLM 333 64 0 10 Oct 2024
Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model EditingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Weichuan Wang Zhaoyi Li Defu Lian Chen Ma Linqi Song Ying Wei 195 14 0 09 Oct 2024
DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Ranchi Zhao Zhen Leng Thai Yifan Zhang Shengding Hu Yunqi Ba Jie Zhou Jie Cai Zhiyuan Liu Maosong Sun 193 4 0 08 Oct 2024
Gradient Routing: Masking Gradients to Localize Computation in Neural Networks Alex Cloud Jacob Goldman-Wetzler Evžen Wybitul Joseph Miller Alexander Matt Turner 161 5 0 06 Oct 2024
A Learning Rate Path Switching Training Paradigm for Version Updates of Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Zhihao Wang Shiyu Liu Jianheng Huang Zheng Wang Yixuan Liao Xiaoxin Chen Junfeng Yao Jinsong Su 226 1 0 05 Oct 2024
Parameter Competition Balancing for Model MergingNeural Information Processing Systems (NeurIPS), 2024 Guodong DU Junlin Lee Jing Li Runhua Jiang Yifei Guo ... Hanting Liu Sim Kuan Goh Jing Li Daojing He Min Zhang MoMe 195 40 0 03 Oct 2024
Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model EnsemblingInternational Conference on Learning Representations (ICLR), 2024 Yuxuan Yao Han Wu Mingyang Liu Sichun Luo Xiongwei Han Jie Liu Zhijiang Guo Linqi Song 216 14 0 03 Oct 2024
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024 Luohe Shi Yao Yao Zuchao Li Lefei Zhang Hai Zhao 196 0 0 30 Sep 2024
RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024 Shuhao Chen Weisen Jiang Xiaoyuan Zhang James T. Kwok Yu Zhang RALM MQ 223 39 0 30 Sep 2024
PEDRO: Parameter-Efficient Fine-tuning with Prompt DEpenDent Representation MOdificationInternational Conference on Neural Information Processing (ICONIP), 2024 Tianfang Xie Tianjing Li Wei Zhu Wei Han Yi Zhao 224 7 0 26 Sep 2024
CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data Qian-Wen Zhang Haochen Wang Fang Li Siyu An Lingfeng Qiao Liangcai Gao Di Yin Xing Sun ELM AI4Ed 164 2 0 24 Sep 2024
In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Pengrui Han Peiyang Song Haofei Yu Jiaxuan You ReLM LRM 166 5 0 23 Sep 2024
Enabling Real-Time Conversations with Minimal Training Costs Wang Xu Shuo Wang Weilin Zhao Xu Han Shi Yu Yudi Zhang Zhe Tao Zhiyuan Liu Wanxiang Che 136 9 0 18 Sep 2024
Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in IndonesiaNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024 Fajri Koto ELM 281 4 0 13 Sep 2024
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Zhiyong Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 388 16 0 04 Sep 2024
Training on the Benchmark Is Not All You NeedAAAI Conference on Artificial Intelligence (AAAI), 2024 Shiwen Ni Xiangtao Kong Chengming Li Xiping Hu Ruifeng Xu Jia Zhu Min Yang 311 18 0 03 Sep 2024
An Investigation of Warning Erroneous Chat Translations in Cross-lingual CommunicationInternational Joint Conference on Natural Language Processing (IJCNLP), 2024 Yunmeng Li Jun Suzuki Makoto Morishita Kaori Abe Kentaro Inui 225 26 0 28 Aug 2024
BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline Bin Cui Zheng Liang Yiding Sun Da Pan Zhuoran Zhang ... Bingning Wang Wentao Zhang Jiaxin Mao Guosheng Dong Weipeng Chen ALM 148 4 0 27 Aug 2024
Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning Kai Xiong Xiao Ding Li Du Jiahao Ying Ting Liu Bing Qin Yixin Cao 201 2 0 21 Aug 2024
BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction Yifei Yang Runhan Shi Zuchao Li Shu Jiang Bao-Liang Lu Yang Yang Hai Zhao 218 8 0 19 Aug 2024
Towards Effective and Efficient Continual Pre-training of Large Language Models Jie Chen Zhipeng Chen Jiapeng Wang Kun Zhou Yutao Zhu ... Rui Yan Zhewei Wei Di Hu Wenbing Huang Ji-Rong Wen KELM ALM CLL ELM LRM 652 10 0 26 Jul 2024
Qwen2 Technical Report An Yang Baosong Yang Binyuan Hui Jian Xu Bowen Yu ... Yuqiong Liu Zeyu Cui Zhenru Zhang Zhifang Guo Zhi-Wei Fan OSLM VLM MU 608 1,634 0 15 Jul 2024
Beyond KV Caching: Shared Attention for Efficient LLMs Bingli Liao Danilo Vasconcellos Vargas 173 9 0 13 Jul 2024