Title
SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training Tianjin Huang Ziquan Zhu Gaojie Jin Lu Liu Zhangyang Wang Shiwei Liu 34 1 0 12 Jan 2025
Tailored-LLaMA: Optimizing Few-Shot Learning in Pruned LLaMA Models with Task-Specific Prompts Danyal Aftab Steven Davy ALM 49 0 0 10 Jan 2025
Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers Tobias Leemann Alina Fastowski Felix Pfeiffer Gjergji Kasneci 51 4 0 10 Jan 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng X. Li Zeliang Zhang Chenliang Xu VGen 88 7 0 08 Jan 2025
Integrating LLMs with ITS: Recent Advances, Potentials, Challenges, and Future Directions Doaa Mahmud Hadeel Hajmohamed Shamma Almentheri Shamma Alqaydi Lameya Aldhaheri R. A. Khalil Nasir Saeed AI4TS 38 4 0 08 Jan 2025
Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition Yosuke Higuchi Tetsuji Ogawa Tetsunori Kobayashi AuLLM 32 0 0 08 Jan 2025
HuRef: HUman-REadable Fingerprint for Large Language Models Boyi Zeng Cheng Zhou Yuncong Hu Yi Xu Chenghu Zhou X. Wang Yu Yu Zhouhan Lin 46 9 0 08 Jan 2025
Clinical Insights: A Comprehensive Review of Language Models in Medicine Nikita Neveditsin Pawan Lingras V. Mago LM&MA 49 3 0 08 Jan 2025
IIMedGPT: Promoting Large Language Model Capabilities of Medical Tasks by Efficient Human Preference Alignment Yiming Zhang Zheng Chang Wentao Cai MengXing Ren Kang Yuan Yining Sun Zenghui Ding LM&MA 31 3 0 06 Jan 2025
Foundations of GenIR Qingyao Ai Jingtao Zhan Y. Liu 42 0 0 06 Jan 2025
Validity Arguments For Constructed Response Scoring Using Generative Artificial Intelligence Applications Jodi M. Casabianca Daniel F. McCaffrey Matthew S. Johnson Naim Alper Vladimir Zubenko 27 0 0 04 Jan 2025
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct Haipeng Luo Qingfeng Sun Can Xu Pu Zhao Jian-Guang Lou ... Xiubo Geng Qingwei Lin Shifeng Chen Yansong Tang Dongmei Zhang OSLM LRM 103 402 0 03 Jan 2025
Overview of the First Workshop on Language Models for Low-Resource Languages (LoResLM 2025) Hansi Hettiarachchi Tharindu Ranasinghe Paul Rayson R. Mitkov M. Gaber Damith Premasiri Fiona Anting Tan Lasitha Uyangodage AI4CE 97 1 0 20 Dec 2024
Next Patch Prediction for Autoregressive Visual Generation Yatian Pang Peng Jin Shuo Yang Bin Lin Bin Zhu ... Liuhan Chen Francis E. H. Tay Ser-Nam Lim Harry Yang Li Yuan 120 8 0 19 Dec 2024
Hansel: Output Length Controlling Framework for Large Language Models Seoha Song Junhyun Lee Hyeonmok Ko 70 0 0 18 Dec 2024
Deploying Foundation Model Powered Agent Services: A Survey Wenchao Xu Jinyu Chen Peirong Zheng Xiaoquan Yi Tianyi Tian ... Quan Wan Haozhao Wang Yunfeng Fan Qinliang Su Xuemin Shen AI4CE 112 1 0 18 Dec 2024
Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs Aldo Pareja Nikhil Shivakumar Nayak Hao Wang Krishnateja Killamsetty Shivchander Sudalairaj ... Guangxuan Xu Kai Xu Ligong Han Luke Inglis Akash Srivastava 78 6 0 17 Dec 2024
LLMs are Also Effective Embedding Models: An In-depth Overview Chongyang Tao Tao Shen Shen Gao Junshuo Zhang Zhen Li Zhengwei Tao Shuai Ma 68 7 0 17 Dec 2024
Code LLMs: A Taxonomy-based Survey Nishat Raihan Christian D. Newman Marcos Zampieri 91 1 0 11 Dec 2024
MoDULA: Mixture of Domain-Specific and Universal LoRA for Multi-Task Learning Yufei Ma Zihan Liang Huangyu Dai B. Chen D. Gao ... Linbo Jin Wen Jiang Guannan Zhang Xiaoyan Cai Libin Yang MoE MoMe 94 1 0 10 Dec 2024
Taming Sensitive Weights : Noise Perturbation Fine-tuning for Robust LLM Quantization Dongwei Wang Huanrui Yang MQ 82 1 0 08 Dec 2024
Fairer Analysis and Demographically Balanced Face Generation for Fairer Face Verification Alexandre Fournier-Montgieux Michael Soumm Adrian Daniel Popescu B. Luvison Hervé Le Borgne 69 0 0 04 Dec 2024
Large Language Models as Mirrors of Societal Moral Standards Evi Papadopoulou Hadi Mohammadi Ayoub Bagheri 63 0 0 01 Dec 2024
ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models Xubing Ye Yukang Gan Yixiao Ge Xiao Zhang Yansong Tang 98 7 0 30 Nov 2024
ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information Wanyue Zhang Ziyong Li Wen Yang Chunlin Leng Yinan Bai Qianlong Du Chengqing Zong Jiajun Zhang 57 0 0 29 Nov 2024
An Extensive Evaluation of Factual Consistency in Large Language Models for Data-to-Text Generation Joy Mahapatra Utpal Garain HILM ALM 62 1 0 28 Nov 2024
Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts? Sohee Yang Nora Kassner E. Gribovskaya Sebastian Riedel Mor Geva KELM LRM ReLM 78 4 0 25 Nov 2024
Profiling Bias in LLMs: Stereotype Dimensions in Contextual Word Embeddings Carolin M. Schuster Maria-Alexandra Dinisor Shashwat Ghatiwala Georg Groh 68 1 0 25 Nov 2024
UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages Bethel Melesse Tessema Akhil Kedia Tae-Sun Chung 62 0 0 21 Nov 2024
Training Bilingual LMs with Data Constraints in the Targeted Language Skyler Seto Maartje ter Hoeve He Bai Natalie Schluter David Grangier 74 0 0 20 Nov 2024
HIST-AID: Leveraging Historical Patient Reports for Enhanced Multi-Modal Automatic Diagnosis Haoxu Huang Cem M. Deniz K. Cho S. Chopra Divyam Madaan 18 1 0 16 Nov 2024
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment Y. Fu Zhongzhi Yu Junwei Li Jiayi Qian Yongan Zhang Xiangchi Yuan Dachuan Shi Roman Yakunin Y. Lin 24 2 0 15 Nov 2024
FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training Philip Zmushko Aleksandr Beznosikov Martin Takáč Samuel Horváth 37 0 0 12 Nov 2024
LA4SR: illuminating the dark proteome with generative AI David R. Nelson Ashish Kumar Jaiswal Noha Ismail Alexandra Mystikou Kourosh Salehi-Ashtiani 17 0 0 11 Nov 2024
Scaling Laws for Precision Tanishq Kumar Zachary Ankner Benjamin Spector Blake Bordelon Niklas Muennighoff Mansheej Paul C. Pehlevan Christopher Ré Aditi Raghunathan AIFin MoMe 46 12 0 07 Nov 2024
The Semantic Hub Hypothesis: Language Models Share Semantic Representations Across Languages and Modalities Zhaofeng Wu Xinyan Velocity Yu Dani Yogatama Jiasen Lu Yoon Kim AIFin 43 10 0 07 Nov 2024
Crystal: Illuminating LLM Abilities on Language and Code Tianhua Tao Junbo Li Bowen Tan Hongyi Wang William Marshall ... Joel Hestness Natalia Vassilieva Zhiqiang Shen Eric P. Xing Zhengzhong Liu 40 4 0 06 Nov 2024
No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 Languages Youssef Mohamed Runjia Li Ibrahim Said Ahmad Kilichbek Haydarov Philip H. S. Torr Kenneth Ward Church Mohamed Elhoseiny VLM 23 6 0 06 Nov 2024
MdEval: Massively Multilingual Code Debugging Shukai Liu Linzheng Chai Jian Yang Jiajun Shi He Zhu ... Yu Hao Liqun Yang Guanglin Niu Ge Zhang Z. Li LRM ELM 70 6 0 04 Nov 2024
Privacy Risks of Speculative Decoding in Large Language Models Jiankun Wei Abdulrahman Abdulrazzag Tianchen Zhang Adel Muursepp Gururaj Saileshwar 33 2 0 01 Nov 2024
Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model Subhadip Nandi Neeraj Agrawal 24 0 0 01 Nov 2024
Enhancing the Traditional Chinese Medicine Capabilities of Large Language Model through Reinforcement Learning from AI Feedback Song Yu Xiaofei Xu Fangfei Xu Li Li LM&MA 35 1 0 01 Nov 2024
SimpleFSDP: Simpler Fully Sharded Data Parallel with torch.compile Ruisi Zhang Tianyu Liu Will Feng Andrew Gu Sanket Purandare Wanchao Liang Francisco Massa 24 1 0 01 Nov 2024
Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language Jiayi Wang Yao Lu Maurice Weber Max Ryabinin Yihong Chen Raphael Tang Pontus Stenetorp LRM 39 1 0 31 Oct 2024
MALoRA: Mixture of Asymmetric Low-Rank Adaptation for Enhanced Multi-Task Learning Xujia Wang Haiyan Zhao Shuo Wang Hanqing Wang Zhiyuan Liu MoMe MoE 30 0 0 30 Oct 2024
Toxicity of the Commons: Curating Open-Source Pre-Training Data Catherine Arnett Eliot Jones Ivan P. Yamshchikov Pierre-Carl Langlais 31 2 0 29 Oct 2024
SVIP: Towards Verifiable Inference of Open-source Large Language Models Yifan Sun Yuhang Li Yue Zhang Yuchen Jin Huan Zhang 18 2 0 29 Oct 2024
Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense Samuel Cahyawijaya Ruochen Zhang Holy Lovenia Jan Christian Blaise Cruz Elisa Gilbert Hiroki Nomoto Alham Fikri Aji LRM 28 0 0 28 Oct 2024
LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment Ge Yang Changyi He J. Guo Jianyu Wu Yifu Ding Aishan Liu Haotong Qin Pengliang Ji Xianglong Liu MQ 31 4 0 28 Oct 2024
DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning Xun Guo Shan Zhang Yongxin He Ting Zhang Wanquan Feng Haibin Huang Chongyang Ma DeLMO 32 4 0 28 Oct 2024