v1v2 (latest)

Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty

3 August 2023

Papers citing "Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty"

43 / 43 papers shown

Title
Teacher Demonstrations in a BabyLM's Zone of Proximal Development for Contingent Multi-Turn Interaction Suchir Salhan Hongyi gu Donya Rooein Diana Galván-Sosa Gabrielle Gaudeau Andrew Caines Zheng Yuan P. Buttery 72 0 0 23 Oct 2025
FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution Syed Rifat Raiyan Md Farhan Ishmam Abdullah Al Imran Mohammad Ali Moni 55 0 0 18 Oct 2025
Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines P. Buttery VLM 52 0 0 09 Oct 2025
Are BabyLMs Deaf to Gricean Maxims? A Pragmatic Evaluation of Sample-efficient Language Models Raha Askari Sina Zarrieß Özge Alaçam Judith Sieker ReLM 71 0 0 06 Oct 2025
Reference-Free Rating of LLM Responses via Latent Information Leander Girrbach Chi-Ping Su Tankred Saanum Richard Socher Eric Schulz Zeynep Akata 48 0 0 29 Sep 2025
Influence-driven Curriculum Learning for Pre-training on Limited Data Loris Schoenegger Lukas Thoma Terra Blevins Benjamin Roth 88 0 0 21 Aug 2025
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models Byung-Kwan Lee Ryo Hachiuma Yong Man Ro Yu-Chun Wang Yueh-Hua Wu VLM 179 1 0 18 Jun 2025
Plug-in and Fine-tuning: Bridging the Gap between Small Language Models and Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Kyeonghyun Kim Jinhee Jang Juhwan Choi Yoonji Lee Kyohoon Jin Youngbin Kim 152 0 0 09 Jun 2025
SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought Guanghao Li Wenhao Jiang Mingfeng Chen Yan Li Hao Yu Shuting Dong Tao Ren Ming Tang Chun Yuan ReLM LRM 131 0 0 30 May 2025
Small Language Models: Architectures, Techniques, Evaluation, Problems and Future Adaptation Tanjil Hasan Sakib Md. Tanzib Hosain Md. Kishor Morol ALM 182 0 0 26 May 2025
LLM-Powered AI Agent Systems and Their Applications in Industry Guannan Liang Qianqian Tong LLMAG LM&Ro 205 8 0 22 May 2025
ExpertSteer: Intervening in LLMs through Expert Knowledge Weixuan Wang Minghao Wu Barry Haddow Alexandra Birch LLMSV 363 1 0 18 May 2025
On Membership Inference Attacks in Knowledge Distillation Ziyao Cui Minxing Zhang Jian Pei 157 1 0 17 May 2025
Towards Harnessing the Collaborative Power of Large and Small Models for Domain Tasks Yang Liu Bingjie Yan Tianyuan Zou Jianqing Zhang Zixuan Gu ... Jiajian Li Xiaozhou Ye Ye Ouyang Qiang Yang Yanzhe Zhang ALM 814 2 0 24 Apr 2025
Metropolis-Hastings Captioning Game: Knowledge Fusion of Vision Language Models via Decentralized Bayesian Inference Yuta Matsui Ryosuke Yamaki Ryo Ueda Seitaro Shinagawa Tadahiro Taniguchi MLLM 178 3 0 13 Apr 2025
Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora Alex Warstadt Aaron Mueller Leshem Choshen E. Wilcox Chengxu Zhuang ... Rafael Mosquera Bhargavi Paranjape Adina Williams Tal Linzen Robert Bamler 472 155 0 10 Apr 2025
UNDO: Understanding Distillation as Optimization Kushal Kumar Jain Piyushi Goyal Kumar Shridhar 174 0 0 03 Apr 2025
CoSMoEs: Compact Sparse Mixture of Experts Patrick Huber Akshat Shrivastava Ernie Chang Chinnadhurai Sankar Ahmed Aly Adithya Sagar MoE 103 0 0 28 Feb 2025
Pastiche Novel Generation Creating: Fan Fiction You Love in Your Favorite Author's Style Xueran Han Yuhan Liu Mingzhe Li Wen Liu Sen Hu Rui Yan Zhiqiang Xu Preslav Nakov 184 0 0 24 Feb 2025
BERTtime Stories: Investigating the Role of Synthetic Story Data in Language Pre-training Nikitas Theodoropoulos Giorgos Filandrianos Vassilis Lyberatos Maria Lymperaiou Giorgos Stamou SyDa 304 3 0 24 Feb 2025
Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs Nicolas Boizard Kevin El Haddad C´eline Hudelot Pierre Colombo 342 24 0 28 Jan 2025
GREEN-CODE: Learning to Optimize Energy Efficiency in LLM-based Code GenerationIEEE/ACM International Symposium on Cluster, Cloud and Internet Computing (CCGrid), 2025 Shashikant Ilager Lukas Florian Briem Ivona Brandić 180 3 0 19 Jan 2025
iServe: An Intent-based Serving System for LLMs Dimitrios Liakopoulos Tianrui Hu Prasoon Sinha N. Yadwadkar VLM 829 0 0 08 Jan 2025
InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion Zhaoyi Yan Zhijie Sang Yiming Zhang Yuhao Fu Baoyi He Qi Zhou Yining Di Chunlin Ji Shengyu Zhang Leilei Gan MoMe LRM 286 4 0 06 Jan 2025
GPT or BERT: why not both? Lucas Georges Gabriel Charpentier David Samuel 223 14 0 31 Dec 2024
BabyHGRN: Exploring RNNs for Sample-Efficient Training of Language Models Patrick Haller Jonas Golde Alan Akbik 211 0 0 20 Dec 2024
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora Michael Y. Hu Aaron Mueller Candace Ross Adina Williams Tal Linzen Chengxu Zhuang Robert Bamler Leshem Choshen Alex Warstadt Ethan Gotlieb Wilcox 327 27 0 06 Dec 2024
AntLM: Bridging Causal and Masked Language Models Xinru Yu Bin Guo Shiwei Luo Jiadong Wang Changzhi Sun Man Lan CLL 263 2 0 04 Dec 2024
When Babies Teach Babies: Can student knowledge sharing outperform Teacher-Guided Distillation on small datasets? Srikrishna Iyer FedML 297 0 0 25 Nov 2024
What Should Baby Models Read? Exploring Sample-Efficient Data Composition on Model Performance Hong Meng Yam Nathan J Paek 164 1 0 11 Nov 2024
From Babble to Words: Pre-Training Language Models on Continuous Streams of Phonemes Zébulon Goriely Richard Diehl Martinez Andrew Caines Lisa Beinborn P. Buttery CLL 166 7 0 30 Oct 2024
Choosy Babies Need One Coach: Inducing Mode-Seeking Behavior in BabyLlama with Reverse KL Divergence Shaozhen Shi Yevgen Matusevych Malvina Nissim 196 0 0 29 Oct 2024
BabyLlama-2: Ensemble-Distilled Models Consistently Outperform Teachers With Limited Data J. Tastet I. Timiryasov 184 6 0 25 Sep 2024
Towards Efficient Large Language Models for Scientific Text: A Review H. To Ming Liu Guangyan Huang 105 3 0 20 Aug 2024
DDK: Distilling Domain Knowledge for Efficient Large Language Models Jiaheng Liu Chenchen Zhang Jinyang Guo Yuanxing Zhang Haoran Que ... Congnan Liu Yuchi Xu Jiamang Wang Lin Qu Bo Zheng 193 26 0 23 Jul 2024
Aligning Teacher with Student Preferences for Tailored Training Data Generation Yantao Liu Zhao Zhang Zijun Yao S. Cao Lei Hou Juanzi Li 142 3 0 27 Jun 2024
Proofread: Fixes All Errors with One Tap Renjie Liu Yanxiang Zhang Yun Zhu Haicheng Sun Yuanbo Zhang Michael Xuelin Huang Shanqing Cai Lei Meng Shumin Zhai ALM 143 3 0 06 Jun 2024
A Survey on Efficient Inference for Large Language Models Zixuan Zhou Xuefei Ning Ke Hong Tianyu Fu Jiaming Xu ... Shengen Yan Guohao Dai Xiao-Ping Zhang Yuhan Dong Yu Wang 232 150 0 22 Apr 2024
Emergent Abilities in Reduced-Scale Generative Language Models Sherin Muckatira Vijeta Deshpande Vladislav Lialin Anna Rumshisky ReLM ELM LRM 124 7 0 02 Apr 2024
Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under CompressionInternational Conference on Machine Learning (ICML), 2024 Junyuan Hong Jinhao Duan Chenhui Zhang Zhangheng Li Chulin Xie ... B. Kailkhura Dan Hendrycks Dawn Song Zinan Lin Yue Liu 220 39 0 18 Mar 2024
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases Zechun Liu Changsheng Zhao Forrest N. Iandola Chen Lai Yuandong Tian ... Ernie Chang Yangyang Shi Raghuraman Krishnamoorthi Liangzhen Lai Vikas Chandra ALM 226 167 0 22 Feb 2024
A Survey on Knowledge Distillation of Large Language Models Xiaohan Xu Ming Li Chongyang Tao Tao Shen Reynold Cheng Jinyang Li Can Xu Dacheng Tao Wanrong Zhu KELM VLM 361 210 0 20 Feb 2024
Squat: Quant Small Language Models on the Edge Xuan Shen Zhenglun Kong Zhenglun Kong Zhaoyang Han Changdi Yang ... Lei Lu Cheng Lyu Zhihao Shu Wei Niu Miriam Leeser MQ 290 19 0 16 Feb 2024