Merino: Entropy-driven Design for Generative Language Models on IoT Devices

AAAI Conference on Artificial Intelligence (AAAI), 2024

28 January 2025

ArXiv (abs)PDF HTML Github

Papers citing "Merino: Entropy-driven Design for Generative Language Models on IoT Devices"

38 / 38 papers shown

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

313

21 Aug 2025

Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster

392

129

06 Apr 2023

Pythia: A Suite for Analyzing Large Language Models Across Training and ScalingInternational Conference on Machine Learning (ICML), 2023

...

500

1,740

03 Apr 2023

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural NetworkComputer Vision and Pattern Recognition (CVPR), 2023

528

05 Mar 2023

LLaMA: Open and Efficient Foundation Language Models

...

20.0K

19,109

27 Feb 2023

OPT: Open Pre-trained Transformer Language Models

...

Luke Zettlemoyer

1.0K

4,591

02 May 2022

Training-free Transformer Architecture SearchComputer Vision and Pattern Recognition (CVPR), 2022

Yonghong Tian

Jie Chen

Rongrong Ji

ViT

209

23 Mar 2022

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

...

609

1,562

08 Dec 2021

MAE-DET: Revisiting Maximum Entropy Principle in Zero-Shot NAS for Efficient Object DetectionInternational Conference on Machine Learning (ICML), 2021

Hao Li

405

26 Nov 2021

A Short Study on Compressing Decoder-Based Language Models

Habib Hajimolahoseini

Yang Liu

Mehdi Rezagholizadeh

309

16 Oct 2021

AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Yichun Yin

Cheng Chen

Lifeng Shang

Xin Jiang

Xiao Chen

Qun Liu

VLM

204

29 Jul 2021

The Principles of Deep Learning Theory

428

279

18 Jun 2021

NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture SearchKnowledge Discovery and Data Mining (KDD), 2021

Xu Tan

182

30 May 2021

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

...

1.1K

2,701

31 Dec 2020

Evaluating Efficient Performance Estimators of Neural ArchitecturesNeural Information Processing Systems (NeurIPS), 2020

679

07 Aug 2020

LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning

Leyang Cui

Yue Zhang

293

445

16 Jul 2020

HAT: Hardware-Aware Transformers for Efficient Natural Language ProcessingAnnual Meeting of the Association for Computational Linguistics (ACL), 2020

Zhijian Liu

Chuang Gan

Song Han

317

284

28 May 2020

Language Models are Few-Shot LearnersNeural Information Processing Systems (NeurIPS), 2020

...

2.3K

55,939

28 May 2020

ReZero is All You Need: Fast Convergence at Large DepthConference on Uncertainty in Artificial Intelligence (UAI), 2020

Thomas C. Bachlechner

Bodhisattwa Prasad Majumder

497

362

10 Mar 2020

Transformers without Tears: Improving the Normalization of Self-AttentionInternational Workshop on Spoken Language Translation (IWSLT), 2019

Toan Q. Nguyen

Julian Salazar

370

260

14 Oct 2019

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

3.4K

9,369

02 Oct 2019

ALBERT: A Lite BERT for Self-supervised Learning of Language RepresentationsInternational Conference on Learning Representations (ICLR), 2019

1.5K

7,332

26 Sep 2019

TinyBERT: Distilling BERT for Natural Language UnderstandingFindings (Findings), 2019

Xiaoqi Jiao

Yichun Yin

Lifeng Shang

Xin Jiang

Xiao Chen

Linlin Li

F. Wang

Qun Liu

VLM

738

2,269

23 Sep 2019

PubMedQA: A Dataset for Biomedical Research Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2019

1.0K

1,468

13 Sep 2019

Improving Deep Transformer with Depth-Scaled Initialization and Merged AttentionConference on Empirical Methods in Natural Language Processing (EMNLP), 2019

Biao Zhang

Ivan Titov

Rico Sennrich

242

119

29 Aug 2019

Once-for-All: Train One Network and Specialize it for Efficient DeploymentInternational Conference on Learning Representations (ICLR), 2019

Chuang Gan

Song Han

654

1,498

26 Aug 2019

Patient Knowledge Distillation for BERT Model CompressionConference on Empirical Methods in Natural Language Processing (EMNLP), 2019

415

942

25 Aug 2019

RoBERTa: A Robustly Optimized BERT Pretraining Approach

Luke Zettlemoyer

6.0K

28,988

26 Jul 2019

Learning Deep Transformer Models for Machine TranslationAnnual Meeting of the Association for Computational Linguistics (ACL), 2019

Jingbo Zhu

348

759

05 Jun 2019

HellaSwag: Can a Machine Really Finish Your Sentence?Annual Meeting of the Association for Computational Linguistics (ACL), 2019

Yejin Choi

871

3,831

19 May 2019

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding SystemsNeural Information Processing Systems (NeurIPS), 2019

Amanpreet Singh

914

2,704

02 May 2019

ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware

Han Cai

Ligeng Zhu

Song Han

740

2,023

02 Dec 2018

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

3.1K

112,182

11 Oct 2018

Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering

1.3K

2,240

08 Sep 2018

Attention Is All You NeedNeural Information Processing Systems (NeurIPS), 2017

8.2K

171,167

12 Jun 2017

Deep Residual Learning for Image Recognition

4.1K

224,064

10 Dec 2015

Distilling the Knowledge in a Neural Network

934

23,444

09 Mar 2015

One Billion Word Benchmark for Measuring Progress in Statistical Language ModelingInterspeech (Interspeech), 2013

710

1,168

11 Dec 2013