AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models

29 January 2022

Dongkuan Xu

Xiaodong Liu

Papers citing "AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models"

2 / 2 papers shown

Title
The Lottery Ticket Hypothesis for Pre-trained BERT Networks Tianlong Chen Jonathan Frankle Shiyu Chang Sijia Liu Yang Zhang Zhangyang Wang Michael Carbin 148 376 0 23 Jul 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,950 0 20 Apr 2018