Memory-Efficient Differentiable Transformer Architecture Search

Memory-Efficient Differentiable Transformer Architecture Search

Findings (Findings), 2021

31 May 2021

ArXiv (abs)PDF HTML

Papers citing "Memory-Efficient Differentiable Transformer Architecture Search"

12 / 12 papers shown

Title
Universal Neural Architecture Space: Covering ConvNets, Transformers and Everything in Between Ondřej Týbl Lukáš Neumann AI4CE 156 0 0 07 Oct 2025
Model Compression and Efficient Inference for Large Language Models: A Survey Wenxiao Wang Wei Chen Yicong Luo Yongliu Long Zhengkai Lin Liye Zhang Binbin Lin Deng Cai Xiaofei He MQ 264 85 0 15 Feb 2024
A Survey of Techniques for Optimizing Transformer InferenceJournal of systems architecture (JSA), 2023 Krishna Teja Chitty-Venkata Sparsh Mittal M. Emani V. Vishwanath Arun Somani 235 115 0 16 Jul 2023
Training-free Neural Architecture Search for RNNs and TransformersAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Aaron Serianni Jugal Kalita 161 8 0 01 Jun 2023
FocusFormer: Focusing on What We Need via Architecture Sampler Jing Liu Jianfei Cai Bohan Zhuang 130 9 0 23 Aug 2022
Neural Architecture Search on Efficient Transformers and Beyond Zexiang Liu Dong Li Kaiyue Lu Zhen Qin Weixuan Sun Jiacheng Xu Yiran Zhong 175 20 0 28 Jul 2022
Meta-Learning the Difference: Preparing Large Language Models for Efficient AdaptationTransactions of the Association for Computational Linguistics (TACL), 2022 Zejiang Hou Julian Salazar George Polovets 166 20 0 07 Jul 2022
RevBiFPN: The Fully Reversible Bidirectional Feature Pyramid NetworkConference on Machine Learning and Systems (MLSys), 2022 Vitaliy Chiley Vithursan Thangarasa Abhay Gupta Anshul Samar Joel Hestness D. DeCoste 169 13 0 28 Jun 2022
LiteTransformerSearch: Training-free Neural Architecture Search for Efficient Language ModelsNeural Information Processing Systems (NeurIPS), 2022 Mojan Javaheripi Gustavo de Rosa Subhabrata Mukherjee S. Shah Tomasz Religa C. C. T. Mendes Sébastien Bubeck F. Koushanfar Debadeepta Dey 176 23 0 04 Mar 2022
RankNAS: Efficient Neural Architecture Search by Pairwise Ranking Chi Hu Chenglong Wang Xiangnan Ma Xia Meng Yinqiao Li Tong Xiao Jingbo Zhu Changliang Li 191 13 0 15 Sep 2021
Multi-head or Single-head? An Empirical Comparison for Transformer Training Liyuan Liu Jialu Liu Jiawei Han 139 40 0 17 Jun 2021
A Survey of TransformersAI Open (AO), 2021 Tianyang Lin Yuxin Wang Xiangyang Liu Xipeng Qiu ViT 365 1,356 0 08 Jun 2021