pNLP-Mixer: an Efficient all-MLP Architecture for Language

pNLP-Mixer: an Efficient all-MLP Architecture for Language

9 February 2022

Francesco Fusco

Peter W. J. Staar

Diego Antognini

Papers citing "pNLP-Mixer: an Efficient all-MLP Architecture for Language"

19 / 19 papers shown

Title
PreMixer: MLP-Based Pre-training Enhanced MLP-Mixers for Large-scale Traffic Forecasting Tongtong Zhang Zhiyong Cui Bingzhang Wang Yilong Ren Haiyang Yu Pan Deng Yinhai Wang AI4TS 70 0 0 18 Dec 2024
Masked Mixers for Language Generation and Retrieval Benjamin L. Badger 37 0 0 02 Sep 2024
Team up GBDTs and DNNs: Advancing Efficient and Effective Tabular Prediction with Tree-hybrid MLPs Jiahuan Yan Jintai Chen Qianxing Wang D. Z. Chen Jian Wu 24 3 0 13 Jul 2024
WindowMixer: Intra-Window and Inter-Window Modeling for Time Series Forecasting Quangao Liu Ruiqi Li Maowei Jiang Wei Yang Chen Liang Longlong Pang Zhuozhang Zou AI4TS 24 0 0 14 Jun 2024
Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs Kai Yuan Christoph Bauinger Xiangyi Zhang Pascal Baehr Matthias Kirchhart Darius Dabert Adrien Tousnakhoff Pierre Boudier Michael Paulitsch 27 2 0 26 Mar 2024
Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform Daniele Giofré Sneha Ghantasala AILaw 29 0 0 09 Nov 2023
Attentive Multi-Layer Perceptron for Non-autoregressive Generation Shuyang Jiang Jinchao Zhang Jiangtao Feng Lin Zheng Lingpeng Kong 49 0 0 14 Oct 2023
Contextualizing MLP-Mixers Spatiotemporally for Urban Data Forecast at Scale Tong Nie Guoyang Qin Lijun Sun Wei Ma Yuewen Mei Jiangming Sun AI4TS 23 2 0 04 Jul 2023
FastBCSD: Fast and Efficient Neural Network for Binary Code Similarity Detection Che-Wei Huang Guibo Zhu Guojing Ge Taiha Li Jinqiao Wang 27 1 0 25 Jun 2023
TSMixer: An All-MLP Architecture for Time Series Forecasting Si-An Chen Chun-Liang Li Nate Yoder Sercan Ö. Arik Tomas Pfister AI4TS 22 151 0 10 Mar 2023
Cramming: Training a Language Model on a Single GPU in One Day Jonas Geiping Tom Goldstein MoE 28 84 0 28 Dec 2022
Unsupervised Term Extraction for Highly Technical Domains Francesco Fusco Peter W. J. Staar Diego Antognini 20 4 0 24 Oct 2022
Analysis of Quantization on MLP-based Vision Models Lingran Zhao Zhen Dong Kurt Keutzer MQ 13 7 0 14 Sep 2022
TAGPRIME: A Unified Framework for Relational Structure Extraction I-Hung Hsu Kuan-Hao Huang Shuning Zhang Wen-Huang Cheng Premkumar Natarajan Kai-Wei Chang Nanyun Peng 8 11 0 25 May 2022
HyperMixer: An MLP-based Low Cost Alternative to Transformers Florian Mai Arnaud Pannatier Fabio Fehr Haolin Chen François Marelli F. Fleuret James Henderson 14 11 0 07 Mar 2022
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 239 2,592 0 04 May 2021
Larger-Scale Transformers for Multilingual Masked Language Modeling Naman Goyal Jingfei Du Myle Ott Giridhar Anantharaman Alexis Conneau 88 98 0 02 May 2021
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism M. Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 243 1,815 0 17 Sep 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,943 0 20 Apr 2018