Meta-Learning Fast Weight Language Models

Meta-Learning Fast Weight Language Models

5 December 2022

Panupong Pasupat

Geoffrey E. Hinton

Mohammad Norouzi

Papers citing "Meta-Learning Fast Weight Language Models"

16 / 16 papers shown

Title
One-Minute Video Generation with Test-Time Training Karan Dalal Daniel Koceja Gashon Hussein Jiarui Xu Yue Zhao ... Tatsunori Hashimoto Sanmi Koyejo Yejin Choi Yu Sun Xiaolong Wang ViT 91 3 0 07 Apr 2025
Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass Tong Chen Hao Fang Patrick Xia Xiaodong Liu Benjamin Van Durme Luke Zettlemoyer Jianfeng Gao Hao Cheng KELM 51 2 0 08 Nov 2024
What is Wrong with Perplexity for Long-context Language Modeling? Lizhe Fang Yifei Wang Zhaoyang Liu Chenheng Zhang Stefanie Jegelka Jinyang Gao Bolin Ding Yisen Wang 58 4 0 31 Oct 2024
Learning to (Learn at Test Time): RNNs with Expressive Hidden States Yu Sun Xinhao Li Karan Dalal Jiarui Xu Arjun Vikram ... Xinlei Chen Xiaolong Wang Sanmi Koyejo Tatsunori Hashimoto Carlos Guestrin 56 92 0 05 Jul 2024
Online Test-Time Adaptation of Spatial-Temporal Traffic Flow Forecasting Pengxin Guo Pengrong Jin Ziyue Li Lei Bai Yu Zhang AI4TS 30 3 0 08 Jan 2024
Compressed Context Memory For Online Language Model Interaction Jang-Hyun Kim Junyoung Yeom Sangdoo Yun Hyun Oh Song KELM 39 14 1 06 Dec 2023
When Meta-Learning Meets Online and Continual Learning: A Survey Jaehyeon Son Soochan Lee Gunhee Kim OOD CLL 32 10 0 09 Nov 2023
Learning to (Learn at Test Time) Yu Sun Xinhao Li Karan Dalal Chloe Hsu Oluwasanmi Koyejo Carlos Guestrin Xiaolong Wang Tatsunori Hashimoto Xinlei Chen SSL 25 6 0 20 Oct 2023
Trainable Transformer in Transformer A. Panigrahi Sadhika Malladi Mengzhou Xia Sanjeev Arora VLM 27 12 0 03 Jul 2023
Meta-Learning Online Adaptation of Language Models Nathan J. Hu E. Mitchell Christopher D. Manning Chelsea Finn KELM 18 34 0 24 May 2023
$k$ NN-Adapter: Efficient Domain Adaptation for Black-Box Language Models Yangsibo Huang Daogao Liu Zexuan Zhong Weijia Shi Y. Lee RALM ALM 12 14 0 21 Feb 2023
Transformer Quality in Linear Time Weizhe Hua Zihang Dai Hanxiao Liu Quoc V. Le 71 222 0 21 Feb 2022
Fast Model Editing at Scale E. Mitchell Charles Lin Antoine Bosselut Chelsea Finn Christopher D. Manning KELM 219 341 0 21 Oct 2021
Efficient Content-Based Sparse Attention with Routing Transformers Aurko Roy M. Saffar Ashish Vaswani David Grangier MoE 238 579 0 12 Mar 2020
Rapid Learning or Feature Reuse? Towards Understanding the Effectiveness of MAML Aniruddh Raghu M. Raghu Samy Bengio Oriol Vinyals 172 639 0 19 Sep 2019
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 281 11,677 0 09 Mar 2017