Understanding Transformer from the Perspective of Associative Memory

26 May 2025

Papers citing "Understanding Transformer from the Perspective of Associative Memory"

7 / 7 papers shown

Title
Distributed Associative Memory via Online Convex Optimization Bowen Wang Matteo Zecchin Osvaldo Simeone 0 0 0 26 Sep 2025
Bridging Compositional and Distributional Semantics: A Survey on Latent Semantic Geometry via AutoEncoder Yingji Zhang Danilo S. Carvalho André Freitas CoGe 114 0 0 25 Jun 2025
T-SHRED: Symbolic Regression for Regularization and Model Discovery with Transformer Shallow Recurrent Decoders Alexey Yermakov David Zoro Mars Liyao Gao J. Nathan Kutz 101 0 0 18 Jun 2025
It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization Ali Behrouz Meisam Razaviyayn Peilin Zhong Vahab Mirrokni 188 10 0 17 Apr 2025
MoBA: Mixture of Block Attention for Long-Context LLMs Enzhe Lu Z. L. Jiang Qingbin Liu Yulun Du Tao Jiang ... N. Zhang Zhilin Yang Xinyu Zhou Mingxing Zhang J. Qiu 159 47 0 18 Feb 2025
MiniMax-01: Scaling Foundation Models with Lightning Attention MiniMax Aonian Li Bangwei Gong Bo Yang Bo Shen ... Zhan Qin Zhenhua Fan Zhihang Yu Z. L. Jiang Zijia Wu MoE 225 57 0 14 Jan 2025
Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues Riccardo Grazzi Julien N. Siems Jörg Franke Arber Zela Katharina Eggensperger Massimiliano Pontil 331 36 0 19 Nov 2024