Context Compression for Auto-regressive Transformers with Sentinel
Tokens

v1v2 (latest)

Context Compression for Auto-regressive Transformers with Sentinel Tokens

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

12 October 2023

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (24★)

Papers citing "Context Compression for Auto-regressive Transformers with Sentinel Tokens"

8 / 8 papers shown

Title
Selective Attention Improves TransformerInternational Conference on Learning Representations (ICLR), 2024 Yaniv Leviathan Matan Kalman Yossi Matias 323 19 0 03 Oct 2024
500xCompressor: Generalized Prompt Compression for Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Zongqian Li Yixuan Su Nigel Collier MQ 161 21 0 06 Aug 2024
Efficient Sparse Attention needs Adaptive Token Release Chaoran Zhang Lixin Zou Dan Luo Min Tang Xiangyang Luo Zihao Li Chenliang Li 194 7 0 02 Jul 2024
Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens Weiyao Luo Suncong Zheng Heming Xia Weikang Wang Yan Lei Tianyu Liu Shuang Chen Zhifang Sui 142 2 0 16 Jun 2024
Recurrent Context Compression: Efficiently Expanding the Context Window of LLM Chensen Huang Guibo Zhu Xuepeng Wang Yifei Luo Guojing Ge Haoran Chen Dong Yi Jinqiao Wang 189 3 0 10 Jun 2024
Layer-Condensed KV Cache for Efficient Inference of Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Haoyi Wu Kewei Tu MQ 294 37 0 17 May 2024
FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference Runheng Liu Xingchen Xiao Heyan Huang Zewen Chi Zhijing Wu RALM KELM 261 1 0 07 May 2024
Learning to Compress Prompt in Natural Language Formats Yu-Neng Chuang Tianwei Xing Chia-Yuan Chang Zirui Liu Xun Chen Helen Zhou 173 38 0 28 Feb 2024