Title
LogiDebrief: A Signal-Temporal Logic based Automated Debriefing Approach with Large Language Models Integration Zirong Chen Ziyan An Jennifer Reynolds Kristin Mullen Stephen Martini Meiyi Ma 17 0 0 06 May 2025
Thoughts without Thinking: Reconsidering the Explanatory Value of Chain-of-Thought Reasoning in LLMs through Agentic Pipelines R. Manuvinakurike Emanuel Moss E. A. Watkins Saurav Sahay G. Raffa L. Nachman LRM 19 0 0 01 May 2025
From Human Memory to AI Memory: A Survey on Memory Mechanisms in the Era of LLMs Yaxiong Wu Sheng Liang Chen Zhang Y. Wang Y. Zhang Huifeng Guo Ruiming Tang Y. Liu KELM 36 0 0 22 Apr 2025
Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks Amey Hengle Prasoon Bajpai Soham Dan Tanmoy Chakraborty LRM 21 0 0 17 Apr 2025
Question Tokens Deserve More Attention: Enhancing Large Language Models without Training through Step-by-Step Reading and Question Attention Recalibration Feijiang Han Licheng Guo Hengtao Cui Zhiyuan Lyu LRM 24 0 0 13 Apr 2025
Harnessing the Unseen: The Hidden Influence of Intrinsic Knowledge in Long-Context Language Models Yu Fu Haz Sameen Shahgir Hui Liu Xianfeng Tang Qi He Yue Dong KELM 41 0 0 11 Apr 2025
Reasoning on Multiple Needles In A Haystack Yidong Wang LRM 26 0 0 05 Apr 2025
Multi-Token Attention O. Yu. Golovneva Tianlu Wang Jason Weston Sainbayar Sukhbaatar 42 1 0 01 Apr 2025
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal Vaibhav Aggarwal Ojasv Kamal Abhinav Japesh Zhijing Jin Bernhard Schölkopf 50 1 0 18 Mar 2025
AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation Yixiong Fang Tianran Sun Yuling Shi Xiaodong Gu 45 0 0 13 Mar 2025
Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval Yuwei Zhang Jayanth Srinivasa Gaowen Liu Jingbo Shang LRM LLMAG RALM 78 1 0 12 Mar 2025
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models Yuchen Yan Yongliang Shen Y. Liu Jin Jiang M. Zhang Jian Shao Yueting Zhuang LRM ReLM 53 3 0 09 Mar 2025
TIMER: Temporal Instruction Modeling and Evaluation for Longitudinal Clinical Records Hejie Cui Alyssa Unell Bowen Chen Jason Alan Fries Emily Alsentzer Sanmi Koyejo N. Shah 72 0 0 06 Mar 2025
Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision Dawei Zhu Xiyu Wei Guangxiang Zhao Wenhao Wu Haosheng Zou Junfeng Ran Xun Wang Lin Sun Xiangzheng Zhang Sujian Li LRM 54 0 0 28 Feb 2025
DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities Tianyi Zhuang Chuqiao Kuang Xiaoguang Li Yihua Teng Jihao Wu Y. Wang Lifeng Shang RALM ELM LRM 60 0 0 25 Feb 2025
LongAttn: Selecting Long-context Training Data via Token-level Attention Longyun Wu Dawei Zhu Guangxiang Zhao Zhuocheng Yu Junfeng Ran Xiangyu Wong Lin Sun Sujian Li 31 0 0 24 Feb 2025
Logic Haystacks: Probing LLMs Long-Context Logical Reasoning (Without Easily Identifiable Unrelated Padding) Damien Sileo RALM LRM 31 0 0 24 Feb 2025
Minions: Cost-efficient Collaboration Between On-device and Cloud Language Models A. Narayan D. Biderman Sabri Eyuboglu Avner May Scott W. Linderman James Zou Christopher Ré 46 0 0 21 Feb 2025
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use Zaid Khan Ali Farhadi Ranjay Krishna Luca Weihs Mohit Bansal Tanmay Gupta 42 0 0 21 Feb 2025
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers Anton Razzhigaev Matvey Mikhalchuk Temurbek Rahmatullaev Elizaveta Goncharova Polina Druzhinina Ivan V. Oseledets Andrey Kuznetsov 55 1 0 20 Feb 2025
Jailbreaking to Jailbreak Jeremy Kritz Vaughn Robinson Robert Vacareanu Bijan Varjavand Michael Choi Bobby Gogov Scale Red Team Summer Yue Willow Primack Zifan Wang 100 0 0 09 Feb 2025
LM2: Large Memory Models Jikun Kang Wenqi Wu Filippos Christianos Alex J. Chan Fraser Greenlee George Thomas Marvin Purtorab Andy Toulis KELM 84 0 0 09 Feb 2025
GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? Yang Zhou Hongyi Liu Zhuoming Chen Yuandong Tian Beidi Chen LRM 52 7 0 07 Feb 2025
Episodic Memories Generation and Evaluation Benchmark for Large Language Models Alexis Huet Zied Ben-Houidi Dario Rossi LLMAG 50 0 0 21 Jan 2025
Investigating Factuality in Long-Form Text Generation: The Roles of Self-Known and Self-Unknown Lifu Tu Rui Meng Shafiq R. Joty Yingbo Zhou Semih Yavuz HILM 65 0 0 24 Nov 2024
Not All Heads Matter: A Head-Level KV Cache Compression Method with Integrated Retrieval and Reasoning Yu Fu Zefan Cai Abedelkadir Asi Wayne Xiong Yue Dong Wen Xiao 30 14 0 25 Oct 2024
Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data Seiji Maekawa Hayate Iso Nikita Bhutani RALM 79 1 0 15 Oct 2024
Enhancing Long Context Performance in LLMs Through Inner Loop Query Mechanism Yimin Tang Yurong Xu Ning Yan Masood S. Mortazavi RALM LRM 21 0 0 11 Oct 2024
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization Zhuoqun Li Xuanang Chen Haiyang Yu Hongyu Lin Y. Lu Qiaoyu Tang Fei Huang Xianpei Han Le Sun Yongbin Li 21 10 0 11 Oct 2024
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs Lei Wang Shan Dong Yuhui Xu Hanze Dong Yalu Wang Amrita Saha Ee-Peng Lim Caiming Xiong Doyen Sahoo LRM 31 1 0 07 Oct 2024
Accelerating Inference of Networks in the Frequency Domain Chenqiu Zhao Guanfang Dong Anup Basu 33 10 0 06 Oct 2024
ALR $^2$ : A Retrieve-then-Reason Framework for Long-context Question Answering Huayang Li Pat Verga Priyanka Sen Bowen Yang Vijay Viswanathan Patrick Lewis Taro Watanabe Yixuan Su RALM LRM 35 0 0 04 Oct 2024
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding? Zecheng Tang Keyan Zhou Juntao Li Baibei Ji Jianye Hou Min Zhang 31 1 0 03 Oct 2024
A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts Suyu Ge Xihui Lin Yunan Zhang Jiawei Han Hao Peng 31 4 0 02 Oct 2024
Retrieval Or Holistic Understanding? Dolce: Differentiate Our Long Context Evaluation Tasks Zi Yang 25 0 0 10 Sep 2024
Long Input Benchmark for Russian Analysis I. Churin Murat Apishev Maria Tikhonova Denis Shevelev Aydar Bulatov Yuri Kuratov Sergej Averkiev Alena Fenogenova 33 0 0 05 Aug 2024
Introducing a new hyper-parameter for RAG: Context Window Utilization Kush Juvekar A. Purwar 34 3 0 29 Jul 2024
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation Damien Sileo LRM RALM 26 0 0 18 Jul 2024
On the Benchmarking of LLMs for Open-Domain Dialogue Evaluation John Mendonça A. Lavie Isabel Trancoso ELM 35 1 0 04 Jul 2024
DeciMamba: Exploring the Length Extrapolation Potential of Mamba Assaf Ben-Kish Itamar Zimerman Shady Abu Hussein Nadav Cohen Amir Globerson Lior Wolf Raja Giryes Mamba 56 12 0 20 Jun 2024
CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling Yu Bai Xiyuan Zou Heyan Huang Sanxing Chen Marc-Antoine Rondeau Yang Gao Jackie Chi Kit Cheung 21 3 0 17 Jun 2024
QuickLLaMA: Query-aware Inference Acceleration for Large Language Models Jingyao Li Han Shi Xin Jiang Zhenguo Li Hong Xu Jiaya Jia LRM 25 2 0 11 Jun 2024
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks Chonghua Wang Haodong Duan Songyang Zhang Dahua Lin Kai-xiang Chen ELM 24 16 0 09 Apr 2024
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens Cunxiang Wang Ruoxi Ning Boqi Pan Tonghui Wu Qipeng Guo ... Guangsheng Bao Xiangkun Hu Zheng Zhang Qian Wang Yue Zhang RALM 58 3 0 18 Mar 2024
Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing Mechanisms in Sequence Learning Aniket Didolkar Kshitij Gupta Anirudh Goyal Nitesh B. Gundavarapu Alex Lamb Nan Rosemary Ke Yoshua Bengio AI4CE 99 17 0 30 May 2022
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 246 1,982 0 28 Jul 2020