Title
Evaluating LLMs at Detecting Errors in LLM Responses Ryo Kamoi Sarkar Snigdha Sarathi Das Renze Lou Jihyun Janice Ahn Yilun Zhao ... Salika Dave Shaobo Qin Arman Cohan Wenpeng Yin Rui Zhang 42 19 0 04 Apr 2024
Risks from Language Models for Automated Mental Healthcare: Ethics and Structure for Implementation D. Grabb Max Lamparth N. Vasan 27 14 0 02 Apr 2024
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens Cunxiang Wang Ruoxi Ning Boqi Pan Tonghui Wu Qipeng Guo ... Guangsheng Bao Xiangkun Hu Zheng Zhang Qian Wang Yue Zhang RALM 63 3 0 18 Mar 2024
Training-Free Long-Context Scaling of Large Language Models Chen An Fei Huang Jun Zhang Shansan Gong Xipeng Qiu Chang Zhou Lingpeng Kong ALM LRM 27 33 0 27 Feb 2024
Long Dialog Summarization: An Analysis Ankan Mullick Ayan Kumar Bhowmick R. Raghav Ravi Kokku Prasenjit Dey Pawan Goyal Niloy Ganguly 19 1 0 26 Feb 2024
Long-Context Language Modeling with Parallel Context Encoding Howard Yen Tianyu Gao Danqi Chen 23 42 0 26 Feb 2024
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts Kuang-Huei Lee Xinyun Chen Hiroki Furuta John F. Canny Ian S. Fischer RALM 47 29 0 15 Feb 2024
Early Time Classification with Accumulated Accuracy Gap Control Liran Ringel Regev Cohen Daniel Freedman Michael Elad Yaniv Romano 8 6 0 01 Feb 2024
Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation Zhenyu He Guhao Feng Shengjie Luo Kai-Bo Yang Liwei Wang Jingjing Xu Zhi Zhang Hongxia Yang Di He 9 13 0 29 Jan 2024
Retrieval-Augmented Generation for Large Language Models: A Survey Yunfan Gao Yun Xiong Xinyu Gao Kangxiang Jia Jinliu Pan Yuxi Bi Yi Dai Jiawei Sun Meng Wang Haofen Wang 3DV RALM 50 1,418 1 18 Dec 2023
Playing Large Games with Oracles and AI Debate Xinyi Chen Angelica Chen Dean Foster Elad Hazan 25 3 0 08 Dec 2023
Hashmarks: Privacy-Preserving Benchmarks for High-Stakes AI Evaluation P. Bricman 11 0 0 01 Dec 2023
ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up? Hailin Chen Fangkai Jiao Xingxuan Li Chengwei Qin Mathieu Ravaut Ruochen Zhao Caiming Xiong Shafiq R. Joty ELM CLL AI4MH LRM ALM 77 27 0 28 Nov 2023
GPQA: A Graduate-Level Google-Proof Q&A Benchmark David Rein Betty Li Hou Asa Cooper Stickland Jackson Petty Richard Yuanzhe Pang Julien Dirani Julian Michael Samuel R. Bowman AI4MH ELM 16 433 0 20 Nov 2023
AutoMix: Automatically Mixing Language Models Pranjal Aggarwal Aman Madaan Ankit Anand Srividya Pranavi Potharaju Swaroop Mishra ... Karthik Kappaganthu Yiming Yang Shyam Upadhyay Manaal Faruqui Mausam 40 17 0 19 Oct 2023
Training Generative Question-Answering on Synthetic Data Obtained from an Instruct-tuned Model Kosuke Takahashi Takahiro Omi Kosuke Arima Tatsuya Ishigaki 18 0 0 12 Oct 2023
Scaling Laws of RoPE-based Extrapolation Xiaoran Liu Hang Yan Shuo Zhang Chen An Xipeng Qiu Dahua Lin 17 80 0 08 Oct 2023
Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading Howard Chen Ramakanth Pasunuru Jason Weston Asli Celikyilmaz RALM 68 72 0 08 Oct 2023
Retrieval meets Long Context Large Language Models Peng-Tao Xu Wei Ping Xianchao Wu Lawrence C. McAfee Chen Zhu Zihan Liu Sandeep Subramanian Evelina Bakhturina M. Shoeybi Bryan Catanzaro RALM LRM 9 79 0 04 Oct 2023
Effective Long-Context Scaling of Foundation Models Wenhan Xiong Jingyu Liu Igor Molybog Hejia Zhang Prajjwal Bhargava ... Dániel Baráth Sergey Edunov Mike Lewis Sinong Wang Hao Ma 21 202 0 27 Sep 2023
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models Zican Dong Tianyi Tang Junyi Li Wayne Xin Zhao Ji-Rong Wen RALM ALM 12 34 0 23 Sep 2023
Investigating Answerability of LLMs for Long-Form Question Answering Meghana Moorthy Bhat Rui Meng Ye Liu Yingbo Zhou Semih Yavuz 11 9 0 15 Sep 2023
Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers Jiawen Xie Pengyu Cheng Xiao Liang Yong Dai Nan Du 32 2 0 25 Aug 2023
L-Eval: Instituting Standardized Evaluation for Long Context Language Models Chen An Shansan Gong Ming Zhong Xingjian Zhao Mukai Li Jun Zhang Lingpeng Kong Xipeng Qiu ELM ALM 30 132 0 20 Jul 2023
When to Use Efficient Self Attention? Profiling Text, Speech and Image Transformer Variants Anuj Diwan Eunsol Choi David F. Harwath 21 0 0 14 Jun 2023
Long Text Generation Challenge N. Mikhaylovskiy ALM 14 0 0 04 Jun 2023
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents Simeng Sun Y. Liu Shuohang Wang Chenguang Zhu Mohit Iyyer RALM LRM ReLM 20 51 0 23 May 2023
ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding Uri Shaham Maor Ivgi Avia Efrat Jonathan Berant Omer Levy VLM 16 125 0 23 May 2023
NarrativeXL: A Large-scale Dataset For Long-Term Memory Models A. Moskvichev Ky-Vinh Mai RALM 6 1 0 23 May 2023
A Memory Model for Question Answering from Streaming Data Supported by Rehearsal and Anticipation of Coreference Information Vladimir Araujo Alvaro Soto Marie-Francine Moens KELM 20 2 0 12 May 2023
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens Zhanpeng Zeng Cole Hawkins Min-Fong Hong Aston Zhang Nikolaos Pappas Vikas Singh Shuai Zheng 11 6 0 07 May 2023
Scaling Transformer to 1M tokens and beyond with RMT Aydar Bulatov Yuri Kuratov Yermek Kapushev Mikhail Burtsev LRM 11 86 0 19 Apr 2023
CoLT5: Faster Long-Range Transformers with Conditional Computation Joshua Ainslie Tao Lei Michiel de Jong Santiago Ontañón Siddhartha Brahma ... Mandy Guo James Lee-Thorp Yi Tay Yun-hsuan Sung Sumit Sanghai LLMAG 26 62 0 17 Mar 2023
MQAG: Multiple-choice Question Answering and Generation for Assessing Information Consistency in Summarization Potsawee Manakul Adian Liusie Mark J. F. Gales HILM 11 35 0 28 Jan 2023
World Knowledge in Multiple Choice Reading Comprehension Adian Liusie Vatsal Raina Mark J. F. Gales 14 7 0 13 Nov 2022
What is Wrong with Language Models that Can Not Tell a Story? Ivan P. Yamshchikov Alexey Tikhonov 17 6 0 09 Nov 2022
Measuring Progress on Scalable Oversight for Large Language Models Sam Bowman Jeeyoon Hyun Ethan Perez Edwin Chen Craig Pettit ... Tristan Hume Yuntao Bai Zac Hatfield-Dodds Benjamin Mann Jared Kaplan ALM ELM 13 71 0 04 Nov 2022
LittleBird: Efficient Faster & Longer Transformer for Question Answering Minchul Lee Kijong Han M. Shin VLM 10 5 0 21 Oct 2022
Two-Turn Debate Doesn't Help Humans Answer Hard Reading Comprehension Questions Alicia Parrish H. Trivedi Nikita Nangia Vishakh Padmakumar Jason Phang Amanpreet Singh Saimbhi Sam Bowman 11 11 0 19 Oct 2022
An Exploration of Hierarchical Attention Transformers for Efficient Long Document Classification Ilias Chalkidis Xiang Dai Manos Fergadiotis Prodromos Malakasiotis Desmond Elliott 30 33 0 11 Oct 2022
Adapting Pretrained Text-to-Text Models for Long Text Sequences Wenhan Xiong Anchit Gupta Shubham Toshniwal Yashar Mehdad Wen-tau Yih RALM VLM 49 30 0 21 Sep 2022
Efficient Long-Text Understanding with Short-Text Models Maor Ivgi Uri Shaham Jonathan Berant VLM 11 75 0 01 Aug 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 23 708 0 11 Jul 2022
SQuALITY: Building a Long-Document Summarization Dataset the Hard Way Alex Jinpeng Wang Richard Yuanzhe Pang Angelica Chen Jason Phang Samuel R. Bowman 72 44 0 23 May 2022
UL2: Unifying Language Learning Paradigms Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason W. Wei ... Tal Schuster H. Zheng Denny Zhou N. Houlsby Donald Metzler AI4CE 25 292 0 10 May 2022
ChapterBreak: A Challenge Dataset for Long-Range Language Models Simeng Sun Katherine Thai Mohit Iyyer 8 19 0 22 Apr 2022
Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehension Questions Alicia Parrish H. Trivedi Ethan Perez Angelica Chen Nikita Nangia Jason Phang Sam Bowman 6 14 0 11 Apr 2022
TRUE: Re-evaluating Factual Consistency Evaluation Or Honovich Roee Aharoni Jonathan Herzig Hagai Taitelbaum Doron Kukliansy Vered Cohen Thomas Scialom Idan Szpektor Avinatan Hassidim Yossi Matias HILM 21 3 0 11 Apr 2022
Token Dropping for Efficient BERT Pretraining Le Hou Richard Yuanzhe Pang Tianyi Zhou Yuexin Wu Xinying Song Xiaodan Song Denny Zhou 14 42 0 24 Mar 2022
Teaching language models to support answers with verified quotes Jacob Menick Maja Trebacz Vladimir Mikulik John Aslanides Francis Song ... Mia Glaese Susannah Young Lucy Campbell-Gillingham G. Irving Nat McAleese ELM RALM 220 255 0 21 Mar 2022