Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment

Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment

31 July 2024

Papers citing "Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment"

8 / 8 papers shown

Title
Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism Aviv Bick Eric P. Xing Albert Gu RALM 51 49 0 22 Apr 2025
Quantifying Logical Consistency in Transformers via Query-Key Alignment Eduard Tulchinskii Anastasia Voznyuk Laida Kushnareva Andrei Andriiainen Irina Piontkovskaya Evgeny Burnaev Serguei Barannikov LRM 35 0 0 24 Feb 2025
Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QA Eduard Tulchinskii Laida Kushnareva Kristian Kuznetsov Anastasia Voznyuk Andrei Andriiainen Irina Piontkovskaya Evgeny Burnaev Serguei Barannikov 18 1 0 03 Oct 2024
Attention Heads of Large Language Models: A Survey Zifan Zheng Yezhaohui Wang Yuxin Huang Shichao Song Mingchuan Yang Bo Tang Feiyu Xiong Zhiyu Li LRM 14 1 0 05 Sep 2024
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 262 2,712 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 247 2,029 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 265 8,441 0 04 Mar 2022
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies Mor Geva Daniel Khashabi Elad Segal Tushar Khot Dan Roth Jonathan Berant RALM 229 460 0 06 Jan 2021