CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge

2 November 2018

Papers citing "CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge"

50 / 409 papers shown

Title
Mitigating Selection Bias with Node Pruning and Auxiliary Options Hyeong Kyu Choi Weijie Xu Chi Xue Stephanie Eckman Chandan K. Reddy 42 1 0 27 Sep 2024
Small Language Models: Survey, Measurements, and Insights Zhenyan Lu Xiang Li Dongqi Cai Rongjie Yi Fangming Liu Xiwen Zhang Nicholas D. Lane Mengwei Xu ObjD LRM 64 38 0 24 Sep 2024
Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination Eva Sánchez Salido Roser Morante Julio Gonzalo Guillermo Marco Jorge Carrillo-de-Albornoz ... Enrique Amigó Andrés Fernández Alejandro Benito-Santos Adrián Ghajari Espinosa Victor Fresno ELM 51 0 0 19 Sep 2024
Efficient Knowledge Distillation: Empowering Small Language Models with Teacher Model Insights Mohamad Ballout U. Krumnack Gunther Heidemann Kai-Uwe Kühnberger 37 2 0 19 Sep 2024
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning Zayne Sprague Fangcong Yin Juan Diego Rodriguez Dongwei Jiang Manya Wadhwa Prasann Singhal Xinyu Zhao Xi Ye Kyle Mahowald Greg Durrett ReLM LRM 125 90 0 18 Sep 2024
Flash STU: Fast Spectral Transform Units Y. Isabel Liu Windsor Nguyen Yagiz Devre Evan Dogariu Anirudha Majumdar Elad Hazan AI4TS 72 1 0 16 Sep 2024
Self-Harmonized Chain of Thought Ziqi Jin Wei Lu LRM 27 2 0 06 Sep 2024
Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning Xinglin Wang Shaoxiong Feng Yiwei Li Peiwen Yuan Y. Zhang Boyuan Pan Heda Wang Yao Hu Kan Li LRM 45 19 0 24 Aug 2024
Personality Alignment of Large Language Models Minjun Zhu Linyi Yang Yue Zhang Yue Zhang ALM 67 6 0 21 Aug 2024
CogLM: Tracking Cognitive Development of Large Language Models Xinglin Wang Peiwen Yuan Shaoxiong Feng Yiwei Li Boyuan Pan Heda Wang Yao Hu Kan Li ELM 67 0 0 17 Aug 2024
Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions Chenming Tang Zhixiang Wang Hao Sun Yunfang Wu LRM 34 0 0 16 Aug 2024
NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models Pranshu Pandya Agney S Talwarr Vatsal Gupta Tushar Kataria Dan Roth Vivek Gupta LRM 67 2 0 15 Jul 2024
Prompting Techniques for Secure Code Generation: A Systematic Investigation Catherine Tony Nicolás E. Díaz Ferreyra Markus Mutas Salem Dhiff Riccardo Scandariato SILM 82 9 0 09 Jul 2024
Retrieved In-Context Principles from Previous Mistakes Hao Sun Yong-jia Jiang Bo Wang Yingyan Hou Yan Zhang Pengjun Xie Fei Huang 63 1 0 08 Jul 2024
Progress or Regress? Self-Improvement Reversal in Post-training Ting Wu Xuefeng Li Pengfei Liu LRM 33 11 0 06 Jul 2024
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models Song Wang Peng Wang Tong Zhou Yushun Dong Zhen Tan Jundong Li CoGe 63 7 0 02 Jul 2024
RegMix: Data Mixture as Regression for Language Model Pre-training Qian Liu Xiaosen Zheng Niklas Muennighoff Guangtao Zeng Longxu Dou Tianyu Pang Jing Jiang Min Lin MoE 74 41 1 01 Jul 2024
CPT: Consistent Proxy Tuning for Black-box Optimization Yuanyang He Zitong Huang Xinxing Xu Rick Siow Mong Goh Salman Khan W. Zuo Yong Liu Chun-Mei Feng 48 0 0 01 Jul 2024
VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation Kun Qian Shunji Wan Claudia Tang Youzhi Wang Xuanming Zhang Maximillian Chen Zhou Yu AAML 52 8 0 25 Jun 2024
Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs Yi Fang Moxin Li Wenjie Wang Hui Lin Fuli Feng LRM 65 6 0 17 Jun 2024
Demonstration Notebook: Finding the Most Suited In-Context Learning Example from Interactions Yiming Tang Bin Dong 38 0 0 16 Jun 2024
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning Zhen Xiang Linzhi Zheng Yanjie Li Junyuan Hong Qinbin Li ... Zidi Xiong Chulin Xie Carl Yang Dawn Song Bo Li LLMAG 47 24 0 13 Jun 2024
OLMES: A Standard for Language Model Evaluations Yuling Gu Oyvind Tafjord Bailey Kuehl Dany Haddad Jesse Dodge Hannaneh Hajishirzi ELM 45 14 0 12 Jun 2024
Paraphrasing in Affirmative Terms Improves Negation Understanding MohammadHossein Rezaei Eduardo Blanco 44 1 0 11 Jun 2024
AI Sandbagging: Language Models can Strategically Underperform on Evaluations Teun van der Weij Felix Hofstätter Ollie Jaffe Samuel F. Brown Francis Rhys Ward ELM 52 22 0 11 Jun 2024
Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching Xiaoying Zhang Baolin Peng Ye Tian Jingyan Zhou Yipeng Zhang Haitao Mi Helen Meng CLL KELM 81 5 0 10 Jun 2024
Benchmark Data Contamination of Large Language Models: A Survey Cheng Xu Shuhao Guan Derek Greene Mohand-Tahar Kechadi ELM ALM 40 41 0 06 Jun 2024
Every Answer Matters: Evaluating Commonsense with Probabilistic Measures Qi Cheng Michael Boratko Pranay Kumar Yelugam T. O’Gorman Nalini Singh Andrew McCallum X. Li ELM LRM 42 3 0 06 Jun 2024
Cycles of Thought: Measuring LLM Confidence through Stable Explanations Evan Becker Stefano Soatto 63 6 0 05 Jun 2024
Break the Chain: Large Language Models Can be Shortcut Reasoners Mengru Ding Hanmeng Liu Zhizhang Fu Jian Song Wenbo Xie Yue Zhang KELM LRM 41 7 0 04 Jun 2024
ACCORD: Closing the Commonsense Measurability Gap François Roewer-Després Jinyue Feng Zining Zhu Frank Rudzicz LRM 50 0 0 04 Jun 2024
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models Yutao Zhu Zhaoheng Huang Zhicheng Dou Ji-Rong Wen RALM 56 5 0 30 May 2024
GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment Yao Yao Z. Li Hai Zhao 34 5 0 30 May 2024
LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design Rui Kong Qiyang Li Xinyu Fang Qingtian Feng Qingfeng He Yazhu Dong Weijun Wang Yuanchun Li Linghe Kong Yunxin Liu MoE 47 4 0 28 May 2024
Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models Cong Lu Shengran Hu Jeff Clune LLMAG 52 10 0 24 May 2024
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research Jiajie Jin Yutao Zhu Xinyu Yang Chenghao Zhang Zhicheng Dou Chenghao Zhang Tong Zhao Zhao Yang Zhicheng Dou Ji-Rong Wen VLM 85 54 0 22 May 2024
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models Zhangyue Yin Qiushi Sun Qipeng Guo Zhiyuan Zeng Xiaonan Li ... Qinyuan Cheng Ding Wang Xiaofeng Mou Xipeng Qiu XuanJing Huang LRM 51 4 0 21 May 2024
Quantifying In-Context Reasoning Effects and Memorization Effects in LLMs Siyu Lou Yuntian Chen Xiaodan Liang Liang Lin Quanshi Zhang 50 2 0 20 May 2024
DaVinci at SemEval-2024 Task 9: Few-shot prompting GPT-3.5 for Unconventional Reasoning Suyash Vardhan Mathur Akshett Rai Jindal Manish Shrivastava LRM 44 1 0 19 May 2024
Chain of Thoughtlessness? An Analysis of CoT in Planning Kaya Stechly Karthik Valmeekam Subbarao Kambhampati LRM LM&Ro 75 43 0 08 May 2024
Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning Qizhou Chen Taolin Zhang Xiaofeng He Dongyang Li Chengyu Wang Longtao Huang Hui Xue CLL KELM 53 10 0 06 May 2024
General Purpose Verification for Chain of Thought Prompting Robert Vacareanu Anurag Pratik Evangelia Spiliopoulou Zheng Qi Giovanni Paolini Neha Ann John Jie Ma Yassine Benajiba Miguel Ballesteros LRM 37 8 0 30 Apr 2024
Small Language Models Need Strong Verifiers to Self-Correct Reasoning Yunxiang Zhang Muhammad Khalifa Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LRM KELM ReLM 36 31 0 26 Apr 2024
Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks Melissa Ailem Katerina Marazopoulou Charlotte Siska James Bono 64 15 0 25 Apr 2024
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models Mihir Parmar Nisarg Patel Neeraj Varshney Mutsumi Nakamura Man Luo Santosh Mashetty Arindam Mitra Chitta Baral LRM ReLM ELM 43 25 0 23 Apr 2024
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems Qihuang Zhong Kang Wang Ziyang Xu Juhua Liu Liang Ding Bo Du LRM AIMat 63 3 0 23 Apr 2024
SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense Yifan Jiang Filip Ilievski Kaixin Ma LRM 48 30 0 22 Apr 2024
Towards smaller, faster decoder-only transformers: Architectural variants and their implications Sathya Krishnan Suresh P. Shunmugapriya 26 0 0 22 Apr 2024
Learn Your Reference Model for Real Good Alignment Alexey Gorbatovski Boris Shaposhnikov Alexey Malakhov Nikita Surnachev Yaroslav Aksenov Ian Maksimov Nikita Balagansky Daniil Gavrilov OffRL 61 28 0 15 Apr 2024
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking Xiao Chen Sihang Zhou K. Liang Xinwang Liu ReLM LRM 42 4 0 14 Apr 2024