CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge

2 November 2018

Papers citing "CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge"

50 / 409 papers shown

Title
DEBATE, TRAIN, EVOLVE: Self Evolution of Language Model Reasoning Gaurav Srivastava Zhenyu Bi Meng Lu Xuan Wang LLMAG LRM 14 0 0 21 May 2025
The Energy Cost of Reasoning: Analyzing Energy Usage in LLMs with Test-time Compute Yunho Jin Gu-Yeon Wei David Brooks LRM 11 0 0 20 May 2025
SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas Anjiang Wei Yuheng Wu Yingjia Wan Tarun Suresh Huanmi Tan Zhanke Zhou Sanmi Koyejo Ke Wang Alex Aiken ReLM LRM 21 0 0 20 May 2025
CoT-Kinetics: A Theoretical Modeling Assessing LRM Reasoning Process Jinhe Bi Danqi Yan Yifan Wang Wenke Huang Haokun Chen ... Mang Ye Xun Xiao Hinrich Schuetze Volker Tresp Yunpu Ma LRM 29 0 0 19 May 2025
On the Thinking-Language Modeling Gap in Large Language Models Chenxi Liu Yongqiang Chen Tongliang Liu James Cheng Bo Han Kun Zhang LRM AI4CE 11 0 0 19 May 2025
Ranked Voting based Self-Consistency of Large Language Models Weiqin Wang Yile Wang Hui Huang LRM 22 0 0 16 May 2025
Empirically evaluating commonsense intelligence in large language models with large-scale human judgments Tuan Dung Nguyen Duncan J. Watts Mark E. Whiting ELM 36 0 0 15 May 2025
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think Seongyun Lee Seungone Kim Minju Seo Yongrae Jo Dongyoung Go ... Xiang Yue Sean Welleck Graham Neubig Moontae Lee Minjoon Seo LRM 33 0 0 15 May 2025
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection Kai Hua Steven Wu Ge Zhang Ke Shen LRM 33 0 0 12 May 2025
Uncertainty Profiles for LLMs: Uncertainty Source Decomposition and Adaptive Model-Metric Selection Pei-Fu Guo Yun-Da Tsai Shou-De Lin UD 53 0 0 12 May 2025
Crosslingual Reasoning through Test-Time Scaling Zheng-Xin Yong Muhammad Farid Adilazuarda Jonibek Mansurov Ruochen Zhang Niklas Muennighoff Carsten Eickhoff Genta Indra Winata Julia Kreutzer Stephen H. Bach Alham Fikri Aji LRM ELM 244 4 0 08 May 2025
BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models Ziyi Wang Hongwei Li Rui Zhang Wenbo Jiang Kangjie Chen Tianwei Zhang Qingchuan Zhao Guowen Xu AAML 46 0 0 06 May 2025
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning Tianjian Li Daniel Khashabi 60 0 0 05 May 2025
Measuring Hong Kong Massive Multi-Task Language Understanding Chuxue Cao Zhenghao Zhu Junqi Zhu Guoying Lu Siyu Peng Juntao Dai Weijie Shi Sirui Han Yike Guo ELM 255 0 0 04 May 2025
Emotions in the Loop: A Survey of Affective Computing for Emotional Support Karishma Hegde Hemadri Jayalath 32 1 0 02 May 2025
FineScope : Precision Pruning for Domain-Specialized Large Language Models Using SAE-Guided Self-Data Cultivation Chaitali Bhattacharyya Yeseong Kim 50 0 0 01 May 2025
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions Yiming Du Wenyu Huang Danna Zheng Zhaowei Wang Sébastien Montella Mirella Lapata Kam-Fai Wong Jeff Z. Pan KELM MU 90 2 0 01 May 2025
Bi-directional Model Cascading with Proxy Confidence David Warren Mark Dras 51 0 0 27 Apr 2025
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors Ren-Wei Liang Chin-Ting Hsu Chan-Hung Yu Saransh Agrawal Shih-Cheng Huang Shang-Tse Chen Kuan-Hao Huang Shao-Hua Sun 83 0 0 27 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Tianwei Zhang ALM ELM 104 2 0 26 Apr 2025
Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability Daniel Hendriks Philipp Spitzer Niklas Kühl G. Satzger 29 2 0 22 Apr 2025
Efficient Pretraining Length Scaling Bohong Wu Shen Yan Sijun Zhang Jianqiao Lu Yutao Zeng Ya Wang Xun Zhou 236 0 0 21 Apr 2025
CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models Feiyang Li Peng Fang Zhan Shi Arijit Khan Fang Wang Dan Feng Weihao Wang Xin Zhang Yongjian Cui ReLM LRM 51 1 0 18 Apr 2025
FLIP Reasoning Challenge Andreas Plesner Turlan Kuzhagaliyev Roger Wattenhofer AAML VLM LRM 88 0 0 16 Apr 2025
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models Wenyuan Zhang Shuaiyi Nie Xinghua Zhang Zefeng Zhang Tingwen Liu ELM LRM 54 2 0 14 Apr 2025
RAISE: Reinforenced Adaptive Instruction Selection For Large Language Models Lv Qingsong Yangning Li Zihua Lan Zishan Xu Jiwei Tang Hai-Tao Zheng Wenhao Jiang Wanshi Xu Philip S. Yu 35 1 0 09 Apr 2025
Entropy-Based Block Pruning for Efficient Large Language Models Liangwei Yang Yuhui Xu Juntao Tan Doyen Sahoo Shri Kiran Srinivasan Caiming Xiong Han Wang Shelby Heinecke AAML 30 0 0 04 Apr 2025
Mixture of Routers Jia-Chen Zhang Yu-Jie Xiong Xi-He Qiu Chun-Ming Xia Fei Dai MoE 81 0 0 30 Mar 2025
SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning Tianyang Xu Xiaoze Liu Feijie Wu Xiaoqian Wang Jing Gao MU 66 0 0 29 Mar 2025
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models Zhanke Zhou Zhaocheng Zhu Xuan Li Mikhail Galkin Xiao Feng Sanmi Koyejo Jian Tang Bo Han LRM 66 0 0 28 Mar 2025
SkyLadder: Better and Faster Pretraining via Context Window Scheduling Tongyao Zhu Qian Liu Haonan Wang Shiqi Chen Xiangming Gu Tianyu Pang Min-Yen Kan 49 0 0 19 Mar 2025
SuperBPE: Space Travel for Language Models Alisa Liu J. Hayase Valentin Hofmann Sewoong Oh Noah A. Smith Yejin Choi 53 3 0 17 Mar 2025
Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques Neusha Javidnia B. Rouhani F. Koushanfar 253 0 0 14 Mar 2025
"Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection Decoding Hyunbin Jin Je Won Yeom Seunghyun Bae Taesup Kim LRM ReLM 45 1 0 13 Mar 2025
MetaXCR: Reinforcement-Based Meta-Transfer Learning for Cross-Lingual Commonsense Reasoning Jie He Yu Fu OffRL LRM 85 2 0 09 Mar 2025
MastermindEval: A Simple But Scalable Reasoning Benchmark Jonas Golde Patrick Haller Fabio Barth Alan Akbik LRM ReLM ELM 63 2 0 07 Mar 2025
Development and Enhancement of Text-to-Image Diffusion Models Rajdeep Roshan Sahu VLM 74 0 0 07 Mar 2025
Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models Jie He Bo Peng Yi-Lun Liao Qun Liu Deyi Xiong 73 8 0 06 Mar 2025
HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization Zhijian Zhuo Yutao Zeng Ya Wang Sijun Zhang Jian Yang Xiaoqing Li Xun Zhou Jinwen Ma 51 0 0 06 Mar 2025
The Box is in the Pen: Evaluating Commonsense Reasoning in Neural Machine Translation Jie He Tao Wang Deyi Xiong Qun Liu ELM LRM 82 27 0 05 Mar 2025
CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation Zhenyi Shen Hanqi Yan Linhai Zhang Zhanghao Hu Yali Du Yulan He LRM 77 12 0 28 Feb 2025
Triple Phase Transitions: Understanding the Learning Dynamics of Large Language Models from a Neuroscience Perspective Yuko Nakagi Keigo Tada Sota Yoshino Shinji Nishimoto Yu Takagi LRM 47 0 0 28 Feb 2025
A Pilot Empirical Study on When and How to Use Knowledge Graphs as Retrieval Augmented Generation Xujie Yuan Yongxu Liu Shimin Di Shiwen Wu Libin Zheng Rui Meng Lei Chen Xiaofang Zhou Jian Yin 41 0 0 28 Feb 2025
Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff Maximilian Holsman Yukun Huang Bhuwan Dhingra 51 0 0 28 Feb 2025
BIG-Bench Extra Hard Mehran Kazemi Bahare Fatemi Hritik Bansal John Palowitch Chrysovalantis Anastasiou ... Kate Olszewska Yi Tay Vinh Q. Tran Quoc V. Le Orhan Firat ELM LRM 122 8 0 26 Feb 2025
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? Yancheng He Shilong Li Jing Liu Weixun Wang Xingyuan Bu ... Zhongyuan Peng Zhenru Zhang Zhicheng Zheng Wenbo Su Bo Zheng ELM LRM 86 9 0 26 Feb 2025
Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning Xinghao Chen Zhijing Sun Wenjin Guo Miaoran Zhang Yanjun Chen ... Hui Su Yijie Pan Dietrich Klakow Wenjie Li Xiaoyu Shen LRM 56 5 0 25 Feb 2025
SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models Yuxuan Zhang CLL ALM 75 1 0 25 Feb 2025
Reversal Blessing: Thinking Backward May Outpace Thinking Forward in Multi-choice Questions Yizhe Zhang Richard He Bai Zijin Gu Ruixiang Zhang Jiatao Gu Emmanuel Abbe Samy Bengio Navdeep Jaitly LRM BDL 72 1 0 25 Feb 2025
Unsupervised Topic Models are Data Mixers for Pre-training Language Models Jiahui Peng Xinlin Zhuang Qiu Jiantao Ren Ma Jing Yu Tianyi Bai Zeang Sheng 41 2 0 24 Feb 2025