TheoremQA: A Theorem-driven Question Answering dataset

21 May 2023

Ming Yin

Papers citing "TheoremQA: A Theorem-driven Question Answering dataset"

41 / 91 papers shown

Title
MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems Bin Lei LLMAG AI4CE 25 11 0 06 Apr 2024
Advancing LLM Reasoning Generalists with Preference Trees Lifan Yuan Ganqu Cui Hanbin Wang Ning Ding Xingyao Wang ... Zhenghao Liu Bowen Zhou Hao Peng Zhiyuan Liu Maosong Sun LRM 27 94 0 02 Apr 2024
The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis Chen Yang Junzhuo Li Xinyao Niu Xinrun Du Songyang Gao ... Stephen W. Huang Shawn Yue Wenhu Chen Jie Fu Ge Zhang 29 2 0 01 Apr 2024
Large Language Models for Education: A Survey and Outlook Shen Wang Tianlong Xu Hang Li Chaoli Zhang Joleen Liang Jiliang Tang Philip S. Yu Qingsong Wen AI4Ed 28 84 0 26 Mar 2024
A Multimodal Foundation Agent for Financial Trading: Tool-Augmented, Diversified, and Generalist Wentao Zhang Lingxuan Zhao Haochong Xia Shuo Sun Jiaze Sun ... Yilei Zhao Xinyu Cai Longtao Zheng Xinrun Wang Bo An AIFin 25 33 0 28 Feb 2024
Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data Xiao Liu Zirui Wu Xueqing Wu Pan Lu Kai-Wei Chang Yansong Feng ELM LRM 24 25 0 27 Feb 2024
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems Chaoqun He Renjie Luo Yuzhuo Bai Shengding Hu Zhen Leng Thai ... Yuxiang Zhang Jie Liu Lei Qi Zhiyuan Liu Maosong Sun ELM AIMat 30 134 0 21 Feb 2024
CriticBench: Evaluating Large Language Models as Critic Tian Lan Wenwei Zhang Chen Xu Heyan Huang Dahua Lin Kai-xiang Chen Xian-Ling Mao ELM AI4MH LRM 33 1 0 21 Feb 2024
SciAgent: Tool-augmented Language Models for Scientific Reasoning Yubo Ma Zhibin Gou Junheng Hao Ruochen Xu Shuohang Wang ... Yujiu Yang Yixin Cao Aixin Sun Hany Awadalla Weizhu Chen RALM LRM LLMAG 38 20 0 18 Feb 2024
Noise Contrastive Alignment of Language Models with Explicit Rewards Huayu Chen Guande He Lifan Yuan Ganqu Cui Hang Su Jun Zhu 52 37 0 08 Feb 2024
Large Language Models for Mathematical Reasoning: Progresses and Challenges Janice Ahn Rishu Verma Renze Lou Di Liu Rui Zhang Wenpeng Yin LRM 33 113 0 31 Jan 2024
Survey of Natural Language Processing for Education: Taxonomy, Systematic Review, and Future Trends Yunshi Lan Xinyuan Li Hanyue Du Xuesong Lu Ming Gao Weining Qian Aoying Zhou 27 1 0 15 Jan 2024
LLaMA Pro: Progressive LLaMA with Block Expansion Chengyue Wu Yukang Gan Yixiao Ge Zeyu Lu Jiahao Wang Ye Feng Ying Shan Ping Luo CLL 15 57 0 04 Jan 2024
NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes Lizhou Fan Wenyue Hua Lingyao Li Haoyang Ling Yongfeng Zhang LRM 18 46 0 22 Dec 2023
ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up? Hailin Chen Fangkai Jiao Xingxuan Li Chengwei Qin Mathieu Ravaut Ruochen Zhao Caiming Xiong Shafiq R. Joty ELM CLL AI4MH LRM ALM 77 27 0 28 Nov 2023
Structured Chemistry Reasoning with Large Language Models Siru Ouyang Zhuosheng Zhang Bing Yan Xuan Liu Yejin Choi Jiawei Han Lianhui Qin LRM 14 14 0 16 Nov 2023
NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear Domain Anurag Acharya Sai Munikoti Aaron Hellinger Sara Smith S. Wagle Sameera Horawalavithana ELM 25 4 0 17 Oct 2023
Lemur: Harmonizing Natural Language and Code for Language Agents Yiheng Xu Hongjin Su Chen Xing Boyu Mi Qian Liu ... Siheng Zhao Lingpeng Kong Bailin Wang Caiming Xiong Tao Yu 21 67 0 10 Oct 2023
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection Shiping Yang Renliang Sun Xiao-Yi Wan HILM 22 40 0 10 Oct 2023
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts Pan Lu Hritik Bansal Tony Xia Jiacheng Liu Chun-yue Li Hannaneh Hajishirzi Hao Cheng Kai-Wei Chang Michel Galley Jianfeng Gao LRM MLLM 25 492 0 03 Oct 2023
NLPBench: Evaluating Large Language Models on Solving NLP Problems Linxin Song Jieyu Zhang Lechao Cheng Pengyuan Zhou Tianyi Zhou Irene Z Li ELM LM&MA LRM 23 10 0 27 Sep 2023
Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future Zheng Chu Jingchang Chen Qianglong Chen Weijiang Yu Tao He Haotian Wang Weihua Peng Ming-Yu Liu Bing Qin Ting Liu LRM AI4CE 16 148 0 27 Sep 2023
MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback Xingyao Wang Zihan Wang Jiateng Liu Yangyi Chen Lifan Yuan Hao Peng Heng Ji LRM 125 137 0 19 Sep 2023
MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning Xiang Yue Xingwei Qu Ge Zhang Yao Fu Wenhao Huang Huan Sun Yu-Chuan Su Wenhu Chen AIMat LRM 54 361 0 11 Sep 2023
Detecting Language Model Attacks with Perplexity Gabriel Alon Michael Kamfonas AAML 32 175 0 27 Aug 2023
Exploring Equation as a Better Intermediate Meaning Representation for Numerical Reasoning Dingzirui Wang Longxu Dou Wenbin Zhang Junyu Zeng Wanxiang Che AIMat 16 6 0 21 Aug 2023
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification Aojun Zhou Ke Wang Zimu Lu Weikang Shi Sichun Luo ... Shaoqing Lu Anya Jia Linqi Song Mingjie Zhan Hongsheng Li ReLM LRM 11 144 0 15 Aug 2023
Platypus: Quick, Cheap, and Powerful Refinement of LLMs Ariel N. Lee Cole J. Hunter Nataniel Ruiz ALM ObjD 13 134 0 14 Aug 2023
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets Seonghyeon Ye Doyoung Kim Sungdong Kim Hyeonbin Hwang Seungone Kim Yongrae Jo James Thorne Juho Kim Minjoon Seo ALM 27 96 0 20 Jul 2023
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models Xiaoxuan Wang Ziniu Hu Pan Lu Yanqiao Zhu Jieyu Zhang Satyen Subramaniam Arjun R. Loomba Shichang Zhang Yizhou Sun Wei Wang ELM LRM 17 42 0 20 Jul 2023
Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models Pan Lu Baolin Peng Hao Cheng Michel Galley Kai-Wei Chang Ying Nian Wu Song-Chun Zhu Jianfeng Gao KELM MLLM LRM 34 293 0 19 Apr 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 203 2,232 0 22 Mar 2023
A Survey of Deep Learning for Mathematical Reasoning Pan Lu Liang Qiu Wenhao Yu Sean Welleck Kai-Wei Chang ReLM LRM 32 137 0 20 Dec 2022
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 240 1,070 0 05 Oct 2022
Compositional Semantic Parsing with Large Language Models Andrew Drozdov Nathanael Scharli Ekin Akyuurek Nathan Scales Xinying Song Xinyun Chen Olivier Bousquet Denny Zhou ReLM LRM 187 91 0 29 Sep 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 207 1,089 0 20 Sep 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 382 4,010 0 28 Jan 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022