Measuring Mathematical Problem Solving With the MATH Dataset

5 March 2021

Papers citing "Measuring Mathematical Problem Solving With the MATH Dataset"

45 / 1,395 papers shown

Title
A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models Alessandro Stolfo Zhijing Jin Kumar Shridhar Bernhard Schölkopf Mrinmaya Sachan ELM OOD LRM 21 61 0 21 Oct 2022
Prompting GPT-3 To Be Reliable Chenglei Si Zhe Gan Zhengyuan Yang Shuohang Wang Jianfeng Wang Jordan L. Boyd-Graber Lijuan Wang KELM LRM 38 277 0 17 Oct 2022
Can Language Representation Models Think in Bets? Zhi–Bin Tang M. Kejriwal 8 6 0 14 Oct 2022
Learning to Reason With Relational Abstractions A. Nam Mengye Ren Chelsea Finn James L. McClelland ReLM LRM 16 4 0 06 Oct 2022
When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment Zhijing Jin Sydney Levine Fernando Gonzalez Ojasv Kamal Maarten Sap Mrinmaya Sachan Rada Mihalcea J. Tenenbaum Bernhard Schölkopf ELM LRM 12 90 0 04 Oct 2022
Augmenting Operations Research with Auto-Formulation of Optimization Models from Problem Descriptions Rindranirina Ramamonjison Haley Li Timothy T. Yu Shiqi He Vishnu Rengan Amin Banitalebi-Dehkordi Zirui Zhou Yong Zhang 31 30 0 30 Sep 2022
Limits of an AI program for solving college math problems E. Davis AIMat 9 3 0 14 Aug 2022
An Interpretability Evaluation Benchmark for Pre-trained Language Models Ya-Ming Shen Lijie Wang Ying Chen Xinyan Xiao Jing Liu Hua-Hong Wu 27 4 0 28 Jul 2022
Exploring Length Generalization in Large Language Models Cem Anil Yuhuai Wu Anders Andreassen Aitor Lewkowycz Vedant Misra V. Ramasesh Ambrose Slone Guy Gur-Ari Ethan Dyer Behnam Neyshabur ReLM LRM 12 158 0 11 Jul 2022
Machine Learning Model Sizes and the Parameter Gap Pablo Villalobos J. Sevilla T. Besiroglu Lennart Heim A. Ho Marius Hobbhahn ALM ELM AI4CE 18 55 0 05 Jul 2022
Forecasting Future World Events with Neural Networks Andy Zou Tristan Xiao Ryan Jia Joe Kwon Mantas Mazeika Richard Li Dawn Song Jacob Steinhardt Owain Evans Dan Hendrycks 15 22 0 30 Jun 2022
Solving Quantitative Reasoning Problems with Language Models Aitor Lewkowycz Anders Andreassen David Dohan Ethan Dyer Henryk Michalewski ... Theo Gutman-Solo Yuhuai Wu Behnam Neyshabur Guy Gur-Ari Vedant Misra ReLM ELM LRM 15 738 0 29 Jun 2022
Bridging the Gap Between Indexing and Retrieval for Differentiable Search Index with Query Generation Shengyao Zhuang Houxing Ren Linjun Shou Jian Pei Ming Gong Guido Zuccon Daxin Jiang 22 64 0 21 Jun 2022
Unveiling Transformers with LEGO: a synthetic reasoning task Yi Zhang A. Backurs Sébastien Bubeck Ronen Eldan Suriya Gunasekar Tal Wagner LRM 19 85 0 09 Jun 2022
MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data Yilun Zhao Yunxiang Li Chenying Li Rui Zhang AIMat 21 97 0 03 Jun 2022
A Survey in Mathematical Language Processing Jordan Meadows André Freitas AIMat 13 15 0 30 May 2022
NaturalProver: Grounded Mathematical Proof Generation with Language Models Sean Welleck Jiacheng Liu Ximing Lu Hannaneh Hajishirzi Yejin Choi AIMat LRM 22 65 0 25 May 2022
Autoformalization with Large Language Models Yuhuai Wu Albert Q. Jiang Wenda Li M. Rabe Charles Staats M. Jamnik Christian Szegedy AI4CE 108 156 0 25 May 2022
TALM: Tool Augmented Language Models Aaron T Parisi Yao-Min Zhao Noah Fiedel KELM RALM LLMAG 16 144 0 24 May 2022
GPT-NeoX-20B: An Open-Source Autoregressive Language Model Sid Black Stella Biderman Eric Hallahan Quentin G. Anthony Leo Gao ... Shivanshu Purohit Laria Reynolds J. Tow Benqi Wang Samuel Weinbach 16 795 0 14 Apr 2022
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks Swaroop Mishra Arindam Mitra Neeraj Varshney Bhavdeep Singh Sachdeva Peter Clark Chitta Baral A. Kalyan AIMat ReLM ELM LRM 23 102 0 12 Apr 2022
Capturing Failures of Large Language Models via Human Cognitive Biases Erik Jones Jacob Steinhardt 20 88 0 24 Feb 2022
GPT-based Open-Ended Knowledge Tracing Naiming Liu Zichao Wang Richard G. Baraniuk Andrew S. Lan AI4Ed 21 3 0 21 Feb 2022
Deconstructing Distributions: A Pointwise Framework of Learning Gal Kaplun Nikhil Ghosh Saurabh Garg Boaz Barak Preetum Nakkiran OOD 25 20 0 20 Feb 2022
Formal Mathematics Statement Curriculum Learning Stanislas Polu Jesse Michael Han Kunhao Zheng Mantas Baksys Igor Babuschkin Ilya Sutskever AIMat 73 115 0 03 Feb 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,402 0 28 Jan 2022
Towards More Robust Natural Language Understanding Xinliang Frederick Zhang 14 2 0 01 Dec 2021
Solving Probability and Statistics Problems by Program Synthesis Leonard Tang Elizabeth Ke Nikhil Singh Nakul Verma Iddo Drori 6 15 0 16 Nov 2021
Towards Tractable Mathematical Reasoning: Challenges, Strategies, and Opportunities for Solving Math Word Problems Keyur Faldu A. Sheth Prashant Kikani Manas Gaur Aditi Avasthi LRM 24 16 0 29 Oct 2021
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 22 3,748 0 27 Oct 2021
Pretrained Language Models are Symbolic Mathematics Solvers too! Kimia Noorbakhsh Modar Sulaiman M. Sharifi Kallol Roy Pooyan Jamshidi LRM 13 18 0 07 Oct 2021
TruthfulQA: Measuring How Models Mimic Human Falsehoods Stephanie C. Lin Jacob Hilton Owain Evans HILM 14 1,713 0 08 Sep 2021
Teaching Autoregressive Language Models Complex Tasks By Demonstration Gabriel Recchia 26 22 0 05 Sep 2021
MiniF2F: a cross-system benchmark for formal Olympiad-level mathematics Kunhao Zheng Jesse Michael Han Stanislas Polu AIMat 11 146 0 31 Aug 2021
Systematic human learning and generalization from a brief tutorial with explanatory feedback A. Nam James L. McClelland 11 1 0 10 Jul 2021
Solving Machine Learning Problems Sunny Tran P. Krishna Ishan Pakuwal Prabhakar Kafle Nikhil Singh J. Lynch Iddo Drori VLM 11 11 0 02 Jul 2021
Effect of Pre-Training Scale on Intra- and Inter-Domain Full and Few-Shot Transfer Learning for Natural and Medical X-Ray Chest Images Mehdi Cherti J. Jitsev LM&MA 12 23 0 31 May 2021
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He D. Song Jacob Steinhardt ELM AIMat ALM 194 623 0 20 May 2021
Representing Numbers in NLP: a Survey and a Vision Avijit Thawani Jay Pujara Pedro A. Szekely Filip Ilievski 12 113 0 24 Mar 2021
NaturalProofs: Mathematical Theorem Proving in Natural Language Sean Welleck Jiacheng Liu Ronan Le Bras Hannaneh Hajishirzi Yejin Choi Kyunghyun Cho AIMat 13 62 0 24 Mar 2021
CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review Dan Hendrycks Collin Burns Anya Chen Spencer Ball ELM AILaw 4 178 0 10 Mar 2021
LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning Yuhuai Wu M. Rabe Wenda Li Jimmy Ba Roger C. Grosse Christian Szegedy AIMat LRM 61 51 0 15 Jan 2021
ExpBERT: Representation Engineering with Natural Language Explanations Shikhar Murty Pang Wei Koh Percy Liang 35 43 0 05 May 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 226 4,424 0 23 Jan 2020
Improving Graph Neural Network Representations of Logical Formulae with Subgraph Pooling M. Crouse Ibrahim Abdelaziz Cristina Cornelio Veronika Thost Lingfei Wu Kenneth D. Forbus Achille Fokoue NAI AI4CE GNN 93 36 0 15 Nov 2019