TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based
Scoring

TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring

23 March 2024

Edward Choi

Papers citing "TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring"

5 / 5 papers shown

Title
Out-of-Distribution Detection and Selective Generation for Conditional Language Models Jie Jessie Ren Jiaming Luo Yao-Min Zhao Kundan Krishna Mohammad Saleh Balaji Lakshminarayanan Peter J. Liu OODD 64 92 0 30 Sep 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers Haitian Sun William W. Cohen Ruslan Salakhutdinov 59 33 0 13 Oct 2021
Unsolved Problems in ML Safety Dan Hendrycks Nicholas Carlini John Schulman Jacob Steinhardt 173 268 0 28 Sep 2021
Did You Ask a Good Question? A Cross-Domain Question Intention Classification Benchmark for Text-to-SQL Yusen Zhang Xiangyu Dong Shuaichen Chang Tao Yu Peng Shi Rui Zhang OOD 43 15 0 23 Oct 2020