Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models

Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models

16 May 2025

Banca Calvo Figueras

Papers citing "Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models"

14 / 14 papers shown

Title
DayDreamer at CQs-Gen 2025: Generating Critical Questions through Argument Scheme Completion Wendi Zhou Ameer Saadat-Yazdi Nadin Kökciyan LRM 39 0 0 21 May 2025
Critical Questions Generation: Motivation and Challenges Blanca Calvo Figueras Rodrigo Agerri 45 2 0 18 Oct 2024
Gemma 2: Improving Open Language Models at a Practical Size Gemma Team Gemma Team Morgane Riviere Shreya Pathak Pier Giuseppe Sessa Cassidy Hardin ... Noah Fiedel Armand Joulin Kathleen Kenealy Robert Dadashi Alek Andreev VLM MoE OSLM 79 772 0 31 Jul 2024
A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation I. Zubiaga A. Soroa Rodrigo Agerri 52 6 0 21 Jun 2024
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models Seungone Kim Juyoung Suk Shayne Longpre Bill Yuchen Lin Jamin Shin Sean Welleck Graham Neubig Moontae Lee Kyungjae Lee Minjoon Seo MoMe ALM ELM 83 182 0 02 May 2024
Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores Chantal Shaib Joe Barrow Jiuding Sun Alexa F. Siu Byron C. Wallace A. Nenkova 97 36 0 01 Mar 2024
NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination for each Benchmark Oscar Sainz Jon Ander Campos Iker García-Ferrero Julen Etxaniz Oier López de Lacalle Eneko Agirre 45 174 0 27 Oct 2023
JudgeLM: Fine-tuned Large Language Models are Scalable Judges Lianghui Zhu Xinggang Wang Xinlong Wang ELM ALM 87 125 0 26 Oct 2023
Is ChatGPT a Good NLG Evaluator? A Preliminary Study Jiaan Wang Yunlong Liang Fandong Meng Zengkui Sun Haoxiang Shi Zhixu Li Jinan Xu Jianfeng Qu Jie Zhou LM&MA ELM ALM AI4MH 93 458 0 07 Mar 2023
Towards a Unified Multi-Dimensional Evaluator for Text Generation Ming Zhong Yang Liu Da Yin Yuning Mao Yizhu Jiao Peng Liu Chenguang Zhu Heng Ji Jiawei Han ELM 64 263 0 13 Oct 2022
CTRLEval: An Unsupervised Reference-Free Metric for Evaluating Controlled Text Generation Pei Ke Hao Zhou Yankai Lin Peng Li Jie Zhou Xiaoyan Zhu Minlie Huang 41 40 0 02 Apr 2022
BLEURT: Learning Robust Metrics for Text Generation Thibault Sellam Dipanjan Das Ankur P. Parikh 71 1,472 0 09 Apr 2020
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 643 11,979 0 27 Aug 2019
COMET: Commonsense Transformers for Automatic Knowledge Graph Construction Antoine Bosselut Hannah Rashkin Maarten Sap Chaitanya Malaviya Asli Celikyilmaz Yejin Choi 70 908 0 12 Jun 2019