GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot Setting and Performance Boosting Through Prompts

21 May 2023

Jessica Nayeli López Espejel

E. Ettifouri

Mahaman Sanoussi Yahaya Alassan

Papers citing "GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot Setting and Performance Boosting Through Prompts"

30 / 30 papers shown

Title
WIP: Assessing the Effectiveness of ChatGPT in Preparatory Testing Activities Susmita Haldar Mary Pierce Luiz Fernando Capretz 42 1 0 05 Mar 2025
Comprehensive Modeling and Question Answering of Cancer Clinical Practice Guidelines using LLMs Bhumika Gupta Pralaypati Ta Keerthi Ram M. Sivaprakasam AI4MH 36 0 0 23 Jan 2025
ExIQA: Explainable Image Quality Assessment Using Distortion Attributes Sepehr Kazemi Ranjbar Emad Fatemizadeh 34 0 0 10 Sep 2024
Can Textual Semantics Mitigate Sounding Object Segmentation Preference? Yaoting Wang Peiwen Sun Yuanchao Li Honggang Zhang Di Hu 38 5 0 15 Jul 2024
Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings Andrea Posada Daniel Rueckert Felix Meissen Philip Muller LM&MA ELM 29 0 0 24 Jun 2024
Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency Sakib Shahriar Brady Lund Nishith Reddy Mannuru Muhammad Arbab Arshad Kadhim Hayawi Ravi Varma Kumar Bevara Aashrith Mannuru Laiba Batool LM&MA MLLM ELM 58 44 0 19 Jun 2024
Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam Nabor C. Mendonça ELM 20 9 0 14 Jun 2024
Large Language Models in Wireless Application Design: In-Context Learning-enhanced Automatic Network Intrusion Detection Han Zhang A. B. Sediq Ali Afana Melike Erol-Kantarci 36 7 0 17 May 2024
LLMs in Biomedicine: A study on clinical Named Entity Recognition Masoud Monajatipoor Jiaxin Yang Joel Stremmel Melika Emami Fazlolah Mohaghegh Mozhdeh Rouhsedaghat Kai-Wei Chang LM&MA 27 5 0 10 Apr 2024
Assisting humans in complex comparisons: automated information comparison at scale Truman Yuen Graham A. Watt Y. Lawryshyn 33 0 0 05 Apr 2024
Construction of Hyper-Relational Knowledge Graphs Using Pre-Trained Large Language Models Preetha Datta Fedor Vitiugin Anastasiia Chizhikova Nitin Sawhney KELM 41 1 0 18 Mar 2024
Can LLMs Compute with Reasons? Harshit Sandilya Peehu Raj J. Bafna Srija Mukhopadhyay Shivansh Sharma Ellwil Sharma Arastu Sharma Neeta Trivedi Manish Shrivastava Rajesh Kumar LRM 14 0 0 19 Feb 2024
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation Siyuan Wang Zhuohan Long Zhihao Fan Zhongyu Wei Xuanjing Huang LLMAG 10 26 0 18 Feb 2024
Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs Simone Balloccu Patrícia Schmidtová Mateusz Lango Ondrej Dusek SILM ELM PILM 21 155 0 06 Feb 2024
Ocassionally Secure: A Comparative Analysis of Code Generation Assistants Ran Elgedawy John Sadik Senjuti Dutta Anuj Gautam Konstantinos Georgiou Farzin Gholamrezae Fujiao Ji Kyungchan Lim Qian Liu Scott Ruoti 19 7 0 01 Feb 2024
A Preliminary Study on Using Large Language Models in Software Pentesting Kumar Shashwat Francis Hahn Xinming Ou Dmitry Goldgof Lawrence Hall Jay Ligatti S. R. Rajgopalan Armin Ziaie Tabari LLMAG 22 5 0 30 Jan 2024
Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness Samaneh Shafee A. Bessani Pedro M. Ferreira 22 17 0 26 Jan 2024
TPD: Enhancing Student Language Model Reasoning via Principle Discovery and Guidance Haorui Wang Rongzhi Zhang Yinghao Li Lingkai Kong Yuchen Zhuang Xiusi Chen Chao Zhang LRM 38 5 0 24 Jan 2024
Using Large Language Models to Assess Tutors' Performance in Reacting to Students Making Math Errors Sanjit Kakarla Danielle R. Thomas Jionghao Lin Shivang Gupta Kenneth R. Koedinger 23 6 0 06 Jan 2024
Benchmarking and Analyzing In-context Learning, Fine-tuning and Supervised Learning for Biomedical Knowledge Curation: a focused study on chemical entities of biological interest Emily Groves Minhong Wang Yusuf Abdulle Holger Kunz J. Hoelscher-Obermaier Ronin Wu Honghan Wu 21 2 0 20 Dec 2023
BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation Suite for Large Language Models Wei Qi Leong Jian Gang Ngui Yosephine Susanto Hamsawardhini Rengarajan Kengatharaiyer Sarveswaran William-Chandra Tjhi 21 9 0 12 Sep 2023
Evaluation of large language models for discovery of gene set function Mengzhou Hu Sahar Alkhairy Ingoo Lee Rudolf T. Pillich Dylan Fong Kevin Smith Robin Bachelder T. Ideker Dexter Pratt LM&MA 11 32 0 07 Sep 2023
LeanContext: Cost-Efficient Domain-Specific Question Answering Using LLMs Md. Adnan Arefeen Biplob K. Debnath S. Chakradhar 35 51 0 02 Sep 2023
Large Language Models for Semantic Monitoring of Corporate Disclosures: A Case Study on Korea's Top 50 KOSPI Companies Junwon Sung Woojin Heo Yunkyung Byun Youngsam Kim 11 0 0 01 Sep 2023
ChatGPT in the Age of Generative AI and Large Language Models: A Concise Survey S. Mohamadi G. Mujtaba Ngan Le Gianfranco Doretto Don Adjeroh LM&MA AI4MH 21 21 0 09 Jul 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 4,048 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,217 0 21 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,402 0 28 Jan 2022
Explaining Answers with Entailment Trees Bhavana Dalvi Peter Alexander Jansen Oyvind Tafjord Zhengnan Xie Hannah Smith Leighanna Pipatanangkura Peter Clark ReLM FAtt LRM 237 184 0 17 Apr 2021
What Makes Good In-Context Examples for GPT- $3$ ? Jiachang Liu Dinghan Shen Yizhe Zhang Bill Dolan Lawrence Carin Weizhu Chen AAML RALM 275 1,311 0 17 Jan 2021