v1v2 (latest)

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

Proceedings of the National Academy of Sciences of the United States of America (PNAS), 2023

27 March 2023

Papers citing "ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks"

50 / 301 papers shown

Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

150

03 Dec 2025

A Comparison of Human and ChatGPT Classification Performance on Complex Social Media Data

178

29 Nov 2025

MegaChat: A Synthetic Persian Q&A Dataset for High-Quality Sales Chatbot Evaluation

Mahdi Rahmani

AmirHossein Saffari

Reyhane Rahmani

125

28 Nov 2025

Constructing and Benchmarking: a Labeled Email Dataset for Text-Based Phishing and Spam Detection Framework

Rebeka Tóth

Tamás Bisztray

Richard A. Dubniczky

180

26 Nov 2025

SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

352

26 Nov 2025

Generative AI in Sociological Research: State of the DisciplineSociological Science (Sociol Sci), 2025

171

21 Nov 2025

Applying Large Language Models to Characterize Public Narratives

145

17 Nov 2025

Increasing AI Explainability by LLM Driven Standard Processes

Marc Jansen

Marcel Pehlke

175

10 Nov 2025

Can LLM Annotations Replace User Clicks for Learning to Rank?

177

10 Nov 2025

Who Is the Story About? Protagonist Entity Recognition in News

Jorge Gabín

M. E. Ares

Javier Parapar

271

10 Nov 2025

Computational Turing Test Reveals Systematic Differences Between Human and AI Language

192

06 Nov 2025

Black Box Absorption: LLMs Undermining Innovative Ideas

Wenjun Cao

140

23 Oct 2025

Algorithmic Fairness in NLP: Persona-Infused LLMs for Human-Centric Hate Speech Detection

102

22 Oct 2025

Online In-Context Distillation for Low-Resource Vision Language Models

111

20 Oct 2025

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense

18 Oct 2025

Reliability of Large Language Model Generated Clinical Reasoning in Assisted Reproductive Technology: Blinded Comparative Evaluation Study

196

17 Oct 2025

DPRF: A Generalizable Dynamic Persona Refinement Framework for Optimizing Behavior Alignment Between Personalized LLM Role-Playing Agents and Humans

337

16 Oct 2025

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Junichiro Niimi

147

15 Oct 2025

FlexAC: Towards Flexible Control of Associative Reasoning in Multimodal Large Language Models

287

13 Oct 2025

Repurposing Annotation Guidelines to Instruct LLM Annotators: A Case StudyInternational Conference on Applications of Natural Language to Data Bases (NLDB), 2025

126

13 Oct 2025

D-CoDe: Scaling Image-Pretrained VLMs to Video via Dynamic Compression and Question Decomposition

103

09 Oct 2025

Populism Meets AI: Advancing Populism Research with LLMs

220

08 Oct 2025

What is a protest anyway? Codebook conceptualization is still a first-order concern in LLM-era classification

Andrew Halterman

Katherine A. Keith

143

03 Oct 2025

Unspoken Hints: Accuracy Without Acknowledgement in LLM Reasoning

Arash Marioriyad

Shaygan Adim

Nima Alighardashi

Mahdieh Soleymani Banghshah

M. Rohban

LRM

30 Sep 2025

Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis

215

30 Sep 2025

Building Benchmarks from the Ground Up: Community-Centered Evaluation of LLMs in Healthcare Chatbot Settings

186

29 Sep 2025

Building Data-Driven Occupation Taxonomies: A Bottom-Up Multi-Stage Approach via Semantic Clustering and Multi-Agent Collaboration

Nan Li

Bo Kang

T. D. Bie

106

19 Sep 2025

We Argue to Agree: Towards Personality-Driven Argumentation-Based Negotiation Dialogue Systems for Tourism

Priyanshu Priya

Saurav Dudhate

Desai Vishesh Yasheshbhai

Asif Ekbal

155

14 Sep 2025

Emulating Public Opinion: A Proof-of-Concept of AI-Generated Synthetic Survey Responses for the Chilean Case

Bastián González-Bustamante

Nando Verelst

Carla Cisternas

SyDa

134

11 Sep 2025

Evaluating LLMs Without Oracle Feedback: Agentic Annotation Evaluation Through Unsupervised Consistency Signals

Cheng Chen

Haiyan Yin

Ivor Tsang

158

10 Sep 2025

Timing the Message: Language-Based Notifications for Time-Critical Assistive Settings

120

09 Sep 2025

PersonaFuse: A Personality Activation-Driven Framework for Enhancing Human-LLM Interactions

Yixuan Tang

Yi Yang

Ahmed Abbasi

212

09 Sep 2025

CURE: Controlled Unlearning for Robust Embeddings - Mitigating Conceptual Shortcuts in Pre-Trained Language Models

108

05 Sep 2025

Evaluating the Robustness of Retrieval-Augmented Generation to Adversarial Evidence in the Health Domain

145

04 Sep 2025

Leveraging Media Frames to Improve Normative Diversity in News Recommendations

Sourabh Dattawad

Agnese Daffara

Tanise Ceron

02 Sep 2025

PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance

160

28 Aug 2025

Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

340

25 Aug 2025

The Impact of Annotator Personas on LLM Behavior Across the Perspectivism Spectrum

104

23 Aug 2025

The Promise of Large Language Models in Digital Health: Evidence from Sentiment Analysis in Online Health Communities

Xiancheng Li

Georgios D. Karampatakis

131

19 Aug 2025

"Not in My Backyard": LLMs Uncover Online and Offline Social Biases Against Homelessness

Georgina Curto

Nitesh V. Chawla

14 Aug 2025

SYNAPSE-G: Bridging Large Language Models and Graph Learning for Rare Event Classification

157

13 Aug 2025

Evaluating Large Language Models as Expert Annotators

156

11 Aug 2025

A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks

Zhilong Zhao

Yindi Liu

151

04 Aug 2025

CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks

294

31 Jul 2025

Doubling Your Data in Minutes: Ultra-fast Tabular Data Generation via LLM-Induced Dependency Graphs

201

25 Jul 2025

Hybrid Annotation for Propaganda Detection: Integrating LLM Pre-Annotations with Human Intelligence

24 Jul 2025

AQuilt: Weaving Logic and Self-Inspection into Low-Cost, High-Relevance Data Synthesis for Specialist LLMs

234

24 Jul 2025

VeriMinder: Mitigating Analytical Vulnerabilities in NL2SQL

Shubham Mohole

Sainyam Galhotra

AAML

149

23 Jul 2025

Who Attacks, and Why? Using LLMs to Identify Negative Campaigning in 18M Tweets across 19 Countries

Victor Hartman

Petter Törnberg

127

23 Jul 2025

Backtranslation and paraphrasing in the LLM era? Comparing data augmentation methods for emotion classificationInternational Conference on Conceptual Structures (ICCS), 2025

Łukasz Radliński

Mateusz Guściora

Jan Kocoñ

132

19 Jul 2025