v1v2 (latest)

Generating Training Data with Language Models: Towards Zero-Shot Language Understanding

Neural Information Processing Systems (NeurIPS), 2022

9 February 2022

Yu Zhang

Papers citing "Generating Training Data with Language Models: Towards Zero-Shot Language Understanding"

50 / 175 papers shown

An Interpretability-Guided Framework for Responsible Synthetic Data Generation in Emotional Text

Paula Joy B. Martinez

Jose Marie Antonio Miñoza

Sebastian C. Ibañez

142

20 Nov 2025

State of the Art in Text Classification for South Slavic Languages: Fine-Tuning or Prompting?

Taja Kuzman Pungeršek

104

11 Nov 2025

Who Is the Story About? Protagonist Entity Recognition in News

Jorge Gabín

M. E. Ares

Javier Parapar

251

10 Nov 2025

Can LLMs Correct Themselves? A Benchmark of Self-Correction in LLMs

...

257

17 Oct 2025

Virus Infection Attack on LLMs: Your Poisoning Can Spread "VIA" Synthetic Data

217

27 Sep 2025

Evaluating LLMs Without Oracle Feedback: Agentic Annotation Evaluation Through Unsupervised Consistency Signals

Cheng Chen

Haiyan Yin

Ivor Tsang

148

10 Sep 2025

M-BRe: Discovering Training Samples for Relation Extraction from Unlabeled Texts with Large Language Models

Zexuan Li

Hongliang Dai

Piji Li

131

09 Sep 2025

Diverse And Private Synthetic Datasets Generation for RAG evaluation: A multi-agent framework

Ilias Driouich

Hongliu Cao

Eoin Thomas

26 Aug 2025

CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks

284

31 Jul 2025

EvolveSearch: An Iterative Self-Evolving Search Agent

...

244

28 May 2025

EAVIT: Efficient and Accurate Human Value Identification from Text data via LLMsInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

235

19 May 2025

AndroidGen: Building an Android Language Agent under Data ScarcityAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

320

27 Apr 2025

Towards Harnessing the Collaborative Power of Large and Small Models for Domain Tasks

...

1.0K

24 Apr 2025

Synthetic Data Augmentation for Cross-domain Implicit Discourse Relation Recognition

363

26 Mar 2025

Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic DataComputer Vision and Pattern Recognition (CVPR), 2025

Haoxin Li

Boyang Li

CoGe

684

03 Mar 2025

Talking to the brain: Using Large Language Models as Proxies to Model Brain Semantic Representation

Xin Liu

Zheng Zhang

Jingxin Nie

243

26 Feb 2025

Mutual Reinforcement of LLM Dialogue Synthesis and Summarization Capabilities for Few-Shot Dialogue SummarizationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

...

250

24 Feb 2025

Synthetic Text Generation for Training Large Language Models via Gradient Matching

Baharan Mirzasoleiman

406

24 Feb 2025

BERTtime Stories: Investigating the Role of Synthetic Story Data in Language Pre-training

Nikitas Theodoropoulos

446

24 Feb 2025

SNaRe: Domain-aware Data Generation for Low-Resource Event Detection

379

24 Feb 2025

Synthetic vs. Gold: The Role of LLM Generated Labels and Data in Cyberbullying Detection

Arefeh Kazemi

Sri Balaaji Natarajan Kalaivendan

641

21 Feb 2025

Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data

419

21 Feb 2025

A Survey of Text Classification Under Class Distribution Shift

Adriana Valentina Costache

Silviu Florin Gheorghe

313

18 Feb 2025

Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

387

28 Jan 2025

Automatic Labelling with Open-source LLMs using Dynamic Label Schema Integration

256

21 Jan 2025

Bridging the Fairness Gap: Enhancing Pre-trained Models with LLM-Generated SentencesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

252

12 Jan 2025

JAPAGEN: Efficient Few/Zero-shot Learning via Japanese Training Dataset Generation with LLMPacific Asia Conference on Language, Information and Computation (PACLIC), 2024

Takuro Fujii

Satoru Katsumata

202

09 Dec 2024

Curriculum-style Data Augmentation for LLM-based Metaphor Detection

Kaidi Jia

Yanxia Wu

Rongsheng Li

226

04 Dec 2024

Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding

1.3K

01 Dec 2024

LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic ClassificationIEEE Access (IEEE Access), 2024

Taja Kuzman

Nikola Ljubesic

294

29 Nov 2024

CorrSynth -- A Correlated Sampling Method for Diverse Dataset Generation from LLMsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

338

13 Nov 2024

Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMsInternational Journal of Data Science and Analysis (JDSA), 2024

349

09 Nov 2024

NewTerm: Benchmarking Real-Time New Terms for Large Language Models with Annual UpdatesNeural Information Processing Systems (NeurIPS), 2024

251

28 Oct 2024

Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text ClassificationInternational Conference on Learning Representations (ICLR), 2024

329

28 Oct 2024

LanFL: Differentially Private Federated Learning with Large Language Models using Synthetic Samples

Huiyu Wu

Diego Klabjan

FedML

295

24 Oct 2024

Self-calibration for Language Model Quantization and PruningNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Miles Williams

G. Chrysostomou

Nikolaos Aletras

1.0K

22 Oct 2024

A Little Human Data Goes A Long WayAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Dhananjay Ashok

Jonathan May

SyDa

526

17 Oct 2024

Personalized Visual Instruction TuningInternational Conference on Learning Representations (ICLR), 2024

Jianshu Zhang

Jipeng Zhang

Tong Zhang

212

09 Oct 2024

Generating Synthetic Datasets for Few-shot Prompt Tuning

Xu Guo

Zilin Du

Boyang Li

Chunyan Miao

206

08 Oct 2024

Generate then Refine: Data Augmentation for Zero-shot Intent DetectionConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

248

02 Oct 2024

ToxiCraft: A Novel Framework for Synthetic Generation of Harmful InformationConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

372

23 Sep 2024

ControlMath: Controllable Data Generation Promotes Math Generalist ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Polydoros Giannouris

Ning Wu

Jianhui Chang

Jia Li

268

20 Sep 2024

Enhancing SLM via ChatGPT and Dataset Augmentation

Tom Pieper

Mohamad Ballout

U. Krumnack

Gunther Heidemann

Kai-Uwe Kühnberger

247

19 Sep 2024

Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold LabelsInternational Conference on Computational Linguistics (COLING), 2024

Chaoqun Liu

Qin Chao

Wenxuan Zhang

Xiaobao Wu

Boyang Albert Li

Anh Tuan Luu

Lidong Bing

190

19 Sep 2024

What is the Role of Small Models in the LLM Era: A Survey

Lihu Chen

Gaël Varoquaux

ALM

776

10 Sep 2024

KModels: Unlocking AI for Business Applications

Anuradha Bhamidipaty

Erez Bilgory

126

08 Sep 2024

On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey

Jingcai Guo

Zhijie Rao

Zhi Chen

Song Guo

Jingren Zhou

Dacheng Tao

268

09 Aug 2024

Computer Audition: From Task-Specific Machine Learning to Foundation Models

Andreas Triantafyllopoulos

400

22 Jul 2024

Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation

Jiaming Shen

Ran Xu

Zhen Qin

300

22 Jul 2024

A Survey on Natural Language Counterfactual Generation

253

04 Jul 2024