ZeroGen: Efficient Zero-shot Learning via Dataset Generation

16 February 2022

Jiacheng Ye

Jiahui Gao

Qintong Li

Hang Xu

Jiangtao Feng

Zhiyong Wu

Tao Yu

Lingpeng Kong

SyDa

ArXiv PDF HTML

Papers citing "ZeroGen: Efficient Zero-shot Learning via Dataset Generation"

50 / 166 papers shown

Title
FuseGen: PLM Fusion for Data-generation based Zero-shot Learning Tianyuan Zou Yang Janet Liu Peng Li Jianqing Zhang Jingjing Liu Ya-Qin Zhang 31 3 0 18 Jun 2024
EMO-KNOW: A Large Scale Dataset on Emotion and Emotion-cause M. Nguyen Yasith Samaradivakara P. Sasikumar Chitralekha Gupta Suranga Nanayakkara 20 0 0 18 Jun 2024
Text Grafting: Near-Distribution Weak Supervision for Minority Classes in Text Classification Letian Peng Yi Gu Chengyu Dong Zihan Wang Jingbo Shang 19 0 0 17 Jun 2024
On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey Lin Long Rui Wang Ruixuan Xiao Junbo Zhao Xiao Ding Gang Chen Haobo Wang SyDa 51 90 0 14 Jun 2024
Is Programming by Example solved by LLMs? Wen-Ding Li Kevin Ellis 37 10 0 12 Jun 2024
ABEX: Data Augmentation for Low-Resource NLU via Expanding Abstract Descriptions Sreyan Ghosh Utkarsh Tyagi Sonal Kumar C. K. Evuru S Ramaneswaran S. Sakshi Dinesh Manocha 41 5 0 06 Jun 2024
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans Yusuke Sakai Hidetaka Kamigaito Taro Watanabe LRM 38 2 0 06 Jun 2024
Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models Yiming Chen Chen Zhang Danqing Luo L. F. D’Haro R. Tan Haizhou Li AAML ELM 32 2 0 23 May 2024
Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data Haoran Li Xinyuan Zhao Dadi Guo Hanlin Gu Ziqian Zeng Yuxing Han Yangqiu Song Lixin Fan Qiang Yang 21 1 0 23 May 2024
SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation Abhishek Divekar Greg Durrett 26 5 0 16 May 2024
Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing Han Liu Siyang Zhao Xiaotong Zhang Feng Zhang Wei Wang Fenglong Ma Hongyang Chen Hong Yu Xianchao Zhang VLM 27 2 0 06 May 2024
UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset Generation Juhwan Choi Yeonghwa Kim Seunguk Yu Jungmin Yun Youngbin Kim 36 1 0 02 May 2024
Empowering Large Language Models for Textual Data Augmentation Yichuan Li Kaize Ding Jianling Wang Kyumin Lee 21 10 0 26 Apr 2024
Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning A. Elshabrawy Yongix Huang Iryna Gurevych Alham Fikri Aji 21 0 0 19 Apr 2024
Incubating Text Classifiers Following User Instruction with Nothing but LLM Letian Peng Jingbo Shang 25 3 0 16 Apr 2024
Forcing Diffuse Distributions out of Language Models Yiming Zhang Avi Schwarzschild Nicholas Carlini Zico Kolter Daphne Ippolito ALM DiffM 36 15 0 16 Apr 2024
Generative Text Steganography with Large Language Model Jiaxuan Wu Zhengxian Wu Yiming Xue Juan Wen Wanli Peng 13 7 0 16 Apr 2024
Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation Juhwan Choi Jungmin Yun Kyohoon Jin Youngbin Kim 30 4 0 15 Apr 2024
A Self-feedback Knowledge Elicitation Approach for Chemical Reaction Predictions Pengfei Liu Jun Tao Zhixiang Ren 22 0 0 15 Apr 2024
Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences Jesse Atuhurra Hidetaka Kamigaito 36 0 0 31 Mar 2024
Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation Rohan Chaudhury Mihir Godbole Aakash Garg Jinsil Hwaryoung Seo 30 0 0 31 Mar 2024
CoDa: Constrained Generation based Data Augmentation for Low-Resource NLP Chandra Kiran Reddy Evuru Sreyan Ghosh Sonal Kumar S. Ramaneswaran Utkarsh Tyagi Dinesh Manocha 40 8 0 30 Mar 2024
GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation Mohsen Gholami Mohammad Akbari Cindy Hu Vaden Masrani Z. J. Wang Yong Zhang 27 4 0 28 Mar 2024
ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models Yuzhao Heng Chun-Ying Deng Yitong Li Yue Yu Yinghao Li Rongzhi Zhang Chao Zhang 33 4 0 17 Mar 2024
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization Renjie Pi Tianyang Han Wei Xiong Jipeng Zhang Runtao Liu Rui Pan Tong Zhang MLLM 33 33 0 13 Mar 2024
MoralBERT: A Fine-Tuned Language Model for Capturing Moral Values in Social Discussions Vjosa Preniqi Iacopo Ghinassi Julia Ive C. Saitis Kyriaki Kalimeri 37 4 0 12 Mar 2024
Evolving Knowledge Distillation with Large Language Models and Active Learning Chengyuan Liu Yangyang Kang Fubang Zhao Kun Kuang Zhuoren Jiang Changlong Sun Fei Wu 14 4 0 11 Mar 2024
Generative AI for Synthetic Data Generation: Methods, Challenges and the Future Xu Guo Yiqiang Chen SyDa 21 30 0 07 Mar 2024
Improving Event Definition Following For Zero-Shot Event Detection Zefan Cai Po-Nien Kung Ashima Suvarna Mingyu Derek Ma Hritik Bansal Baobao Chang P. Brantingham Wei Wang Nanyun Peng 24 8 0 05 Mar 2024
LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues Joe Stacey Jianpeng Cheng John Torr Tristan Guigue Joris Driesen Alexandru Coca Mark Gaynor Anders Johannsen 25 3 0 01 Mar 2024
TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision Yunyi Zhang Ruozhen Yang Xueqiang Xu Rui Li Jinfeng Xiao Jiaming Shen Jiawei Han 35 10 0 29 Feb 2024
LLM-Assisted Content Conditional Debiasing for Fair Text Embedding Wenlong Deng Blair Chen Beidi Zhao Chiyu Zhang Xiaoxiao Li Christos Thrampoulidis 31 0 0 22 Feb 2024
Large Language Models for Data Annotation: A Survey Zhen Tan Dawei Li Song Wang Alimohammad Beigi Bohan Jiang Amrita Bhattacharjee Mansooreh Karami Jundong Li Lu Cheng Huan Liu SyDa 42 46 0 21 Feb 2024
A Survey on Knowledge Distillation of Large Language Models Xiaohan Xu Ming Li Chongyang Tao Tao Shen Reynold Cheng Jinyang Li Can Xu Dacheng Tao Tianyi Zhou KELM VLM 42 98 0 20 Feb 2024
A Note on Bias to Complete Jia Xu Mona Diab 39 2 0 18 Feb 2024
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows Ajay Patel Colin Raffel Chris Callison-Burch SyDa AI4CE 25 25 0 16 Feb 2024
GPTs Are Multilingual Annotators for Sequence Generation Tasks Juhwan Choi Eunju Lee Kyohoon Jin Youngbin Kim 25 10 0 08 Feb 2024
JOBSKAPE: A Framework for Generating Synthetic Job Postings to Enhance Skill Matching Antoine Magron Anna Dai Mike Zhang Syrielle Montariol Antoine Bosselut SyDa 28 7 0 05 Feb 2024
Leveraging Large Language Models for Structure Learning in Prompted Weak Supervision Jinyan Su Peilin Yu Jieyu Zhang Stephen H. Bach 13 2 0 02 Feb 2024
The Queen of England is not England's Queen: On the Lack of Factual Coherency in PLMs Paul Youssef Jorg Schlotterer Christin Seifert KELM 16 0 0 02 Feb 2024
WSC+: Enhancing The Winograd Schema Challenge Using Tree-of-Experts Pardis Sadat Zahraei Ali Emami 16 6 0 31 Jan 2024
A Survey on Data Augmentation in Large Model Era Yue Zhou Chenlu Guo Xu Wang Yi-Ju Chang Yuan Wu LM&MA VLM 40 23 0 27 Jan 2024
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance Renjie Pi Tianyang Han Jianshu Zhang Yueqi Xie Rui Pan Qing Lian Hanze Dong Jipeng Zhang Tong Zhang AAML 23 59 0 05 Jan 2024
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model Jiahui Gao Renjie Pi Jipeng Zhang Jiacheng Ye Wanjun Zhong ... Lanqing Hong Jianhua Han Hang Xu Zhenguo Li Lingpeng Kong SyDa ReLM LRM 44 95 0 18 Dec 2023
Training on Synthetic Data Beats Real Data in Multimodal Relation Extraction Zilin Du Haoxin Li Xu Guo Boyang Li 25 1 0 05 Dec 2023
FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models Rui Xiao Yiwen Dong Junbo Zhao Runze Wu Minmin Lin Gang Chen Haobo Wang 12 7 0 27 Nov 2023
Large Language Models are Few-Shot Training Example Generators: A Case Study in Fallacy Recognition Tariq Alhindi Smaranda Muresan Preslav Nakov HILM LRM 38 4 0 16 Nov 2023
STEER: Unified Style Transfer with Expert Reinforcement Skyler Hallinan Faeze Brahman Ximing Lu Jaehun Jung Sean Welleck Yejin Choi OffRL 13 14 0 13 Nov 2023
Making Large Language Models Better Data Creators Dong-Ho Lee Jay Pujara Mohit Sewak Ryen W. White S. Jauhar ALM SyDa 8 23 0 31 Oct 2023
LLMaAA: Making Large Language Models as Active Annotators Ruoyu Zhang Yanzeng Li Yongliang Ma Ming Zhou Lei Zou 33 68 0 30 Oct 2023