Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning

6 November 2022

Yu Zhang

Papers citing "Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning"

46 / 46 papers shown

Title
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data Haoxin Li Boyang Li CoGe 67 0 0 03 Mar 2025
Few-shot LLM Synthetic Data with Distribution Matching Jiyuan Ren Zhaocheng Du Zhihao Wen Qinglin Jia Sunhao Dai Chuhan Wu Zhenhua Dong SyDa 73 0 0 09 Feb 2025
OntoTune: Ontology-Driven Self-training for Aligning Large Language Models Zhiqiang Liu Chengtao Gan Junjie Wang Y. Zhang Zhongpu Bo Mengshu Sun H. Chen Wen Zhang 65 0 0 08 Feb 2025
Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models Ran Xu Hejie Cui Yue Yu Xuan Kan Wenqi Shi Yuchen Zhuang Wei Jin Joyce C. Ho Carl Yang 55 12 0 28 Jan 2025
Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding Zilin Du Haoxin Li Jianfei Yu Boyang Li 87 0 0 01 Dec 2024
NewTerm: Benchmarking Real-Time New Terms for Large Language Models with Annual Updates Hexuan Deng Wenxiang Jiao Xuebo Liu Min Zhang Zhaopeng Tu 36 2 0 28 Oct 2024
Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification Hsun-Yu Kuo Yin-Hsiang Liao Yu-Chieh Chao Wei-Yun Ma Pu-Jen Cheng SyDa 36 2 0 28 Oct 2024
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration Qintong Li Jiahui Gao Sheng Wang Renjie Pi Xueliang Zhao Chuan Wu Xin Jiang Z. Li Lingpeng Kong SyDa 23 2 0 22 Oct 2024
Transforming Game Play: A Comparative Study of DCQN and DTQN Architectures in Reinforcement Learning William A. Stigall 43 0 0 14 Oct 2024
Generating Synthetic Datasets for Few-shot Prompt Tuning Xu Guo Zilin Du Boyang Li Chunyan Miao 16 1 0 08 Oct 2024
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data Hossein Hajipour Lea Schönherr Thorsten Holz Mario Fritz AAML SyDa 21 0 0 10 Sep 2024
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses Yulong Chen Yang Liu Jianhao Yan X. Bai Ming Zhong Yinghao Yang Ziyi Yang Chenguang Zhu Yue Zhang ALM ELM 35 5 0 16 Aug 2024
LLM-Generated Natural Language Meets Scaling Laws: New Explorations and Data Augmentation Methods Zhenhua Wang Guang Xu Ming Ren 19 3 0 29 Jun 2024
The ALCHEmist: Automated Labeling 500x CHEaper Than LLM Data Annotators Tzu-Heng Huang Catherine Cao Vaishnavi Bhargava Frederic Sala 26 3 0 25 Jun 2024
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation Xun Wu Shaohan Huang Furu Wei 42 8 0 23 Apr 2024
LLMs for Cyber Security: New Opportunities D. Divakaran Sai Teja Peddinti 22 10 0 17 Apr 2024
Self-Improvement Programming for Temporal Knowledge Graph Question Answering Zhuo Chen Zhao Zhang Zixuan Li Fei Wang Yutao Zeng Xiaolong Jin Yongjun Xu 29 5 0 02 Apr 2024
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization Renjie Pi Tianyang Han Wei Xiong Jipeng Zhang Runtao Liu Rui Pan Tong Zhang MLLM 27 27 0 13 Mar 2024
Generative AI for Synthetic Data Generation: Methods, Challenges and the Future Xu Guo Yiqiang Chen SyDa 21 9 0 07 Mar 2024
A Survey on Data Augmentation in Large Model Era Yue Zhou Chenlu Guo Xu Wang Yi-Ju Chang Yuan Wu LM&MA VLM 31 22 0 27 Jan 2024
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes Nabeel Seedat Nicolas Huynh B. V. Breugel M. Schaar 11 25 0 19 Dec 2023
Training on Synthetic Data Beats Real Data in Multimodal Relation Extraction Zilin Du Haoxin Li Xu Guo Boyang Li 25 1 0 05 Dec 2023
Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching Meng Chu Zhedong Zheng Wei Ji Tingyu Wang Tat-Seng Chua 18 9 0 21 Nov 2023
BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing Hieu Tran Zhichao Yang Zonghai Yao Hong-ye Yu ALM LM&MA 26 23 0 30 Oct 2023
Correction Focused Language Model Training for Speech Recognition Yingyi Ma Zhe Liu Ozlem Kalinli KELM 19 1 0 17 Oct 2023
Ada-Instruct: Adapting Instruction Generators for Complex Reasoning Wanyun Cui Qianle Wang LRM 28 7 0 06 Oct 2023
Fine-tune Language Models to Approximate Unbiased In-context Learning Timothy Chu Zhao-quan Song Chiwun Yang 22 15 0 05 Oct 2023
Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs Jonas Golde Patrick Haller Felix Hamborg Julian Risch A. Akbik 35 8 0 18 Sep 2023
Training Multimedia Event Extraction With Generated Images and Captions Zilin Du Yunxin Li Xu Guo Yidan Sun Boyang Albert Li DiffM 15 7 0 15 Jun 2023
Finding Support Examples for In-Context Learning Xiaonan Li Xipeng Qiu 11 87 0 27 Feb 2023
Self-Instruct: Aligning Language Models with Self-Generated Instructions Yizhong Wang Yeganeh Kordi Swaroop Mishra Alisa Liu Noah A. Smith Daniel Khashabi Hannaneh Hajishirzi ALM SyDa LRM 17 2,042 0 20 Dec 2022
Self-Guided Noise-Free Data Generation for Efficient Zero-Shot Learning Jiahui Gao Renjie Pi Yong Lin Hang Xu Jiacheng Ye Zhiyong Wu Weizhong Zhang Xiaodan Liang Zhenguo Li Lingpeng Kong SyDa VLM 52 45 0 25 May 2022
Towards Zero-Label Language Learning Zirui Wang Adams Wei Yu Orhan Firat Yuan Cao SyDa 167 101 0 19 Sep 2021
Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training Yu Meng Yunyi Zhang Jiaxin Huang Xuan Wang Yu Zhang Heng Ji Jiawei Han 43 69 0 10 Sep 2021
Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics Artidoro Pagnoni Vidhisha Balachandran Yulia Tsvetkov HILM 215 305 0 27 Apr 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 278 3,784 0 18 Apr 2021
COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining Yu Meng Chenyan Xiong Payal Bajaj Saurabh Tiwary Paul N. Bennett Jiawei Han Xia Song 114 201 0 16 Feb 2021
What Makes Good In-Context Examples for GPT- $3$ ? Jiachang Liu Dinghan Shen Yizhe Zhang Bill Dolan Lawrence Carin Weizhu Chen AAML RALM 275 1,296 0 17 Jan 2021
WARP: Word-level Adversarial ReProgramming Karen Hambardzumyan Hrant Khachatrian Jonathan May AAML 248 340 0 01 Jan 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 241 1,898 0 31 Dec 2020
Data Augmentation using Pre-trained Transformer Models Varun Kumar Ashutosh Choudhary Eunah Cho VLM 209 315 0 04 Mar 2020
Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference Timo Schick Hinrich Schütze 251 1,382 0 21 Jan 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 273 1,561 0 18 Sep 2019
Bilevel Programming for Hyperparameter Optimization and Meta-Learning Luca Franceschi P. Frasconi Saverio Salzo Riccardo Grazzi Massimiliano Pontil 96 714 0 13 Jun 2018
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 237 11,568 0 09 Mar 2017