Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor

19 December 2022

Papers citing "Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor"

50 / 291 papers shown

Title
Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale Tianyue Ou Frank F. Xu Aman Madaan J. Liu Robert Lo Abishek Sridhar Sudipta Sengupta Dan Roth Graham Neubig Shuyan Zhou OffRL 25 9 0 24 Sep 2024
Multi-Document Grounded Multi-Turn Synthetic Dialog Generation Young-Suk Lee Chulaka Gunasekara Danish Contractor Ramón Fernandez Astudillo Radu Florian 17 1 0 17 Sep 2024
Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models Bishwash Khanal Jeffery M. Capone 19 1 0 17 Sep 2024
Synthetic continued pretraining Zitong Yang Neil Band Shuangping Li Emmanuel Candès Tatsunori Hashimoto CLL SyDa 36 11 0 11 Sep 2024
RNR: Teaching Large Language Models to Follow Roles and Rules Kuan-Chieh Jackson Wang Alexander Bukharin Haoming Jiang Qingyu Yin Zhengyang Wang ... Chao Zhang Bing Yin Xian Li Jianshu Chen Shiyang Li ALM 21 1 0 10 Sep 2024
LoCa: Logit Calibration for Knowledge Distillation Runming Yang Taiqiang Wu Yujiu Yang 27 0 0 07 Sep 2024
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation Ingo Ziegler Abdullatif Köksal Desmond Elliott Hinrich Schütze 38 5 0 03 Sep 2024
Instruction Finetuning for Leaderboard Generation from Empirical AI Research Salomon Kabongo Jennifer D'Souza ALM 19 0 0 19 Aug 2024
The ShareLM Collection and Plugin: Contributing Human-Model Chats for the Benefit of the Community Shachar Don-Yehiya Leshem Choshen Omri Abend 19 2 0 15 Aug 2024
How Well Can Vision Language Models See Image Details? Chenhui Gou Abdulwahab Felemban Faizan Farooq Khan Deyao Zhu Jianfei Cai Hamid Rezatofighi Mohamed Elhoseiny VLM MLLM 47 4 0 07 Aug 2024
AI-Assisted Generation of Difficult Math Questions Vedant Shah Dingli Yu Kaifeng Lyu Simon Park Nan Rosemary Ke ... Yoshua Bengio Sanjeev Arora Anirudh Goyal Sanjeev Arora Anirudh Goyal 38 14 0 30 Jul 2024
CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare Jingwei Zhu Minghuan Tan Min Yang Ruixue Li Hamid Alinejad-Rokny ALM LM&MA 32 0 0 29 Jul 2024
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models Somshubra Majumdar Vahid Noroozi Sean Narenthiran Aleksander Ficek Aleksander Ficek Wasi Uddin Ahmad Jocelyn Huang Jagadeesh Balam Boris Ginsburg SyDa 45 2 0 29 Jul 2024
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning Tianduo Wang Shichen Li Wei Lu LRM AI4CE 45 14 1 25 Jul 2024
Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation Jiaming Shen Ran Xu Yennie Jun Zhen Qin Tianqi Liu Carl Yang Yi Liang Simon Baumgartner Michael Bendersky SyDa 53 4 0 22 Jul 2024
A Survey on Employing Large Language Models for Text-to-SQL Tasks Liang Shi Zhengju Tang Nan Zhang Xiaotong Zhang Zhi Yang 26 19 0 21 Jul 2024
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning Chenyang Zhao Xueying Jia Vijay Viswanathan Tongshuang Wu Graham Neubig SyDa ALM 32 25 0 16 Jul 2024
Multi-Granularity Semantic Revision for Large Language Model Distillation Xiaoyu Liu Yun-feng Zhang Wei Li Simiao Li Xu Huang Hanting Chen Yehui Tang Jie Hu Zhiwei Xiong Yunhe Wang 24 1 0 14 Jul 2024
Training on the Test Task Confounds Evaluation and Emergence Ricardo Dominguez-Olmedo Florian E. Dorner Moritz Hardt ELM 55 6 1 10 Jul 2024
Training Task Experts through Retrieval Based Distillation Jiaxin Ge Xueying Jia Vijay Viswanathan Hongyin Luo Graham Neubig 31 3 0 07 Jul 2024
A Survey of Data Synthesis Approaches Hsin-Yu Chang Pei-Yu Chen Tun-Hsiang Chou Chang-Sheng Kao Hsuan-Yun Yu Yen-Ting Lin Yun-Nung Chen 32 5 0 04 Jul 2024
A Comparative Study of DSL Code Generation: Fine-Tuning vs. Optimized Retrieval Augmentation Nastaran Bassamzadeh Chhaya Methani 3DV 33 6 0 03 Jul 2024
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs Yue Yu Wei Ping Zihan Liu Boxin Wang Jiaxuan You Chao Zhang M. Shoeybi Bryan Catanzaro ALM RALM 34 50 0 02 Jul 2024
Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application Chuanpeng Yang Wang Lu Yao Zhu Yidong Wang Qian Chen Chenlong Gao Bingjie Yan Yiqiang Chen ALM KELM 44 20 0 02 Jul 2024
Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time Sanjoy Chowdhury Sayan Nag Subhrajyoti Dasgupta Jun Chen Mohamed Elhoseiny Ruohan Gao Dinesh Manocha VLM MLLM 29 9 0 01 Jul 2024
Paraphrase Types Elicit Prompt Engineering Capabilities Jan Philip Wahle Terry Ruas Yang Xu Bela Gipp 29 5 0 28 Jun 2024
Methodology of Adapting Large English Language Models for Specific Cultural Contexts Wenjing Zhang Siqi Xiao Xuejiao Lei Ning Wang Huazheng Zhang Meijuan An Bikun Yang Zhaoxiang Liu Kai Wang Shiguo Lian ALM 19 0 0 26 Jun 2024
Dual-Space Knowledge Distillation for Large Language Models Songming Zhang Xue Zhang Zengkui Sun Yufeng Chen Jinan Xu 35 5 0 25 Jun 2024
$USDC: A Dataset of $\underline{U}$ser $\underline{S}$tance and $\underline{D}$ogmatism in Long $\underline{C}$onversations$ USDC: A Dataset of $\underline{U}$ ser $\underline{S}$ tance and $\underline{D}$ ogmatism in Long $\underline{C}$ onversations Mounika Marreddy S. Oota Venkata Charan Chinni Manish Gupta Lucie Flek 43 0 0 24 Jun 2024
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models Xinrong Zhang Yingfa Chen Shengding Hu Xu Han Zihang Xu Yuanwei Xu Weilin Zhao Maosong Sun Zhiyuan Liu 29 9 0 22 Jun 2024
Instruction Pre-Training: Language Models are Supervised Multitask Learners Daixuan Cheng Yuxian Gu Shaohan Huang Junyu Bi Minlie Huang Furu Wei SyDa 51 20 0 20 Jun 2024
Data-Centric AI in the Age of Large Language Models Xinyi Xu Zhaoxuan Wu Rui Qiao Arun Verma Yao Shu ... Xiaoqiang Lin Wenyang Hu Zhongxiang Dai Pang Wei Koh Bryan Kian Hsiang Low ALM 40 2 0 20 Jun 2024
Instruction Data Generation and Unsupervised Adaptation for Speech Language Models Vahid Noroozi Zhehuai Chen Somshubra Majumdar Steve Huang Jagadeesh Balam Boris Ginsburg SyDa 29 3 0 18 Jun 2024
GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory Wei Fan Haoran Li Zheye Deng Weiqi Wang Yangqiu Song AILaw 33 8 0 17 Jun 2024
On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey Lin Long Rui Wang Ruixuan Xiao Junbo Zhao Xiao Ding Gang Chen Haobo Wang SyDa 51 88 0 14 Jun 2024
ReadCtrl: Personalizing text generation with readability-controlled instruction learning Hieu Tran Zonghai Yao Lingxi Li Hong-ye Yu 47 2 0 13 Jun 2024
CoEvol: Constructing Better Responses for Instruction Finetuning through Multi-Agent Cooperation Renhao Li Minghuan Tan Derek F. Wong Min Yang LLMAG 19 1 0 11 Jun 2024
Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions Cheng Tan Dongxin Lyu Siyuan Li Zhangyang Gao Jingxuan Wei Siqi Ma Zicheng Liu Stan Z. Li LLMAG 32 8 0 09 Jun 2024
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans Yusuke Sakai Hidetaka Kamigaito Taro Watanabe LRM 35 2 0 06 Jun 2024
Exploring the Latest LLMs for Leaderboard Extraction Salomon Kabongo Jennifer D'Souza Sören Auer 29 2 0 06 Jun 2024
PrE-Text: Training Language Models on Private Federated Data in the Age of LLMs Charlie Hou Akshat Shrivastava Hongyuan Zhan Rylan Conway Trang Le Adithya Sagar Giulia Fanti Daniel Lazar 24 8 0 05 Jun 2024
From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers Dylan Zhang Justin Wang Francois Charton 25 0 0 30 May 2024
Aligning to Thousands of Preferences via System Message Generalization Seongyun Lee Sue Hyun Park Seungone Kim Minjoon Seo ALM 21 35 0 28 May 2024
A Survey of Multimodal Large Language Model from A Data-centric Perspective Tianyi Bai Hao Liang Binwang Wan Yanran Xu Xi Li ... Ping-Chia Huang Jiulong Shan Conghui He Binhang Yuan Wentao Zhang 47 36 0 26 May 2024
Extracting Prompts by Inverting LLM Outputs Collin Zhang John X. Morris Vitaly Shmatikov 31 15 0 23 May 2024
Instruction Tuning With Loss Over Instructions Zhengyan Shi Adam X. Yang Bin Wu Laurence Aitchison Emine Yilmaz Aldo Lipani ALM 19 19 0 23 May 2024
Annotation-Efficient Preference Optimization for Language Model Alignment Yuu Jinnai Ukyo Honda 38 0 0 22 May 2024
SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation Abhishek Divekar Greg Durrett 26 5 0 16 May 2024
Chameleon: Mixed-Modal Early-Fusion Foundation Models Chameleon Team MLLM 53 249 0 16 May 2024
Does Instruction Tuning Make LLMs More Consistent? Constanza Fierro Jiaang Li Anders Sogaard LRM 25 2 0 23 Apr 2024