Rethinking the Instruction Quality: LIFT is What You Need

12 December 2023

Papers citing "Rethinking the Instruction Quality: LIFT is What You Need"

25 / 25 papers shown

Title
Data-efficient LLM Fine-tuning for Code Generation Weijie Lv X. Xia Sheng-Jun Huang ALM SyDa 41 0 0 17 Apr 2025
MathClean: A Benchmark for Synthetic Mathematical Data Cleaning Hao Liang Meiyi Qiang Y. Li Zefeng He Yongzhen Guo Z. Zhu Wentao Zhang Bin Cui 33 0 0 26 Feb 2025
The Best Instruction-Tuning Data are Those That Fit Dylan Zhang Qirun Dai Hao Peng ALM 113 3 0 06 Feb 2025
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models Yulei Qin Yuncheng Yang Pengcheng Guo Gang Li Hang Shao Yuchen Shi Zihan Xu Yun Gu Ke Li Xing Sun ALM 85 11 0 31 Dec 2024
EVQAScore: A Fine-grained Metric for Video Question Answering Data Quality Evaluation Hao Liang Zirong Chen W. Zhang Wentao Zhang 31 0 0 11 Nov 2024
Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search Chenglin Li Qianglong Chen Zhi Li Feng Tao Yicheng Li Hao Chen Fei Yu Yin Zhang SyDa 26 0 0 14 Oct 2024
Data Proportion Detection for Optimized Data Management for Large Language Models Hao Liang Keshi Zhao Yajie Yang Bin Cui Guosheng Dong Zenan Zhou Wentao Zhang 31 0 0 26 Sep 2024
DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning Keer Lu Xiaonan Nie Zheng Liang Da Pan Shusen Zhang ... Weipeng Chen Zenan Zhou Guosheng Dong Bin Cui Wentao Zhang 27 0 0 02 Sep 2024
Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models Yuncheng Yang Yulei Qin Tong Wu Zihan Xu Gang Li ... Yuchen Shi Ke Li Xing Sun Jie Yang Yun Gu ALM OffRL MoE 46 0 0 28 Aug 2024
CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs Weijie Lv Xuan Xia Sheng-Jun Huang ALM 29 2 0 05 Aug 2024
Synth-Empathy: Towards High-Quality Synthetic Empathy Data Hao Liang Linzhuang Sun Jingxuan Wei Xijie Huang Linkun Sun Bihui Yu Conghui He Wentao Zhang SyDa 29 4 0 31 Jul 2024
SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models Zheng Liu Hao Liang Xijie Huang Wentao Xiong Qinhan Yu Linzhuang Sun Chong Chen Conghui He Bin Cui Wentao Zhang SyDa 33 0 0 30 Jul 2024
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System Miao Zheng H. Liang Fan Yang Haoze Sun Tianpeng Li ... Kun Fang Weipeng Chen Bin Cui Wentao Zhang Zenan Zhou RALM 37 3 0 08 Jul 2024
Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning Yun-Da Tsai Mingjie Liu Haoxing Ren SyDa 27 9 0 06 Jul 2024
KeyVideoLLM: Towards Large-scale Video Keyframe Selection Hao Liang Jiapeng Li Tianyi Bai Xijie Huang Linzhuang Sun Zhengren Wang Conghui He Bin Cui Chong Chen Wentao Zhang VGen 27 7 0 03 Jul 2024
Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data Linzhuang Sun Hao Liang Jingxuan Wei Linkun Sun Bihui Yu Bin Cui Wentao Zhang 21 1 0 02 Jul 2024
From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers Dylan Zhang Justin Wang Francois Charton 25 0 0 30 May 2024
A Survey of Multimodal Large Language Model from A Data-centric Perspective Tianyi Bai Hao Liang Binwang Wan Yanran Xu Xi Li ... Ping-Chia Huang Jiulong Shan Conghui He Binhang Yuan Wentao Zhang 47 36 0 26 May 2024
Instruction Tuning With Loss Over Instructions Zhengyan Shi Adam X. Yang Bin Wu Laurence Aitchison Emine Yilmaz Aldo Lipani ALM 19 19 0 23 May 2024
SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning Yexiao He Ziyao Wang Zheyu Shen Guoheng Sun Yucong Dai Yongkai Wu Hongyi Wang Ang Li 26 11 0 23 Apr 2024
Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning Ming Li Lichang Chen Jiuhai Chen Shwai He Jiuxiang Gu Tianyi Zhou 10 50 0 15 Feb 2024
Rethinking Data Selection for Supervised Fine-Tuning Ming Shen 15 16 0 08 Feb 2024
A Survey on Data Selection for LLM Instruction Tuning Jiahao Wang Bolin Zhang Qianlong Du Jiajun Zhang Dianhui Chu 24 42 0 04 Feb 2024
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond Jingfeng Yang Hongye Jin Ruixiang Tang Xiaotian Han Qizhang Feng Haoming Jiang Bing Yin Xia Hu LM&MA 123 593 0 26 Apr 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022