Scaling Synthetic Data Creation with 1,000,000,000 Personas

28 June 2024

Papers citing "Scaling Synthetic Data Creation with 1,000,000,000 Personas"

31 / 81 papers shown

Title
Distinguishing Ignorance from Error in LLM Hallucinations Adi Simhi Jonathan Herzig Idan Szpektor Yonatan Belinkov HILM 46 2 0 29 Oct 2024
Inference time LLM alignment in single and multidomain preference spectrum S. Zheng Qi Nikolaos Pappas Srikanth Doss Kadarundalagi Raghuram Doss Monica Sunkara Kishaloy Halder Manuel Mager Yassine Benajiba 25 0 0 24 Oct 2024
Little Giants: Synthesizing High-Quality Embedding Data at Scale Haonan Chen Liang Wang Nan Yang Y. X. Zhu Ziliang Zhao Furu Wei Zhicheng Dou SyDa 16 1 0 24 Oct 2024
Is artificial intelligence still intelligence? LLMs generalize to novel adjective-noun pairs, but don't mimic the full human distribution Hayley Ross Kathryn Davidson Najoung Kim 16 0 0 23 Oct 2024
A Lightweight Multi Aspect Controlled Text Generation Solution For Large Language Models Chenyang Zhang Jiayi Lin Haibo Tong Bingxuan Hou Dongyu Zhang Jialin Li Junli Wang 13 1 0 18 Oct 2024
DFlow: Diverse Dialogue Flow Simulation with Large Language Models Wanyu Du Song Feng James Gung Lijia Sun Yi Zhang Saab Mansour Yanjun Qi 30 0 0 18 Oct 2024
A Little Human Data Goes A Long Way Dhananjay Ashok Jonathan May SyDa 31 0 0 17 Oct 2024
A Survey on Data Synthesis and Augmentation for Large Language Models Ke Wang Jiahui Zhu Minjie Ren Z. Liu Shiwei Li ... Chenkai Zhang Xiaoyu Wu Qiqi Zhan Qingjie Liu Yunhong Wang SyDa 28 13 0 16 Oct 2024
Learning to Predict Usage Options of Product Reviews with LLM-Generated Labels Leo Kohlenberg Leonard Horns Frederic Sadrieh Nils Kiele Matthis Clausen Konstantin Ketterer Avetis Navasardyan Tamara Czinczoll Gerard de Melo Ralf Herbrich 16 0 0 16 Oct 2024
Personas with Attitudes: Controlling LLMs for Diverse Data Annotation Leon Fröhling Gianluca Demartini Dennis Assenmacher 16 2 0 15 Oct 2024
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs Syeda Nahida Akter Shrimai Prabhumoye John Kamalu S. Satheesh Eric Nyberg M. Patwary M. Shoeybi Bryan Catanzaro LRM SyDa ReLM 70 1 0 15 Oct 2024
Can Language Models Reason about Individualistic Human Values and Preferences? Liwei Jiang Taylor Sorensen Sydney Levine Yejin Choi 18 7 0 04 Oct 2024
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search Murong Yue Wenlin Yao Haitao Mi Dian Yu Ziyu Yao Dong Yu LRM 20 4 0 04 Oct 2024
Aligning LLMs with Individual Preferences via Interaction Shujin Wu May Fung Cheng Qian Jeonghwan Kim Dilek Z. Hakkani-Tür Heng Ji 11 9 0 04 Oct 2024
PersonalLLM: Tailoring LLMs to Individual Preferences Thomas P. Zollo Andrew Siah Naimeng Ye Ang Li Hongseok Namkoong 22 10 0 30 Sep 2024
DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications Sathya Krishnan Suresh Wu Mengjun Tushar Pranav Eng Siong Chng 19 2 0 25 Sep 2024
Revealing the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing Wenyuan Zhang Jiawei Sheng Shuaiyi Nie Zefeng Zhang Xinghua Zhang Yongquan He Tingwen Liu 13 1 0 18 Sep 2024
ID-Free Not Risk-Free: LLM-Powered Agents Unveil Risks in ID-Free Recommender Systems Z. Wang Min Gao Junliang Yu Xinyi Gao Quoc Viet Hung Nguyen S. Sadiq Hongzhi Yin AAML 28 3 0 18 Sep 2024
MegaAgent: A Practical Framework for Autonomous Cooperation in Large-Scale LLM Agent Systems Qian Wang Tianyu Wang Qinbin Li Jingsheng Liang Bingsheng He LLMAG AIFin 32 6 0 19 Aug 2024
AI-Assisted Generation of Difficult Math Questions Vedant Shah Dingli Yu Kaifeng Lyu Simon Park Nan Rosemary Ke ... Yoshua Bengio Sanjeev Arora Anirudh Goyal Sanjeev Arora Anirudh Goyal 30 14 0 30 Jul 2024
AI Safety in Generative AI Large Language Models: A Survey Jaymari Chua Yun Yvonna Li Shiyi Yang Chen Wang Lina Yao LM&MA 21 12 0 06 Jul 2024
(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts Minghao Wu Jiahao Xu Yulin Yuan Gholamreza Haffari Longyue Wang Weihua Luo Kaifu Zhang LLMAG 108 22 0 20 May 2024
PICLe: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning Hyeong Kyu Choi Yixuan Li 48 12 0 03 May 2024
WildChat: 1M ChatGPT Interaction Logs in the Wild Wenting Zhao Xiang Ren Jack Hessel Claire Cardie Yejin Choi Yuntian Deng 37 44 0 02 May 2024
From Persona to Personalization: A Survey on Role-Playing Language Agents Jiangjie Chen Xintao Wang Rui Xu Siyu Yuan Yikai Zhang ... Caiyu Hu Siye Wu Scott Ren Ziquan Fu Yanghua Xiao 39 1 0 28 Apr 2024
SciAgent: Tool-augmented Language Models for Scientific Reasoning Yubo Ma Zhibin Gou Junheng Hao Ruochen Xu Shuohang Wang ... Yujiu Yang Yixin Cao Aixin Sun Hany Awadalla Weizhu Chen RALM LRM LLMAG 27 1 0 18 Feb 2024
Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement Chenkai Sun Ke Yang R. Reddy Yi Ren Fung Hou Pong Chan Chengxiang Zhai ChengXiang Zhai Heng Ji 8 17 0 16 Feb 2024
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism DeepSeek-AI Xiao Bi : Xiao Bi Deli Chen Guanting Chen ... Yao Zhao Shangyan Zhou Shunfeng Zhou Qihao Zhu Yuheng Zou LRM ALM 125 115 0 05 Jan 2024
On the Risk of Misinformation Pollution with Large Language Models Yikang Pan Liangming Pan Wenhu Chen Preslav Nakov Min-Yen Kan W. Wang DeLMO 188 105 0 23 May 2023
Generative Agents: Interactive Simulacra of Human Behavior J. Park Joseph C. O'Brien Carrie J. Cai Meredith Ringel Morris Percy Liang Michael S. Bernstein LM&Ro AI4CE 204 1,701 0 07 Apr 2023
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 220 3,054 0 23 Jan 2020