LLM-powered Data Augmentation for Enhanced Cross-lingual Performance

23 May 2023

Papers citing "LLM-powered Data Augmentation for Enhanced Cross-lingual Performance"

45 / 45 papers shown

Title
Crosslingual Reasoning through Test-Time Scaling Zheng-Xin Yong Muhammad Farid Adilazuarda Jonibek Mansurov Ruochen Zhang Niklas Muennighoff Carsten Eickhoff Genta Indra Winata Julia Kreutzer Stephen H. Bach Alham Fikri Aji LRM ELM 60 0 0 08 May 2025
On the generalization of language models from in-context learning and finetuning: a controlled study Andrew Kyle Lampinen Arslan Chaudhry Stephanie Chan Cody Wild Diane Wan Alex Ku Jorg Bornschein Razvan Pascanu Murray Shanahan James L. McClelland 46 0 0 01 May 2025
A Review of Multimodal Explainable Artificial Intelligence: Past, Present and Future Shilin Sun Wenbin An Feng Tian Fang Nan Qidong Liu J. Liu N. Shah Ping Chen 78 2 0 18 Dec 2024
Delving into the Reversal Curse: How Far Can Large Language Models Generalize? Zhengkai Lin Z. Fu Kai Liu Liang Xie Binbin Lin Wenxiao Wang D. Cai Yue Wu Jieping Ye LRM 25 3 0 24 Oct 2024
A Persuasion-Based Prompt Learning Approach to Improve Smishing Detection through Data Augmentation Ho Sung Shim Hyoungjun Park Kyuhan Lee Jang-Sun Park Seonhye Kang AAML 21 0 0 18 Oct 2024
Extended Japanese Commonsense Morality Dataset with Masked Token and Label Enhancement Takumi Ohashi Tsubasa Nakagawa Hitoshi Iyatomi 25 0 0 12 Oct 2024
Keyword-Aware ASR Error Augmentation for Robust Dialogue State Tracking Jihyun Lee Solee Im Wonjun Lee Gary Geunbae Lee 21 0 0 10 Sep 2024
LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs Chansung Park Juyong Jiang Fan Wang Sayak Paul Jing Tang 28 2 0 24 Aug 2024
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future Haolin Jin Linghan Huang Haipeng Cai Jun Yan Bo Li Huaming Chen 66 24 0 05 Aug 2024
Guidance-Based Prompt Data Augmentation in Specialized Domains for Named Entity Recognition Hyeonseok Kang H. Seo Jeesu Jung Sangkeun Jung Du-Seong Chang Riwoo Chung 18 0 0 26 Jul 2024
Leveraging LLM-Respondents for Item Evaluation: a Psychometric Analysis Yunting Liu Shreya Bhandari Z. Pardos 23 8 0 15 Jul 2024
The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm Aakanksha Arash Ahmadian B. Ermiş Seraphina Goldfarb-Tarrant Julia Kreutzer Marzieh Fadaee Sara Hooker 40 28 0 26 Jun 2024
A Synthetic Dataset for Personal Attribute Inference Hanna Yukhymenko Robin Staab Mark Vero Martin Vechev SyDa 44 4 0 11 Jun 2024
Unsupervised Distractor Generation via Large Language Model Distilling and Counterfactual Contrastive Decoding Fanyi Qu Hao Sun Yunfang Wu 34 8 0 03 Jun 2024
SUTRA: Scalable Multilingual Language Model Architecture Abhijit Bendale Michael Sapienza Steven Ripplinger Simon Gibbs Jaewon Lee Pranav Mistry LRM ELM 34 4 0 07 May 2024
LLMs for Cyber Security: New Opportunities D. Divakaran Sai Teja Peddinti 22 10 0 17 Apr 2024
Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers Libo Qin Qiguang Chen Yuhang Zhou Zhi Chen Yinghui Li Lizi Liao Min Li Wanxiang Che Philip S. Yu LRM 47 35 0 07 Apr 2024
HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models H. Nghiem Hal Daumé 28 1 0 18 Mar 2024
Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges Bosheng Ding Chengwei Qin Ruochen Zhao Tianze Luo Xinze Li Guizhen Chen Wenhan Xia Junjie Hu A. Luu Shafiq R. Joty 29 18 0 05 Mar 2024
Leveraging ChatGPT in Pharmacovigilance Event Extraction: An Empirical Study ZHAOYUE SUN Gabriele Pergola Byron C. Wallace Yulan He LM&MA 24 13 0 24 Feb 2024
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks Minju Seo Jinheon Baek James Thorne Sung Ju Hwang RALM 29 8 0 21 Feb 2024
FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning Xiao Li Bolin Zhu Sichen Liu Yin Zhu Yiwei liu Gong Cheng AIMat 22 0 0 20 Feb 2024
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Shivalika Singh Freddie Vargus Daniel D'souza Börje F. Karlsson Abinaya Mahendiran ... Max Bartolo Julia Kreutzer A. Ustun Marzieh Fadaee Sara Hooker 115 115 0 09 Feb 2024
Large Language Models for Generative Information Extraction: A Survey Derong Xu Wei-neng Chen Wenjun Peng Chao Zhang Tong Bill Xu Xiangyu Zhao Xian Wu Yefeng Zheng Yang Wang Enhong Chen 38 137 0 29 Dec 2023
Large Scale Foundation Models for Intelligent Manufacturing Applications: A Survey Haotian Zhang S. D. Semujju Zhicheng Wang Xianwei Lv Kang Xu ... Jing Wu Zhuo Long Wensheng Liang Xiaoguang Ma Ruiyan Zhuang UQCV AI4TS AI4CE 25 4 0 11 Dec 2023
From Big to Small Without Losing It All: Text Augmentation with ChatGPT for Efficient Sentiment Analysis Stanislaw Wo'zniak Jan Kocoñ 35 9 0 07 Dec 2023
Let the LLMs Talk: Simulating Human-to-Human Conversational QA via Zero-Shot LLM-to-LLM Interactions Zahra Abbasiantaeb Yifei Yuan Evangelos Kanoulas Mohammad Aliannejadi 17 53 0 05 Dec 2023
APoLLo: Unified Adapter and Prompt Learning for Vision Language Models Sanjoy Chowdhury Sayan Nag Dinesh Manocha VLM 19 17 0 04 Dec 2023
When does In-context Learning Fall Short and Why? A Study on Specification-Heavy Tasks Hao Peng Xiaozhi Wang Jianhui Chen Weikai Li Y. Qi ... Zhili Wu Kaisheng Zeng Bin Xu Lei Hou Juanzi Li 24 27 0 15 Nov 2023
DialogBench: Evaluating LLMs as Human-like Dialogue Systems Jiao Ou Junda Lu Che Liu Yihong Tang Fuzheng Zhang Di Zhang Kun Gai ALM LM&MA 22 14 0 03 Nov 2023
COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances Haryo Akbarianto Wibowo Erland Hilman Fuadi Made Nindyatama Nityasya Radityo Eko Prasojo Alham Fikri Aji LRM 12 22 0 02 Nov 2023
A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge Yikun Han Chunjiang Liu Pengfei Wang 14 57 0 18 Oct 2023
ChatGPT-guided Semantics for Zero-shot Learning Fahimul Hoque Shubho T. Chowdhury A. Cheraghian Morteza Saberi Nabeel Mohammed Shafin Rahman VLM 19 0 0 18 Oct 2023
A ML-LLM pairing for better code comment classification Hanna Abi Akl 26 2 0 13 Oct 2023
A Unified Framework for Generative Data Augmentation: A Comprehensive Survey Yunhao Chen Zihui Yan Yunjie Zhu 17 3 0 30 Sep 2023
The Costly Dilemma: Generalization, Evaluation and Cost-Optimal Deployment of Large Language Models Abi Aryan Aakash Kumar Nain Andrew McMahon Lucas Augusto Meyer Harpreet Sahota 13 6 0 15 Aug 2023
Controllable Data Augmentation for Few-Shot Text Mining with Chain-of-Thought Attribute Manipulation Letian Peng Yuwei Zhang Jingbo Shang LRM 13 7 0 14 Jul 2023
Large Language Models as Annotators: Enhancing Generalization of NLP Models at Minimal Cost Parikshit Bansal Amit Sharma 31 40 0 27 Jun 2023
Don't Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities and Types of LLMs Xiang Zhang Senyu Li B. Hauer Ning Shi Grzegorz Kondrak LRM 23 80 0 24 May 2023
Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages Zheng-Xin Yong Ruochen Zhang Jessica Zosa Forde Skyler Wang Arjun Subramonian ... Yinghua Tan Long Phan Rowena Garcia Thamar Solorio Alham Fikri Aji LRM 46 46 0 23 Mar 2023
EntityCS: Improving Zero-Shot Cross-lingual Transfer with Entity-Centric Code Switching Chenxi Whitehouse Fenia Christopoulou Ignacio Iacobacci 23 9 0 22 Oct 2022
"Diversity and Uncertainty in Moderation" are the Key to Data Selection for Multilingual Few-shot Transfer Shanu Kumar Sandipan Dandapat Monojit Choudhury 16 6 0 30 Jun 2022
From Machine Translation to Code-Switching: Generating High-Quality Code-Switched Text Ishan Tarunesh Syamantak Kumar P. Jyothi 36 45 0 14 Jul 2021
Improving Zero-Shot Cross-Lingual Transfer Learning via Robust Training Kuan-Hao Huang Wasi Uddin Ahmad Nanyun Peng Kai-Wei Chang AAML 89 33 0 17 Apr 2021
Code-Switched Language Models Using Neural Based Synthetic Data from Parallel Sentences Genta Indra Winata Andrea Madotto Chien-Sheng Wu Pascale Fung SyDa 124 92 0 18 Sep 2019