Embedding-Driven Diversity Sampling to Improve Few-Shot Synthetic Data Generation

Embedding-Driven Diversity Sampling to Improve Few-Shot Synthetic Data Generation

28 January 2025

Fateme Nateghi Haredasht

Jonathan H. Chen

Akshay S. Chaudhari

ArXiv (abs)PDF HTML

Papers citing "Embedding-Driven Diversity Sampling to Improve Few-Shot Synthetic Data Generation"

14 / 14 papers shown

Title
Enhancing Clinical Documentation with Synthetic Data: Leveraging Generative Models for Improved Accuracy Anjanava Biswas Wrick Talukdar SyDa 207 9 0 03 Jun 2024
Zero-Shot Clinical Trial Patient Matching with LLMs Michael Wornow Alejandro Lozano Dev Dash Jenelle A. Jindal Kenneth W. Mahaffey Nigam H. Shah 314 56 0 05 Feb 2024
Towards Conversational Diagnostic AI Tao Tu Anil Palepu M. Schaekermann Khaled Saab Jan Freyberg ... Katherine Chou Greg S. Corrado Yossi Matias Alan Karthikesalingam Vivek Natarajan AI4MH LM&MA 253 136 0 11 Jan 2024
Two Directions for Clinical Data Generation with Large Language Models: Data-to-Label and Label-to-DataConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Rumeng Li Xun Wang Hong Yu LM&MA 196 40 0 09 Dec 2023
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text SummarizationNature Network Boston (NNB), 2023 Dave Van Veen Cara Van Uden Louis Blankemeier Jean-Benoit Delbrouck Asad Aali ... C. Langlotz Jason Hom S. Gatidis John M. Pauly Akshay S. Chaudhari ELM AI4MH LM&MA 874 561 0 14 Sep 2023
CORAL: Expert-Curated medical Oncology Reports to Advance Language Model Inference Madhumita Sushil Vanessa E. Kennedy Divneet Mandair Brenda Y. Miao T. Zack A. Butte 271 43 0 07 Aug 2023
A Study of Generative Large Language Model for Medical Research and Healthcare C.A.I. Peng Xi Yang Aokun Chen Kaleb E. Smith Nima M. Pournejatian ... W. Hogan E. Shenkman Yi Guo Jiang Bian Yonghui Wu LM&MA ELM AI4MH 335 370 0 22 May 2023
MTEB: Massive Text Embedding BenchmarkConference of the European Chapter of the Association for Computational Linguistics (EACL), 2022 Niklas Muennighoff Nouamane Tazi L. Magne Nils Reimers 1.0K 674 0 13 Oct 2022
Annotation-efficient deep learning for automatic medical image segmentation Shanshan Wang Cheng Li Rongpin Wang Zaiyi Liu Meiyun Wang ... Xin Liu Jie Chen Hui-Chong Zhou Ismail Ben Ayed Bingsheng Huang VLM MedIm 249 248 0 09 Dec 2020
Language Models are Few-Shot LearnersNeural Information Processing Systems (NeurIPS), 2020 Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 2.0K 52,173 0 28 May 2020
Modeling Tabular data using Conditional GANNeural Information Processing Systems (NeurIPS), 2019 Lei Xu Maria Skoularidou Alfredo Cuesta-Infante K. Veeramachaneni CML MU SyDa GAN 476 1,622 0 01 Jul 2019
Publicly Available Clinical BERT Embeddings Emily Alsentzer John R. Murphy Willie Boag W. Weng Di Jin Tristan Naumann Matthew B. A. McDermott AI4MH 659 2,322 0 06 Apr 2019
CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison Jeremy Irvin Pranav Rajpurkar M. Ko Yifan Yu Silviana Ciurea-Ilcus ... D. Larson C. Langlotz Bhavik Patel M. Lungren A. Ng 568 3,057 0 21 Jan 2019
UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction Leland McInnes John Healy James Melville 949 11,179 0 09 Feb 2018