v1v2v3 (latest)

Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

23 April 2020

Kyle Lo

Papers citing "Don't Stop Pretraining: Adapt Language Models to Domains and Tasks"

50 / 1,369 papers shown

SPICA: Retrieving Scenarios for Pluralistic In-Context AlignmentAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

230

16 Nov 2024

Efficient Alignment of Large Language Models via Data Sampling

Amrit Khera

Rajat Ghosh

Debojyoti Dutta

496

15 Nov 2024

Unstructured Text Enhanced Open-domain Dialogue System: A Systematic Survey

354

14 Nov 2024

Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge DistillationNeural Information Processing Systems (NeurIPS), 2024

250

10 Nov 2024

CoPrompter: User-Centric Evaluation of LLM Instruction Alignment for Improved Prompt EngineeringInternational Conference on Intelligent User Interfaces (IUI), 2024

304

09 Nov 2024

Gradient Localization Improves Lifelong Pretraining of Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

308

07 Nov 2024

DELIFT: Data Efficient Language model Instruction Fine TuningInternational Conference on Learning Representations (ICLR), 2024

Ishika Agarwal

Krishnateja Killamsetty

Yatin Nandwani

Marina Danilevksy

ALM VLM

714

07 Nov 2024

Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024

242

06 Nov 2024

A Bayesian Approach to Data Point SelectionNeural Information Processing Systems (NeurIPS), 2024

Timothy M. Hospedales

243

06 Nov 2024

Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language ModelsNeural Information Processing Systems (NeurIPS), 2024

295

01 Nov 2024

BenchX: A Unified Benchmark Framework for Medical Vision-Language Pretraining on Chest X-RaysNeural Information Processing Systems (NeurIPS), 2024

Yong Liu

175

29 Oct 2024

RoBIn: A Transformer-Based Model For Risk Of Bias Inference With Machine Reading ComprehensionJournal of Biomedical Informatics (JBI), 2024

Abel Corrêa Dias

Viviane Pereira Moreira

João Luiz Dihl Comba

253

28 Oct 2024

TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text

152

28 Oct 2024

Reducing the Scope of Language Models

274

28 Oct 2024

RSA-Control: A Pragmatics-Grounded Lightweight Controllable Text Generation FrameworkConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Yifan Wang

Vera Demberg

219

24 Oct 2024

Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow ExtractionConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Sergio Burdisso

S. Madikeri

P. Motlícek

342

24 Oct 2024

ZIP-FIT: Embedding-Free Data Selection via Compression-Based Alignment

302

23 Oct 2024

DomainSum: A Hierarchical Benchmark for Fine-Grained Domain Shift in Abstractive Text SummarizationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Haohan Yuan

Haopeng Zhang

212

21 Oct 2024

Scalable Data Ablation Approximations for Language Models through Modular Training and MergingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Jesse Dodge

165

21 Oct 2024

MELT: Materials-aware Continued Pre-training for Language Model Adaptation to Materials ScienceConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

172

19 Oct 2024

From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition

233

17 Oct 2024

BanTH: A Multi-label Hate Speech Detection Dataset for Transliterated BanglaNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Fabiha Haider

Fariha Tanjim Shifat

Md Farhan Ishmam

Deeparghya Dutta Barua

Md Sakib Ul Rahman Sourove

Md Fahim

Md Farhad Alam

342

17 Oct 2024

SLM-Mod: Small Language Models Surpass LLMs at Content ModerationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Xianyang Zhan

Agam Goyal

Yilun Chen

Eshwar Chandrasekharan

Koustuv Saha

AI4MH

909

17 Oct 2024

Tracking Universal Features Through Fine-Tuning and Model Merging

Niels Horn

Desmond Elliott

MoMe

151

16 Oct 2024

Prompt Compression for Large Language Models: A SurveyNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Zongqian Li

Yinhong Liu

Yixuan Su

Nigel Collier

310

16 Oct 2024

REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding ModelsApplied Informatics (AI), 2024

197

16 Oct 2024

Exploring Large Language Models for Hate Speech Detection in Rioplatense SpanishNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Juan Manuel Pérez

Paula Miguel

Viviana Cotik

116

16 Oct 2024

TSDS: Data Selection for Task-Specific Model FinetuningNeural Information Processing Systems (NeurIPS), 2024

Zifan Liu

Amin Karbasi

Theodoros Rekatsinas

309

15 Oct 2024

LexSumm and LexT5: Benchmarking and Modeling Legal Summarization Tasks in English

466

12 Oct 2024

ELICIT: LLM Augmentation via External In-Context CapabilityInternational Conference on Learning Representations (ICLR), 2024

Futing Wang

Jianhao Yan

Yue Zhang

Tao Lin

382

12 Oct 2024

Extracting and Combining Abilities For Building Multi-lingual Ability-enhanced Large Language Models

410

10 Oct 2024

Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language ModelsInternational Conference on Learning Representations (ICLR), 2024

Vahab Mirrokni

286

09 Oct 2024

Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Mirco Ravanelli

230

08 Oct 2024

From Tokens to Words: On the Inner Lexicon of LLMsInternational Conference on Learning Representations (ICLR), 2024

Guy Kaplan

Matanel Oren

Yuval Reif

Roy Schwartz

443

08 Oct 2024

DEPT: Decoupled Embeddings for Pre-training Language ModelsInternational Conference on Learning Representations (ICLR), 2024

William F. Shen

Dongqi Cai

Nicholas D. Lane

1.4K

07 Oct 2024

Upsample or Upweight? Balanced Training on Heavily Imbalanced DatasetsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Tianjian Li

Haoran Xu

Weiting Tan

Kenton Murray

Daniel Khashabi

525

06 Oct 2024

Entity Insertion in Multilingual Linked Corpora: The Case of WikipediaConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

239

05 Oct 2024

Still Not Quite There! Evaluating Large Language Models for Comorbid Mental Health DiagnosisConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Amey Hengle

Atharva Kulkarni

Shantanu Patankar

Madhumitha Chandrasekaran

201

04 Oct 2024

Large Language Models can be Strong Self-Detoxifiers

Pin-Yu Chen

173

04 Oct 2024

Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval-Augmented Generation

444

04 Oct 2024

Dynamic Gradient Alignment for Online Data Mixing

Simin Fan

David Grangier

Pierre Ablin

155

03 Oct 2024

Comparing Criteria Development Across Domain Experts, Lay Users, and Models in Large Language Model Evaluation

Annalisa Szymanski

Simret Araya Gebreegziabher

200

02 Oct 2024

SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks

...

Huajun Chen

Qiang Zhang

ELM

268

02 Oct 2024

Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance

253

01 Oct 2024

AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization PreferenceConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Yang Han

Yiming Wang

Rui Wang

Lu Chen

Kai Yu

AI4TS ALM

150

01 Oct 2024

Evaluating the fairness of task-adaptive pretraining on unlabeled test data before few-shot text classification

Kush Dubey

219

30 Sep 2024

Classification of Radiological Text in Small and Imbalanced Datasets in a Non-English Language

131

30 Sep 2024

The Construction of Instruction-tuned LLMs for Finance without Instruction Data Using Continual Pretraining and Model Merging

Masanori Hirano

Kentaro Imajo

MoMe

156

30 Sep 2024

Task-Adaptive Pretrained Language Models via Clustered-Importance SamplingInternational Conference on Learning Representations (ICLR), 2024

David Grangier

Simin Fan

Skyler Seto

Pierre Ablin

456

30 Sep 2024

Do We Need Domain-Specific Embedding Models? An Empirical Investigation

Yixuan Tang

Yi Yang

AIFin

568

27 Sep 2024