GPT-NeoX-20B: An Open-Source Autoregressive Language Model

14 April 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (7200★)

Papers citing "GPT-NeoX-20B: An Open-Source Autoregressive Language Model"

50 / 603 papers shown

Getting the most out of your tokenizer for pre-training and domain adaptation

Gautier Dagan

Gabriele Synnaeve

Baptiste Rozière

356

01 Feb 2024

OLMo: Accelerating the Science of Language Models

Dirk Groeneveld

Iz Beltagy

Pete Walsh

Akshita Bhagia

Rodney Michael Kinney

...

Jesse Dodge

Kyle Lo

Luca Soldaini

Noah A. Smith

Hanna Hajishirzi

OSLM

651

550

01 Feb 2024

Does DetectGPT Fully Utilize Perturbation? Bridging Selective Perturbation to Fine-tuned Contrastive Learning Detector would be Better

Xiaoming Liu

224

01 Feb 2024

Probing Language Models' Gesture Understanding for Enhanced Human-AI Interaction

Philipp Wicke

132

31 Jan 2024

TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese

268

30 Jan 2024

NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional Correctness

287

29 Jan 2024

Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting

250

28 Jan 2024

OMPGPT: A Generative Pre-trained Transformer Model for OpenMPEuropean Conference on Parallel Processing (Euro-Par), 2024

Nesreen Ahmed

224

28 Jan 2024

A Survey on Data Augmentation in Large Model Era

485

27 Jan 2024

DsDm: Model-Aware Dataset Selection with DatamodelsInternational Conference on Machine Learning (ICML), 2024

286

23 Jan 2024

Enhancing In-context Learning via Linear Probe CalibrationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Tianyi Chen

242

22 Jan 2024

Text Embedding Inversion Security for Multilingual Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Yiyi Chen

Heather Lent

Johannes Bjerva

441

22 Jan 2024

AttentionLego: An Open-Source Building Block For Spatially-Scalable Large Language Model Accelerator With Processing-In-Memory Technology

21 Jan 2024

Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation

Zdeněk Kasner

Ondrej Dusek

331

18 Jan 2024

Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated TextUSENIX Security Symposium (USENIX Security), 2024

Mazal Bethany

Brandon Wherry

Emet Bethany

Nishant Vishwamitra

Anthony Rios

Peyman Najafirad

DeLMO

224

17 Jan 2024

The What, Why, and How of Context Length Extension Techniques in Large Language Models -- A Detailed Survey

Saurav Pawar

S.M. Towhidul Islam Tonmoy

S. M. M. Zaman

Vinija Jain

Vasu Sharma

Amitava Das

215

15 Jan 2024

Extending LLMs' Context Window with 100 Samples

Yikai Zhang

Junlong Li

Pengfei Liu

213

13 Jan 2024

Mind Your Format: Towards Consistent Evaluation of In-Context Learning ImprovementsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Anton Voronov

Lena Wolf

Max Ryabinin

332

12 Jan 2024

Chain of History: Learning and Forecasting with LLMs for Temporal Knowledge Graph Completion

Yujiu Yang

425

11 Jan 2024

Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

489

11 Jan 2024

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems

...

Qi Li

321

11 Jan 2024

How predictable is language model benchmark performance?

David Owen

ELM LRM

248

09 Jan 2024

Exploring Prompt-Based Methods for Zero-Shot Hypernym Prediction with Large Language Models

M. Tikhomirov

Natalia Loukachevitch

117

09 Jan 2024

The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models

265

109

06 Jan 2024

GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social AbuseACM Transactions on Intelligent Systems and Technology (ACM TIST), 2024

532

03 Jan 2024

Differentially Private Low-Rank Adaptation of Large Language Model Using Federated LearningACM Transactions on Management Information Systems (ACM TMIS), 2023

Daochen Zha

279

29 Dec 2023

Spike No More: Stabilizing the Pre-training of Large Language Models

425

28 Dec 2023

Large Language Models for Conducting Advanced Text Analytics Information Systems Research

350

27 Dec 2023

MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks

Jingyao Li

Pengguang Chen

Jiaya Jia

Hong Xu

Jiaya Jia

LRM

211

26 Dec 2023

Efficient LLM inference solution on Intel GPU

...

170

19 Dec 2023

kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest Neighbor In-Context Learning

Philip S. Yu

200

17 Dec 2023

Paloma: A Benchmark for Evaluating Language Model Fit

Akshita Bhagia

Luca Soldaini

...

332

16 Dec 2023

SECap: Speech Emotion Captioning with Large Language ModelAAAI Conference on Artificial Intelligence (AAAI), 2023

Zhiyong Wu

257

16 Dec 2023

Catwalk: A Unified Language Model Evaluation Framework for Many Datasets

Dirk Groeneveld

Anas Awadalla

Iz Beltagy

Akshita Bhagia

Ian H. Magnusson

Hao Peng

Oyvind Tafjord

Pete Walsh

Kyle Richardson

Jesse Dodge

265

15 Dec 2023

Learn or Recall? Revisiting Incremental Learning with Pre-trained Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Junhao Zheng

Shengjie Qiu

Qianli Ma

393

13 Dec 2023

An LLM Compiler for Parallel Function Calling

Sehoon Kim

Suhong Moon

Ryan Tabrizi

Nicholas Lee

380

114

07 Dec 2023

Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition

258

06 Dec 2023

SmoothQuant+: Accurate and Efficient 4-bit Post-Training WeightQuantization for LLM

185

06 Dec 2023

Scaling Laws for Adversarial Attacks on Language Model Activations

Stanislav Fort

140

05 Dec 2023

Efficient Online Data Mixing For Language Model Pre-Training

310

05 Dec 2023

FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity

220

30 Nov 2023

LLMs for Science: Usage for Code Generation and Data Analysis

235

28 Nov 2023

Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image GenerationConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

144

27 Nov 2023

Enhancing Uncertainty-Based Hallucination Detection with Stronger FocusConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Tianhang Zhang

Lin Qiu

Qipeng Guo

Cheng Deng

Yue Zhang

Zheng Zhang

Cheng Zhou

Xinbing Wang

Luoyi Fu

HILM

264

22 Nov 2023

LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms

123

22 Nov 2023

Towards Better Parameter-Efficient Fine-Tuning for Large Language Models: A Position Paper

Chengyu Wang

Junbing Yan

Wei Zhang

Jun Huang

ALM

191

22 Nov 2023

AcademicGPT: Empowering Academic Research

...

Lei Zhang

219

21 Nov 2023

Investigating Data Contamination in Modern Benchmarks for Large Language Models

Arman Cohan

390

111

16 Nov 2023

LongBoX: Evaluating Transformers on Long-Sequence Clinical Tasks

152

16 Nov 2023

zrLLM: Zero-Shot Relational Learning on Temporal Knowledge Graphs with Large Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

269

15 Nov 2023