GPT-NeoX-20B: An Open-Source Autoregressive Language Model

14 April 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (7200★)

Papers citing "GPT-NeoX-20B: An Open-Source Autoregressive Language Model"

50 / 603 papers shown

Text Quality-Based Pruning for Efficient Training of Language Models

...

Luke Zettlemoyer

278

26 Apr 2024

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Yizheng Huang

Jimmy X. Huang

3DV RALM

321

17 Apr 2024

Language Model Cascades: Token-level uncertainty and beyond

Neha Gupta

Harikrishna Narasimhan

Sanjiv Kumar

461

15 Apr 2024

JaFIn: Japanese Financial Instruction Dataset

166

14 Apr 2024

Navigating the Landscape of Large Language Models: A Comprehensive Review and Analysis of Paradigms and Fine-Tuning Strategies

Benjue Weng

LM&MA

284

13 Apr 2024

Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension

204

13 Apr 2024

Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

...

Peng Zhou

317

136

08 Apr 2024

Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language ModelsInternational Conference on Language Resources and Evaluation (LREC), 2024

Jifan Yu

Lei Hou

Juanzi Li

236

04 Apr 2024

Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models

Jianyi Zhang

Hao Frank Yang

Hai "Helen" Li

710

03 Apr 2024

Constrained Robotic Navigation on Preferred Terrains Using LLMs and Speech Instruction: Exploiting the Power of AdverbsInternational Symposium on Experimental Robotics (ISER), 2024

140

02 Apr 2024

Peer-aided Repairer: Empowering Large Language Models to Repair Advanced Student Assignments

Fang Liu

Yang Liu

183

02 Apr 2024

Release of Pre-Trained Models for the Japanese LanguageInternational Conference on Language Resources and Evaluation (LREC), 2024

207

02 Apr 2024

Beyond One-Size-Fits-All: Multi-Domain, Multi-Task Framework for Embedding Model Selection

Vivek Khetan

30 Mar 2024

The Invalsi Benchmarks: measuring Linguistic and Mathematical understanding of Large Language Models in Italian

Andrea Esuli

Giovanni Puccetti

ELM

252

27 Mar 2024

FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs

352

27 Mar 2024

Continual Few-shot Event Detection via Hierarchical Augmentation Networks

Kang Liu

Mengshu Sun

Jun Zhao

227

26 Mar 2024

Language Models for Text Classification: Is In-Context Learning Enough?

A. Edwards

Jose Camacho-Collados

LRM

253

26 Mar 2024

Large Language Models in Biomedical and Health Informatics: A Bibliometric Review

Lizhou Fan

...

Xin Ma

436

24 Mar 2024

Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach

Kun Sun

Rong Wang

Anders Sogaard

291

22 Mar 2024

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow InstructionsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Orion Weller

Benjamin Chang

Sean MacAvaney

Kyle Lo

Arman Cohan

Benjamin Van Durme

Dawn J Lawrie

Luca Soldaini

309

22 Mar 2024

ChatGPT Alternative Solutions: Large Language Models Survey

158

21 Mar 2024

Dated Data: Tracing Knowledge Cutoffs in Large Language Models

Daniel Khashabi

Benjamin Van Durme

286

19 Mar 2024

Rectifying Demonstration Shortcut in In-Context LearningNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

347

14 Mar 2024

The Garden of Forking Paths: Observing Dynamic Parameters Distribution in Large Language Models

165

13 Mar 2024

Language models scale reliably with over-training and on downstream tasksInternational Conference on Learning Representations (ICLR), 2024

...

Niklas Muennighoff

345

13 Mar 2024

Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models

Weilin Zhao

Zhiyuan Liu

Maosong Sun

ALM MoMe AI4CE

451

13 Mar 2024

MEIT: Multimodal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation

404

07 Mar 2024

Reliable, Adaptable, and Attributable Language Models with Retrieval

Akari Asai

Zexuan Zhong

Danqi Chen

Pang Wei Koh

Luke Zettlemoyer

Hanna Hajishirzi

Anuj Kumar

KELM RALM

322

05 Mar 2024

How Well Can Transformers Emulate In-context Newton's Method?

Angeliki Giannou

Liu Yang

Tianhao Wang

Dimitris Papailiopoulos

Jason D. Lee

243

05 Mar 2024

Online Training of Large Language Models: Learn while chatting

266

04 Mar 2024

An Improved Traditional Chinese Evaluation Suite for Foundation Model

489

04 Mar 2024

Exploring the Efficacy of Large Language Models in Summarizing Mental Health Counseling Sessions: A Benchmark Study

Prottay Kumar Adhikary

285

29 Feb 2024

On the Societal Impact of Open Foundation Models

...

305

27 Feb 2024

Language Models for Code Completion: A Practical Evaluation

173

25 Feb 2024

Fast Adversarial Attacks on Language Models In One GPU Minute

Vinu Sankar Sadasivan

Shoumik Saha

Gaurang Sriramanan

Priyatham Kattakinda

Atoosa Malemir Chegini

Soheil Feizi

MIALM

336

23 Feb 2024

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

...

Raghuraman Krishnamoorthi

Liangzhen Lai

Vikas Chandra

ALM

342

185

22 Feb 2024

Chain-of-Thought Unfaithfulness as Disguised Accuracy

347

22 Feb 2024

Se^2

: Sequential Example Selection for In-Context Learning

238

21 Feb 2024

DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing

152

21 Feb 2024

DrBenchmark: A Large Language Understanding Evaluation Benchmark for French Biomedical Domain

Pacome Constant dit Beaufils

...

225

20 Feb 2024

The Hidden Space of Transformer Language Adapters

Jesujoba Oluwadara Alabi

363

20 Feb 2024

Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries

365

20 Feb 2024

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains

487

367

15 Feb 2024

Personalized Large Language Models

205

14 Feb 2024

Can LLMs Learn New Concepts Incrementally without Forgetting?

266

13 Feb 2024

LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents

203

13 Feb 2024

Tuning-Free Stochastic Optimization

Ahmed Khaled

Chi Jin

237

12 Feb 2024

ZeroPP: Unleashing Exceptional Parallelism Efficiency through Tensor-Parallelism-Free Methodology

420

06 Feb 2024

Enhancing Transformer RNNs with Multiple Temporal Perspectives

Razvan-Gabriel Dumitru

Darius Peteleaza

Mihai Surdeanu

AI4TS

237

04 Feb 2024

Frequency Explains the Inverse Correlation of Large Language Models' Size, Training Data Amount, and Surprisal's Fit to Reading Times

Byung-Doh Oh

Shisen Yue

William Schuler

298

03 Feb 2024