GPT-NeoX-20B: An Open-Source Autoregressive Language Model

14 April 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (7200★)

Papers citing "GPT-NeoX-20B: An Open-Source Autoregressive Language Model"

50 / 603 papers shown

Prompting Techniques for Secure Code Generation: A Systematic Investigation

Catherine Tony

Nicolás E. Díaz Ferreyra

Markus Mutas

Salem Dhiff

Riccardo Scandariato

SILM

430

09 Jul 2024

LLMBox: A Comprehensive Library for Large Language Models

...

Junyi Li

Wayne Xin Zhao

Ji-Rong Wen

162

08 Jul 2024

Looking into Black Box Code Language Models

Muhammad Umair Haider

Umar Farooq

A.B. Siddique

Mark Marron

244

05 Jul 2024

Leveraging Graph Structures to Detect Hallucinations in Large Language Models

166

05 Jul 2024

Learning to (Learn at Test Time): RNNs with Expressive Hidden States

...

605

184

05 Jul 2024

Universal Length Generalization with Turing Programs

228

03 Jul 2024

Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model

Jian Yang

...

Zhoujun Li

168

03 Jul 2024

Efficient Training of Language Models with Compact and Consistent Next Token Distributions

Ashutosh Sathe

Sunita Sarawagi

204

03 Jul 2024

Towards More Realistic Extraction Attacks: An Adversarial Perspective

353

02 Jul 2024

RegMix: Data Mixture as Regression for Language Model Pre-training

Qian Liu

Niklas Muennighoff

369

01 Jul 2024

ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting

415

28 Jun 2024

Resolving Discrepancies in Compute-Optimal Scaling of Language Models

Ludwig Schmidt

443

27 Jun 2024

RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulaiton

Lin Ma

435

27 Jun 2024

Enhancing Data Privacy in Large Language Models through Private Association Editing

Fabio Massimo Zanzotto

KELM

176

26 Jun 2024

OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure

Jikai Wang

Yi Su

Juntao Li

Qingrong Xia

Zi Ye

Xinyu Duan

Zhefeng Wang

Min Zhang

402

25 Jun 2024

Large Vocabulary Size Improves Large Language Models

305

24 Jun 2024

Blind Baselines Beat Membership Inference Attacks for Foundation Models

Debeshee Das

Jie Zhang

Florian Tramèr

MIALM

689

23 Jun 2024

ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods

568

23 Jun 2024

Evaluating Diversity in Automatic Poetry Generation

287

21 Jun 2024

Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models

192

20 Jun 2024

VELO: A Vector Database-Assisted Cloud-Edge Collaborative LLM QoS Optimization Framework

Weijia Jia

270

19 Jun 2024

Evaluating

n

-Gram Novelty of Language Models Using Rusty-DAWG

395

18 Jun 2024

MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

Zayd Muhammad Kawakibi Zuhri

Muhammad Farid Adilazuarda

Ayu Purwarianti

Alham Fikri Aji

248

13 Jun 2024

State Soup: In-Context Skill Learning, Retrieval and Mixing

Maciej Wołczyk

117

12 Jun 2024

Evaluating Zero-Shot Long-Context LLM Compression

Chenyu Wang

Yihan Wang

Kai Li

277

10 Jun 2024

Causal Estimation of Memorisation ProfilesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

268

06 Jun 2024

Enhancing In-Context Learning Performance with just SVD-Based Weight Pruning: A Theoretical Perspective

240

06 Jun 2024

BindGPT: A Scalable Framework for 3D Molecular Design via Language Modeling and Reinforcement Learning

Rim Shayakhmetov

188

06 Jun 2024

Block Transformer: Global-to-Local Language Modeling for Fast Inference

Se-Young Yun

306

04 Jun 2024

Editing the Mind of Giants: An In-Depth Exploration of Pitfalls of Knowledge Editing in Large Language Models

218

03 Jun 2024

R2C2-Coder: Enhancing and Benchmarking Real-world Repository-level Code Completion Abilities of Code Large Language Models

...

322

03 Jun 2024

A Survey on Large Language Models for Code Generation

Fan Wang

508

503

01 Jun 2024

Robust Knowledge Distillation Based on Feature Variance Against Backdoored Teacher Model

152

01 Jun 2024

Using Large Language Models for Humanitarian Frontline Negotiation: Opportunities and Considerations

...

30 May 2024

Faster Cascades via Speculative Decoding

Harikrishna Narasimhan

Sanjiv Kumar

360

29 May 2024

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

Zhen Qin

269

27 May 2024

Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering

154

27 May 2024

Lessons from the Trenches on Reproducible Evaluation of Language Models

...

357

102

23 May 2024

A Survey on Vision-Language-Action Models for Embodied AI

880

164

23 May 2024

The AI Community Building the Future? A Quantitative Analysis of Development Activity on Hugging Face Hub

Cailean Osborne

Jennifer Ding

Hannah Rose Kirk

228

20 May 2024

Alternators For Sequence Modeling

Mohammad Reza Rezaei

Adji Bousso Dieng

219

20 May 2024

The Future of Large Language Model Pre-training is Federated

...

438

17 May 2024

IGOT: Information Gain Optimized Tokenizer on Domain Adaptive Pretraining

115

16 May 2024

Zero-Shot Tokenizer TransferNeural Information Processing Systems (NeurIPS), 2024

274

13 May 2024

OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning

...

Min Zhang

222

09 May 2024

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Sander Land

Max Bartolo

271

08 May 2024

Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore

Min Zhang

284

07 May 2024

CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models

221

01 May 2024

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

...

398

164

01 May 2024

RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing

Yucheng Hu

Yuxing Lu

RALM

397

30 Apr 2024