v1v2v3v4 (latest)

OPT: Open Pre-trained Transformer Language Models

2 May 2022

Xian Li

Luke Zettlemoyer

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "OPT: Open Pre-trained Transformer Language Models"

50 / 2,924 papers shown

Toolformer: Language Models Can Teach Themselves to Use ToolsNeural Information Processing Systems (NeurIPS), 2023

Luke Zettlemoyer

472

2,744

09 Feb 2023

GPTScore: Evaluate as You DesireNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

See-Kiong Ng

394

407

08 Feb 2023

Revisiting Offline Compression: Going Beyond Factorization-based Methods for Transformer Language ModelsFindings (Findings), 2023

154

08 Feb 2023

ChatGPT versus Traditional Question Answering for Knowledge Graphs: Current Status and Future Directions Towards Knowledge Graph Chatbots

147

08 Feb 2023

Augmenting Zero-Shot Dense Retrievers with Plug-in Mixture-of-MemoriesConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

157

07 Feb 2023

Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and DiscoveryNeural Information Processing Systems (NeurIPS), 2023

336

363

07 Feb 2023

PLACES: Prompting Language Models for Social Conversation SynthesisFindings (Findings), 2023

Maximillian Chen

Alexandros Papangelis

Yang Liu

284

07 Feb 2023

Chain of Hindsight Aligns Language Models with FeedbackInternational Conference on Learning Representations (ICLR), 2023

Hao Liu

Carmelo Sferrazza

Pieter Abbeel

ALM

810

149

06 Feb 2023

The Gradient of Generative AI Release: Methods and ConsiderationsConference on Fairness, Accountability and Transparency (FAccT), 2023

Irene Solaiman

197

125

05 Feb 2023

FineDeb: A Debiasing Framework for Language Models

176

05 Feb 2023

Quantized Distributed Training of Large Models with Convergence GuaranteesInternational Conference on Machine Learning (ICML), 2023

I. Markov

Adrian Vladu

Qi Guo

Dan Alistarh

269

05 Feb 2023

The Science of Detecting LLM-Generated TextsCommunications of the ACM (CACM), 2023

395

236

04 Feb 2023

Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents

Xiaojian Ma

512

435

03 Feb 2023

Language Quantized AutoEncoders: Towards Unsupervised Text-Image AlignmentNeural Information Processing Systems (NeurIPS), 2023

Hao Liu

Wilson Yan

Pieter Abbeel

254

02 Feb 2023

Using In-Context Learning to Improve Dialogue SafetyConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Siva Reddy

Yang Liu

Dilek Z. Hakkani-Tür

268

02 Feb 2023

Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language ModelsInternational Conference on Machine Learning (ICML), 2023

Zhihong Shao

220

01 Feb 2023

Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention MapsInternational Conference on Learning Representations (ICLR), 2023

487

01 Feb 2023

In-Context Retrieval-Augmented Language ModelsTransactions of the Association for Computational Linguistics (TACL), 2023

572

858

31 Jan 2023

Benchmarking Large Language Models for News SummarizationTransactions of the Association for Computational Linguistics (TACL), 2023

Tianyi Zhang

Faisal Ladhak

Esin Durmus

Abigail Z. Jacobs

Kathleen McKeown

Tatsunori B. Hashimoto

ELM

327

676

31 Jan 2023

Grounding Language Models to Images for Multimodal Inputs and OutputsInternational Conference on Machine Learning (ICML), 2023

Jing Yu Koh

Ruslan Salakhutdinov

Daniel Fried

MLLM

448

151

31 Jan 2023

The Flan Collection: Designing Data and Methods for Effective Instruction TuningInternational Conference on Machine Learning (ICML), 2023

...

444

853

31 Jan 2023

Direct Preference-based Policy Optimization without Reward ModelingNeural Information Processing Systems (NeurIPS), 2023

260

30 Jan 2023

REPLUG: Retrieval-Augmented Black-Box Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

Weijia Shi

Luke Zettlemoyer

729

866

30 Jan 2023

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language ModelsInternational Conference on Machine Learning (ICML), 2023

Silvio Savarese

1.3K

6,781

30 Jan 2023

Large Language Models for Biomedical Knowledge Graph Construction: Information extraction from EMR notesWorkshop on Biomedical Natural Language Processing (BioNLP), 2023

211

29 Jan 2023

Understanding the Effectiveness of Very Large Language Models on Dialog Evaluation

223

27 Jan 2023

Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context LearningNeural Information Processing Systems (NeurIPS), 2023

Xinyi Wang

Wanrong Zhu

Michael Stephen Saxon

Mark Steyvers

William Yang Wang

BDL

539

163

27 Jan 2023

Call for Papers -- The BabyLM Challenge: Sample-efficient pretraining on a developmentally plausible corpus

221

27 Jan 2023

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability CurvatureInternational Conference on Machine Learning (ICML), 2023

E. Mitchell

Yoonho Lee

Alexander Khazatsky

Christopher D. Manning

Chelsea Finn

671

856

26 Jan 2023

Affective Faces for Goal-Driven Dyadic Communication

Scott Geng

Carl Vondrick

130

26 Jan 2023

PIT: Optimization of Dynamic Sparse Deep Learning Models via Permutation Invariant TransformationSymposium on Operating Systems Principles (SOSP), 2023

Ningxin Zheng

Huiqiang Jiang

Quan Zhang

Zhenhua Han

Yuqing Yang

...

Fan Yang

Chengruidong Zhang

Lili Qiu

Mao Yang

Lidong Zhou

204

26 Jan 2023

Explainable AI does not provide the explanations end-users are asking for

Savio Rozario

G. Cevora

XAI

189

25 Jan 2023

Efficient Language Model Training through Cross-Lingual and Progressive Transfer Learning

Malte Ostendorff

Georg Rehm

CLIP VLM CLL

310

23 Jan 2023

Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL RobustnessInternational Conference on Learning Representations (ICLR), 2023

...

303

21 Jan 2023

Prompting Large Language Model for Machine Translation: A Case StudyInternational Conference on Machine Learning (ICML), 2023

435

376

17 Jan 2023

RILS: Masked Visual Reconstruction in Language Semantic SpaceComputer Vision and Pattern Recognition (CVPR), 2023

Shusheng Yang

Ying Shan

194

17 Jan 2023

TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real WorldACM Multimedia (ACM MM), 2023

...

Qin Jin

209

14 Jan 2023

Leveraging Large Language Models to Power Chatbots for Collecting User Self-Reported Data

300

127

14 Jan 2023

See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning

Chuang Gan

284

12 Jan 2023

The Role of Interactive Visualization in Explaining (Large) NLP Models: from Data to Inference

153

11 Jan 2023

Recommending Root-Cause and Mitigation Steps for Cloud Incidents using Large Language ModelsInternational Conference on Software Engineering (ICSE), 2023

177

10 Jan 2023

Scaling Laws for Generative Mixed-Modal Language ModelsInternational Conference on Machine Learning (ICML), 2023

Luke Zettlemoyer

314

137

10 Jan 2023

Does compressing activations help model parallel training?Conference on Machine Learning and Systems (MLSys), 2023

Shivaram Venkataraman

230

06 Jan 2023

UniHD at TSAR-2022 Shared Task: Is Compute All We Need for Lexical Simplification?

Dennis Aumiller

Michael Gertz

200

04 Jan 2023

SparseGPT: Massive Language Models Can Be Accurately Pruned in One-ShotInternational Conference on Machine Learning (ICML), 2023

Elias Frantar

Dan Alistarh

VLM

607

1,054

02 Jan 2023

Rethinking with Retrieval: Faithful Large Language Model Inference

488

205

31 Dec 2022

Targeted Phishing Campaigns using Large Scale Language Models

Rabimba Karanjai

250

30 Dec 2022

Hungry Hungry Hippos: Towards Language Modeling with State Space ModelsInternational Conference on Learning Representations (ICLR), 2022

440

556

28 Dec 2022

Large Language Models Encode Clinical KnowledgeNature (Nature), 2022

...

Alan Karthikesalingam

Vivek Natarajan

LM&MA ELM AI4MH

608

3,513

26 Dec 2022

Do DALL-E and Flamingo Understand Each Other?IEEE International Conference on Computer Vision (ICCV), 2022

Jindong Gu

226

23 Dec 2022