HellaSwag: Can a Machine Really Finish Your Sentence?

Annual Meeting of the Association for Computational Linguistics (ACL), 2019

19 May 2019

Yejin Choi

Papers citing "HellaSwag: Can a Machine Really Finish Your Sentence?"

50 / 2,253 papers shown

Tensorized Clustered LoRA Merging for Multi-Task Interference

178

06 Aug 2025

Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning

Magauiya Zhussip

Dmitriy Shopkhoev

Ammar Ali

Stamatios Lefkimmiatis

107

06 Aug 2025

Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models

Zhengwu Liu

Ngai Wong

114

05 Aug 2025

FPEdit: Robust LLM Fingerprinting through Localized Parameter Editing

268

04 Aug 2025

Parameter-Efficient Routed Fine-Tuning: Mixture-of-Experts Demands Mixture of Adaptation Modules

120

04 Aug 2025

Kron-LoRA: Hybrid Kronecker-LoRA Adapters for Scalable, Sustainable Fine-tuning

Yixin Shen

143

04 Aug 2025

Trainable Dynamic Mask Sparse Attention

351

04 Aug 2025

Beyond Manually Designed Pruning Policies with Second-Level Performance Prediction: A Pruning Framework for LLMs

Zuxin Ma

Yunhe Cui

Yongbin Qin

141

04 Aug 2025

FlashCommunication V2: Bit Splitting and Spike Reserving for Any Bit Communication

138

04 Aug 2025

CAMERA: Multi-Matrix Joint Compression for MoE Models via Micro-Expert Redundancy Analysis

409

04 Aug 2025

EAC-MoE: Expert-Selection Aware Compressor for Mixture-of-Experts Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

161

03 Aug 2025

Revisiting Replay and Gradient Alignment for Continual Pre-Training of Large Language Models

115

03 Aug 2025

LinkQA: Synthesizing Diverse QA from Multiple Seeds Strongly Linked by Knowledge Points

208

02 Aug 2025

Large-Scale Diverse Synthesis for Mid-Training

151

02 Aug 2025

Oedipus and the Sphinx: Benchmarking and Improving Visual Language Models for Complex Graphic Reasoning

153

01 Aug 2025

Unveiling Super Experts in Mixture-of-Experts Large Language Models

277

31 Jul 2025

KLLM: Fast LLM Inference with K-Means Quantization

254

30 Jul 2025

ISO-Bench: Benchmarking Multimodal Causal Reasoning in Visual-Language Models through Procedural Plans

159

30 Jul 2025

League of LLMs: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models

Xiaofeng Wang

Baosheng Wang

ELM

191

30 Jul 2025

Strategic Deflection: Defending LLMs from Logit Manipulation

Amal El Fallah Seghrouchni

AAML LLMSV

155

29 Jul 2025

Kimi K2: Open Agentic Intelligence

...

179

28 Jul 2025

Intent Aware Context Retrieval for Multi-Turn Agricultural Question Answering

28 Jul 2025

MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge

Christopher G. Brinton

290

27 Jul 2025

IQ Test for LLMs: An Evaluation Framework for Uncovering Core Skills in LLMs

137

27 Jul 2025

DeltaLLM: A Training-Free Framework Exploiting Temporal Sparsity for Efficient Edge LLM Inference

162

25 Jul 2025

Technical Report of TeleChat2, TeleChat2.5 and T1

...

422

24 Jul 2025

Squeeze10-LLM: Squeezing LLMs' Weights by 10 Times via a Staged Mixed-Precision Quantization Method

...

161

24 Jul 2025

Innovator: Scientific Continued Pretraining with Fine-grained MoE Upcycling

...

243

24 Jul 2025

A Comprehensive Evaluation on Quantization Techniques for Large Language Models

Yutong Liu

Cairong Zhao

Guosheng Hu

215

23 Jul 2025

Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models

385

23 Jul 2025

MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs

326

23 Jul 2025

WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training

251

23 Jul 2025

LLM Data Selection and Utilization via Dynamic Bi-level Optimization

239

22 Jul 2025

Diffusion Beats Autoregressive in Data-Constrained Settings

331

21 Jul 2025

Is Large Language Model Performance on Reasoning Tasks Impacted by Different Ways Questions Are Asked?Annual Meeting of the Association for Computational Linguistics (ACL), 2025

184

21 Jul 2025

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

171

21 Jul 2025

StackTrans: From Large Language Model to Large Pushdown Automata Model

171

21 Jul 2025

Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

168

20 Jul 2025

LoRA meets Riemannion: Muon Optimizer for Parametrization-independent Low-Rank Adapters

Vladimir Bogachev

Vladimir Aletov

Alexander Molozhavenko

147

16 Jul 2025

First-Order Error Matters: Accurate Compensation for Quantized Large Language Models

285

15 Jul 2025

Composing Linear Layers from Irreducibles

Travis Pence

Daisuke Yamada

Vikas Singh

207

15 Jul 2025

FusionFactory: Fusing LLM Capabilities with Multi-LLM Log Data

203

14 Jul 2025

PRM-Free Security Alignment of Large Models via Red Teaming and Adversarial Training

Pengfei Du

AAML

151

14 Jul 2025

Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving

...

627

14 Jul 2025

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models

215

12 Jul 2025

Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training

...

373

12 Jul 2025

Lizard: An Efficient Linearization Framework for Large Language Models

...

247

11 Jul 2025

AbbIE: Autoregressive Block-Based Iterative Encoder for Efficient Sequence Modeling

Preslav Aleksandrov

Meghdad Kurmanji

Fernando Garcia Redondo

186

11 Jul 2025

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

260

11 Jul 2025

Pre-Training LLMs on a budget: A comparison of three optimizers

197

11 Jul 2025