Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2001.08361
Cited By

Scaling Laws for Neural Language Models

Scaling Laws for Neural Language Models

23 January 2020

ArXiv (abs)PDF HTML HuggingFace (9 upvotes)

Papers citing "Scaling Laws for Neural Language Models"

50 / 4,145 papers shown

Efficient Federated Search for Retrieval-Augmented Generation using Lightweight Routing

Efficient Federated Search for Retrieval-Augmented Generation using Lightweight Routing

Anne-Marie Kermarrec

Martijn de Vos

390

10

0

10 Apr 2026

MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data

MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data

537

10

0

10 Apr 2026

Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test

Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test

Jonathan Michala

Willie Neiswanger

617

6

0

10 Apr 2026

Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens

Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens

188

0

0

30 Mar 2026

Neural Models and Language Model Prompting for the Multidimensional Evaluation of Open-Ended Conversations

Neural Models and Language Model Prompting for the Multidimensional Evaluation of Open-Ended Conversations

Michelle Elizabeth

Natalia Krawczyk

Gwénolé Lecorvé

Justyna Gromada

L. Rojas-Barahona

158

2

0

30 Mar 2026

Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos

Mistake Attribution: Fine-Grained Mistake Understanding in Egocentric Videos

Filippos Bellos

167

2

0

27 Mar 2026

Toward Storage-Aware Learning with Compressed Data An Empirical Exploratory Study on JPEG

Toward Storage-Aware Learning with Compressed Data An Empirical Exploratory Study on JPEG

205

1

0

24 Dec 2025

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI ArchitecturesInternational Symposium on Computer Architecture (ISCA), 2025

...

303

60

0

24 Dec 2025

RoBoN: Routed Online Best-of-n for Test-Time Scaling with Multiple LLMs

RoBoN: Routed Online Best-of-n for Test-Time Scaling with Multiple LLMs

Jonathan Geuter

Gregor Kornhardt

40

0

0

05 Dec 2025

Are LLMs Truly Multilingual? Exploring Zero-Shot Multilingual Capability of LLMs for Information Retrieval: An Italian Healthcare Use Case

Are LLMs Truly Multilingual? Exploring Zero-Shot Multilingual Capability of LLMs for Information Retrieval: An Italian Healthcare Use Case

Vignesh Kumar Kembu

Pierandrea Morandini

Marta Bianca Maria Ranzini

Antonino Nocera

94

2

0

04 Dec 2025

TRINITY: An Evolved LLM Coordinator

TRINITY: An Evolved LLM Coordinator

Peter Schwendeman

300

0

0

04 Dec 2025

SeeU: Seeing the Unseen World via 4D Dynamics-aware Generation

SeeU: Seeing the Unseen World via 4D Dynamics-aware Generation

Tharindu Wickremasinghe

Stanley H. Chan

306

1

0

03 Dec 2025

From FLOPs to Footprints: The Resource Cost of Artificial Intelligence

From FLOPs to Footprints: The Resource Cost of Artificial Intelligence

Lisa Biber-Freudenberger

Aimee van Wynsberghe

75

2

0

03 Dec 2025

A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models

A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models

472

0

0

03 Dec 2025

PretrainZero: Reinforcement Active Pretraining

PretrainZero: Reinforcement Active Pretraining

OffRL AIMat ReLM LRM AI4CE

528

2

0

03 Dec 2025

Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

325

2

0

03 Dec 2025

Nexus: Higher-Order Attention Mechanisms in Transformers

Nexus: Higher-Order Attention Mechanisms in Transformers

402

0

0

03 Dec 2025

CSMapping: Scalable Crowdsourced Semantic Mapping and Topology Inference for Autonomous Driving

CSMapping: Scalable Crowdsourced Semantic Mapping and Topology Inference for Autonomous Driving

Chih-Chung Chou

148

0

0

03 Dec 2025

LLM-Generated Ads: From Personalization Parity to Persuasion Superiority

LLM-Generated Ads: From Personalization Parity to Persuasion Superiority

Elyas Meguellati

Stefano Civelli

Abraham Bernstein

Gianluca Demartini

152

0

0

03 Dec 2025

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

180

9

0

03 Dec 2025

Large Language Models for Limited Noisy Data: A Gravitational Wave Identification Study

Large Language Models for Limited Noisy Data: A Gravitational Wave Identification Study

211

0

0

03 Dec 2025

Data Curation Through the Lens of Spectral Dynamics: Static Limits, Dynamic Acceleration, and Practical Oracles

Data Curation Through the Lens of Spectral Dynamics: Static Limits, Dynamic Acceleration, and Practical Oracles

182

0

0

02 Dec 2025

PEFT-Factory: Unified Parameter-Efficient Fine-Tuning of Autoregressive Large Language Models

PEFT-Factory: Unified Parameter-Efficient Fine-Tuning of Autoregressive Large Language Models

Róbert Belanec

Maria Bielikova

517

0

0

02 Dec 2025

The brain-AI convergence: Predictive and generative world models for general-purpose computation

The brain-AI convergence: Predictive and generative world models for general-purpose computation

140

0

0

02 Dec 2025

Perch 2.0 transfers 'whale' to underwater tasks

Perch 2.0 transfers 'whale' to underwater tasks

B. V. Merrienboer

Vincent Dumoulin

47

0

0

02 Dec 2025

ZO-ASR: Zeroth-Order Fine-Tuning of Speech Foundation Models without Back-Propagation

ZO-ASR: Zeroth-Order Fine-Tuning of Speech Foundation Models without Back-Propagation

174

0

0

01 Dec 2025

Neural Networks for Predicting Permeability Tensors of 2D Porous Media: Comparison of Convolution- and Transformer-based Architectures

Neural Networks for Predicting Permeability Tensors of 2D Porous Media: Comparison of Convolution- and Transformer-based Architectures

Henrik Andersen Sveinsson

257

0

0

01 Dec 2025

MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification

MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification

Xabier de Zuazo

115

2

0

01 Dec 2025

Ensemble Privacy Defense for Knowledge-Intensive LLMs against Membership Inference Attacks

Ensemble Privacy Defense for Knowledge-Intensive LLMs against Membership Inference Attacks

153

0

0

01 Dec 2025

Silhouette-based Gait Foundation Model

Silhouette-based Gait Foundation Model

Vishal M. Patel

96

0

0

30 Nov 2025

Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction

Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction

150

2

0

29 Nov 2025

SimScale: Learning to Drive via Real-World Simulation at Scale

SimScale: Learning to Drive via Real-World Simulation at Scale

...

206

8

0

28 Nov 2025

Pathryoshka: Compressing Pathology Foundation Models via Multi-Teacher Knowledge Distillation with Nested Embeddings

Pathryoshka: Compressing Pathology Foundation Models via Multi-Teacher Knowledge Distillation with Nested Embeddings

Christian Grashei

Christian Brechenmacher

Rao Muhammad Umer

Peter Schuffler

108

0

0

28 Nov 2025

Experts are all you need: A Composable Framework for Large Language Model Inference

Experts are all you need: A Composable Framework for Large Language Model Inference

227

0

0

28 Nov 2025

Rethinking Test Time Scaling for Flow-Matching Generative Models

Rethinking Test Time Scaling for Flow-Matching Generative Models

Vinay Kumar Verma

123

1

0

27 Nov 2025

An interpretable unsupervised representation learning for high precision measurement in particle physics

An interpretable unsupervised representation learning for high precision measurement in particle physics

33

0

0

27 Nov 2025

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

Shanghang Zhang

147

4

0

27 Nov 2025

On the Origin of Algorithmic Progress in AI

On the Origin of Algorithmic Progress in AI

Jonathan Rosenfeld

130

1

0

26 Nov 2025

Mechanisms of Non-Monotonic Scaling in Vision Transformers

Mechanisms of Non-Monotonic Scaling in Vision Transformers

Anantha Padmanaban Krishna Kumar

152

0

0

26 Nov 2025

Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium

Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium

Akbar Anbar Jafari

102

2

0

26 Nov 2025

Emergent Lexical Semantics in Neural Language Models: Testing Martin's Law on LLM-Generated Text

Emergent Lexical Semantics in Neural Language Models: Testing Martin's Law on LLM-Generated Text

141

0

0

26 Nov 2025

Deep Learning as a Convex Paradigm of Computation: Minimizing Circuit Size with ResNets

Deep Learning as a Convex Paradigm of Computation: Minimizing Circuit Size with ResNets

146

1

0

25 Nov 2025

HHFT: Hierarchical Heterogeneous Feature Transformer for Recommendation Systems

HHFT: Hierarchical Heterogeneous Feature Transformer for Recommendation Systems

Dan Ou

255

8

0

25 Nov 2025

Designing Preconditioners for SGD: Local Conditioning, Noise Floors, and Basin Stability

Designing Preconditioners for SGD: Local Conditioning, Noise Floors, and Basin Stability

Alexandra Pichette-Emmons

335

3

0

24 Nov 2025

Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning

Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning

130

6

0

24 Nov 2025

Fast Escape, Slow Convergence: Learning Dynamics of Phase Retrieval under Power-Law Data

Fast Escape, Slow Convergence: Learning Dynamics of Phase Retrieval under Power-Law Data

Guillaume Braun

Masaaki Imaizumi

159

1

0

24 Nov 2025

Efficient Inference Using Large Language Models with Limited Human Data: Fine-Tuning then Rectification

Efficient Inference Using Large Language Models with Limited Human Data: Fine-Tuning then Rectification

267

1

0

23 Nov 2025

Dealing with the Hard Facts of Low-Resource African NLP

Dealing with the Hard Facts of Low-Resource African NLP

Nouhoum Souleymane Coulibaly

Panga Azazia Kamaté

Madani Amadou Tall

Emmanuel Élisé Koné

Aymane Dembélé

Michael Leventhal

125

1

0

23 Nov 2025

Foundations of Artificial Intelligence Frameworks: Notion and Limits of AGI

Foundations of Artificial Intelligence Frameworks: Notion and Limits of AGI

412

0

0

23 Nov 2025

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Daniel F. Schmidt

162

4

0

22 Nov 2025

1 2 3 4...81 82 83

Page 1 of 83

Pageof 83