v1v2v3 (latest)

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

5 February 2024

Zhihong Shao

Peiyi Wang

Runxin Xu

ArXiv (abs)PDF HTML HuggingFace (125 upvotes)Github (3224★)

Papers citing "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models"

50 / 2,701 papers shown

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

...

711

10 Apr 2026

Search-R3: Unifying Reasoning and Embedding in Large Language Models

Yuntao Gui

James Cheng

KELM LRM

264

10 Apr 2026

PEER: Unified Process-Outcome Reinforcement Learning for Structured Empathetic Reasoning

171

10 Apr 2026

Mitigating Visual Context Degradation in Large Multimodal Models: A Training-Free Decoupled Agentic Framework

184

10 Apr 2026

Aligning LLMs with Biomedical Knowledge using Balanced Fine-Tuning

...

Jiehui Huang

Dawei Huang

Zhi Song

Jianhua Yao

CLL AI4MH LM&MA AI4CE

543

30 Mar 2026

Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients

314

30 Mar 2026

Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum

190

30 Mar 2026

Humanline: Online Alignment as Perceptual Loss

131

30 Mar 2026

Clinical Metadata Guided Limited-Angle CT Image Reconstruction

151

30 Mar 2026

FIRM: Federated In-client Regularized Multi-objective Alignment for Large Language Models

Fatemeh

Nourzad

Amirhossein Roknilamouki

Eylem Ekici

Ness B. Shroff

365

27 Mar 2026

Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation

...

Zhiqiang Fang

Zhihao Qiu

Ziyuan Huang

Zizheng Yang

Zhengyu He

MLLM MoE AuLLM VLM LRM

452

27 Mar 2026

^2

GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning

215

24 Dec 2025

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI ArchitecturesInternational Symposium on Computer Architecture (ISCA), 2025

...

314

24 Dec 2025

RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow

372

24 Dec 2025

Reinforcement Learning for Large Model: A Survey

434

24 Dec 2025

Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning

363

24 Dec 2025

Environment Scaling for Interactive Agentic Experience Collection: A Survey

282

24 Dec 2025

Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

05 Dec 2025

Dynamic Alignment for Collective Agency: Toward a Scalable Self-Improving Framework for Open-Ended LLM Alignment

Panatchakorn Anantaprayoon

Nataliia Babina

Jad Tarifi

Nima Asgharbeygi

127

05 Dec 2025

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

276

05 Dec 2025

Value Gradient Guidance for Flow Matching Alignment

Zhen Liu

Tim Z. Xiao

Carles Domingo-Enrich

Weiyang Liu

Dinghuai Zhang

110

04 Dec 2025

Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning

Purbesh Mitra

S. Ulukus

OffRL ReLM LRM

242

04 Dec 2025

Are Your Agents Upward Deceivers?

...

224

04 Dec 2025

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

103

04 Dec 2025

Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark

427

04 Dec 2025

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

280

04 Dec 2025

Structured Document Translation via Format Reinforcement Learning

Haiyue Song

Johannes Eschbach-Dymanus

134

04 Dec 2025

CARL: Focusing Agentic Reinforcement Learning on Critical Actions

235

04 Dec 2025

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-free Melody Guidance

233

04 Dec 2025

Learning to Orchestrate Agents in Natural Language with the Conductor

186

04 Dec 2025

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GRPO and Singing-Specific Inductive Biases

04 Dec 2025

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

...

284

04 Dec 2025

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning

336

03 Dec 2025

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

192

03 Dec 2025

Multimodal Reinforcement Learning with Adaptive Verifier for AI Agents

...

287

03 Dec 2025

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

187

03 Dec 2025

PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

179

03 Dec 2025

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

333

03 Dec 2025

Balancing Safety and Helpfulness in Healthcare AI Assistants through Iterative Preference Alignment

Krishnaram Kenthapadi

Hal Daumé III

LM&MA

167

03 Dec 2025

PretrainZero: Reinforcement Active Pretraining

OffRL AIMat ReLM LRM AI4CE

531

03 Dec 2025

DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training

...

170

03 Dec 2025

Better World Models Can Lead to Better Post-Training Performance

188

03 Dec 2025

MarkTune: Improving the Quality-Detectability Trade-off in Open-Weight LLM Watermarking

Yizhou Zhao

Zhiwei Steven Wu

Adam Block

226

03 Dec 2025

LSRS: Latent Scale Rejection Sampling for Visual Autoregressive Modeling

Hong-Kai Zheng

Piji Li

107

03 Dec 2025

On Group Relative Policy Optimization Collapse in Agent Search: The Lazy Likelihood-Displacement

Christos Thrampoulidis

Xiaoxiao Li

179

03 Dec 2025

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Prakhar Gupta

Vaibhav Gupta

03 Dec 2025

ReasonX: MLLM-Guided Intrinsic Image Decomposition

118

03 Dec 2025

Joint Distillation for Fast Likelihood Evaluation and Sampling in Flow-based Models

Nicholas Matthew Boffi

Max Simchowitz

126

02 Dec 2025

Taming Camera-Controlled Video Generation with Verifiable Geometry Reward

202

02 Dec 2025

SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

Yixuan Tang

Yi Yang

ALM

216

02 Dec 2025