Title
Motif 2 12.7B technical report Junghwan Lim S. W. Lee Dongseok Kim Taehyun Kim Eunhwan Park ... Kungyu Lee Dongpin Oh Yeongjae Park Bokki Ryu Dongjoo Weon 84 0 0 07 Nov 2025
TwIST: Rigging the Lottery in Transformers with Independent Subnetwork Training Michael Menezes Barbara Su Xinze Feng Yehya Farhat Hamza Shili Anastasios Kyrillidis 148 1 0 06 Nov 2025
Exploring the Feasibility of End-to-End Large Language Model as a Compiler H. Zhang Shihao Gao Yang Liu Mingjie Xing Yanjun Wu Chen Zhao 104 0 0 06 Nov 2025
From Model to Breach: Towards Actionable LLM-Generated Vulnerabilities Reporting Cyril Vallez Alexander Sternfeld Andrei Kucharavy Ljiljana Dolamic ELM 165 0 0 06 Nov 2025
Where Do LLMs Still Struggle? An In-Depth Analysis of Code Generation Benchmarks Amir Molzam Sharifloo Maedeh Heydari Parsa Kazerooni Daniel Maninger Mira Mezini ALM 204 0 0 06 Nov 2025
REFLEX: Reference-Free Evaluation of Log Summarization via Large Language Model Judgment Priyanka Mudgal HILM 224 0 0 06 Nov 2025
Learning-based Cooperative Robotic Paper Wrapping: A Unified Control Policy with Residual Force Control Rewida Ali C. C. Beltran-Hernandez Weiwei Wan Kensuke Harada OffRL 72 0 0 05 Nov 2025
Secure Code Generation at Scale with Reflexion Arup Datta Ahmed Aljohani Hyunsook Do ELM 108 0 0 05 Nov 2025
Understanding Robustness of Model Editing in Code LLMs: An Empirical Study Vinaik Chhetri A.B. Siddique Umar Farooq KELM 96 0 0 05 Nov 2025
FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels Jiedong Jiang Wanyi He Yuefeng Wang Guoxiong Gao Yongle Hu ... Nailing Guan Peihao Wu Chunbo Dai Liang Xiao Bin Dong AIMat ELM LRM 354 1 0 04 Nov 2025
Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models Sanghyun Lee Seungryong Kim Jongho Park D. Park 71 1 0 04 Nov 2025
VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation Kevin Qinghong Lin Y. Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang 92 1 0 04 Nov 2025
PoCo: Agentic Proof-of-Concept Exploit Generation for Smart Contracts Vivi Andersson Sofia Bobadilla Harald Hobbelhagen Martin Monperrus 168 1 0 04 Nov 2025
LTD-Bench: Evaluating Large Language Models by Letting Them Draw Liuhao Lin Ke Li Zihan Xu Yuchen Shi Yulei Qin Y. Zhang Xing Sun Rongrong Ji 148 1 0 04 Nov 2025
TapOut: A Bandit-Based Approach to Dynamic Speculative Decoding Aditya Sridhar Nish Sinnadurai Sean Lie Vithursan Thangarasa 84 0 0 03 Nov 2025
Context-Guided Decompilation: A Step Towards Re-executability Xiaohan Wang Yuxin Hu Kevin Leach 84 0 0 03 Nov 2025
SmartMLOps Studio: Design of an LLM-Integrated IDE with Automated MLOps Pipelines for Model Development and Monitoring Jiawei Jin Yingxin Su Xiaotong Zhu VLM 72 0 0 03 Nov 2025
Why Should the Server Do It All?: A Scalable, Versatile, and Model-Agnostic Framework for Server-Light DNN Inference over Massively Distributed Clients via Training-Free Intermediate Feature Compression Mingyu Sung Suhwan Im Daeho Bang Il-Min Kim Sangseok Yun Jae-Mo Kang 72 0 0 03 Nov 2025
EngChain: A Symbolic Benchmark for Verifiable Multi-Step Reasoning in Engineering Ayesha Gull Muhammad Usman Safder Rania Elbadry Preslav Nakov Zhuohan Xie ELM LRM 200 0 0 03 Nov 2025
Detecting Vulnerabilities from Issue Reports for Internet-of-Things Sogol Masoumzadeh 60 0 0 03 Nov 2025
The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation İbrahim Ethem Deveci Duygu Ataman ReLM ALM ELM LRM 191 0 0 03 Nov 2025
IF-CRITIC: Towards a Fine-Grained LLM Critic for Instruction-Following Evaluation Bosi Wen Y. Niu C. Wang Pei Ke Xiaoying Ling Y. Zhang A. Zeng Hongning Wang Shiyu Huang ALM 144 0 0 02 Nov 2025
GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents Jie JW Wu Ayanda Patrick Herlihy Ahmad Saleem Mirza Ali Afoud Fatemeh H. Fard OffRL 56 0 0 02 Nov 2025
AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs Ran Yan Youhe Jiang Tianyuan Wu Jiaxuan Gao Zhiyu Mei Wei Fu Haohui Mai Wei Wang Y. Wu Binhang Yuan OffRL 124 1 0 02 Nov 2025
HarnessLLM: Automatic Testing Harness Generation via Reinforcement Learning Yujian Liu Jiabao Ji Yang Zhang Wenbo Guo Tommi Jaakkola Shiyu Chang 116 0 0 02 Nov 2025
HAFixAgent: History-Aware Automated Program Repair Agent Yu Shi Hao Li Bram Adams Ahmed E. Hassan 125 0 0 02 Nov 2025
SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding Jameson Sandler Jacob K Christopher Thomas Hartvigsen Ferdinando Fioretto 132 1 0 01 Nov 2025
HIP-LLM: A Hierarchical Imprecise Probability Approach to Reliability Assessment of Large Language Models Robab Aghazadeh-Chakherlou Qing Guo Siddartha Khastgir Peter Popov Xiaoge Zhang Xingyu Zhao 125 0 0 01 Nov 2025
$\texttt{ReMind}: Understanding Deductive Code Reasoning in LLMs$ \texttt{ReMind}: Understanding Deductive Code Reasoning in LLMs Jun Gao Yun Peng Xiaoxue Ren LRM 117 0 0 01 Nov 2025
What a diff makes: automating code migration with large language models Katherine A. Rosenfeld Cliff C. Kerr Jessica Lundin 36 0 0 31 Oct 2025
Inferring multiple helper Dafny assertions with LLMs Álvaro Silva Alexandra Mendes Ruben Martins 28 0 0 31 Oct 2025
Can LLMs Help You at Work? A Sandbox for Evaluating LLM Agents in Enterprise Environments Harsh Vishwakarma Ankush Agarwal Ojas Patil Chaitanya Devaguptapu Mahesh Chandran 84 0 0 31 Oct 2025
CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments Forough Mehralian Ryan Shar James Rae Alireza Hashemi ALM ELM 312 0 0 31 Oct 2025
ARC-GEN: A Mimetic Procedural Benchmark Generator for the Abstraction and Reasoning Corpus Michael D. Moffitt 181 1 0 31 Oct 2025
Culture Cartography: Mapping the Landscape of Cultural Knowledge Caleb Ziems William B. Held Jane A. Yu Amir Goldberg David Grusky Diyi Yang 112 0 0 31 Oct 2025
DRAMA: Unifying Data Retrieval and Analysis for Open-Domain Analytic Queries Chuxuan Hu Maxwell Yang James Weiland Yeji Lim Suhas Palawala Daniel Kang 68 0 0 31 Oct 2025
Towards Understanding Self-play for LLM Reasoning Justin Yang Chae Md Tanvirul Alam Nidhi Rastogi ReLM LRM 329 0 0 31 Oct 2025
DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains Tian Liang Wenxiang Jiao Zhiwei He J. Xu Haitao Mi Dong Yu OffRL LRM 98 0 0 31 Oct 2025
LoRAQuant: Mixed-Precision Quantization of LoRA to Ultra-Low Bits Amir Reza Mirzaei Yuqiao Wen Yanshuai Cao Lili Mou MQ 433 0 0 30 Oct 2025
QCoder Benchmark: Bridging Language Generation and Quantum Hardware through Simulator-Based Feedback Taku Mikuriya Tatsuya Ishigaki Masayuki Kawarada Shunya Minami Tadashi Kadowaki ... Shunya Takata Takumi Kato Tamotsu Basseda Reo Yamada Hiroya Takamura ALM ELM 233 1 0 30 Oct 2025
EdgeRunner 20B: Military Task Parity with GPT-5 while Running on the Edge Jack FitzGerald Aristotelis Lazaridis Dylan Bates Aman Sharma Jonnathan Castillo ... Dave Anderson Jonathan Beck Jamie Cuticello Colton Malkerson Tyler Saltsman ELM 286 0 0 30 Oct 2025
Do LLMs Signal When They're Right? Evidence from Neuron Agreement Kang Chen Yaoning Wang Kai Xiong Zhuoka Feng Wenhe Sun Haotian Chen Yixin Cao 68 0 0 30 Oct 2025
BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning Qianli Shen Daoyuan Chen Yilun Huang Zhenqing Ling Yaliang Li Bolin Ding Jingren Zhou OffRL 152 0 0 30 Oct 2025
Stop Wasting Your Tokens: Towards Efficient Runtime Multi-Agent Systems Fulin Lin S. Chen Ruishan Fang Hongwei Wang Tao Lin LLMAG 124 0 0 30 Oct 2025
Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation Musfiqur Rahman SayedHassan Khatoonabadi Emad Shihab ELM 343 1 0 30 Oct 2025
OmniEduBench: A Comprehensive Chinese Benchmark for Evaluating Large Language Models in Education Min Zhang Hao Chen Hao Chen Wenqi Zhang Didi Zhu Xin Lin Bo Jiang Aimin Zhou Fei Wu Kun Kuang ELM 136 0 0 30 Oct 2025
Cross-Platform Evaluation of Reasoning Capabilities in Foundation Models J. Curtò I. D. Zarzà Pablo García Jordi Cabot ELM LRM 191 0 0 30 Oct 2025
Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis Dong Huang Mingzhe Du J. Zhang Zheng Lin Meng Luo Qianru Zhang See-Kiong Ng ELM 200 0 0 30 Oct 2025
Reasoning Curriculum: Bootstrapping Broad LLM Reasoning from Math Bo Pang Deqian Kong Silvio Savarese Caiming Xiong Yingbo Zhou LRM 80 0 0 30 Oct 2025
Large Language Model for Verilog Code Generation: Literature Review and the Road Ahead Guang Yang Wei-Shi Zheng Xiang Chen Dong Liang Peng Hu ... Haotian Cheng Yiheng Shen Xing Hu Terry Yue Zhuo David Lo 28 0 0 29 Oct 2025