v1v2v3 (latest)

Decoupled Weight Decay Regularization

14 November 2017

I. Loshchilov

Katharina Eggensperger

OffRL

ArXiv (abs)PDF HTML Github (275★)

Papers citing "Decoupled Weight Decay Regularization"

50 / 1,216 papers shown

Open-domain Implicit Format Control for Large Language Model Generation

Peng Han

Jing Li

Aixin Sun

Yequan Wang

284

08 Aug 2024

Lightweight Video Denoising Using a Classic Bayesian BackboneIEEE International Conference on Multimedia and Expo (ICME), 2024

Clement Bled

François Pitié

210

07 Aug 2024

Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function

173

07 Aug 2024

GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion TransformerInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

578

03 Aug 2024

POA: Pre-training Once for Models of All SizesEuropean Conference on Computer Vision (ECCV), 2024

Jingdong Chen

Ming Yang

431

02 Aug 2024

Towards Flexible Evaluation for Generative Visual Question AnsweringACM Multimedia (MM), 2024

Huishan Ji

Q. Si

Zheng Lin

Weiping Wang

229

01 Aug 2024

Meltemi: The first open Large Language Model for Greek

Leon Voukoutis

Dimitris Roussis

Georgios Paraskevopoulos

Sokratis Sofianopoulos

Prokopis Prokopidis

Vassilis Papavasileiou

Athanasios Katsamanis

Stelios Piperidis

Vassilis Katsouros

VLM

177

30 Jul 2024

LLAVADI: What Matters For Multimodal Large Language Models Distillation

Xiangtai Li

Ming-Hsuan Yang

216

28 Jul 2024

Estimating Earthquake Magnitude in Sentinel-1 Imagery via Ranking

Daniele Rege Cambrin

Isaac Corley

Paolo Garza

Peyman Najafirad

243

25 Jul 2024

Unsqueeze [CLS] Bottleneck to Learn Rich Representations

Qing Su

Shihao Ji

295

24 Jul 2024

Hopfield Networks for Asset Allocation

174

24 Jul 2024

LiCROcc: Teach Radar for Accurate Semantic Occupancy Prediction using LiDAR and Camera

Yukai Ma

Jianbiao Mei

Xuemeng Yang

Licheng Wen

Jiangning Zhang

255

23 Jul 2024

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval

345

21 Jul 2024

Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement

286

18 Jul 2024

GroupMamba: Efficient Group-Based Visual State Space Model

Abdelrahman M. Shaker

Syed Talal Wasim

Salman Khan

Juergen Gall

Fahad Shahbaz Khan

Mamba

213

18 Jul 2024

Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models

Donggeun Kim

Taesup Kim

265

17 Jul 2024

VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

357

17 Jul 2024

Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation

Runyi Yu

196

15 Jul 2024

Restoring Images in Adverse Weather Conditions via Histogram Transformer

Shangquan Sun

Wenqi Ren

Xinwei Gao

Rui Wang

Xiaochun Cao

240

14 Jul 2024

MapLocNet: Coarse-to-Fine Feature Registration for Visual Re-Localization in Navigation Maps

Ming Yang

241

11 Jul 2024

RoboMorph: Evolving Robot Morphology using Large Language Models

Łukasz Kuciński

335

11 Jul 2024

Fusion of Short-term and Long-term Attention for Video Mirror Detection

Mingchen Xu

Jing Wu

Yukun Lai

Ze Ji

164

10 Jul 2024

Vulnerability-Hunter: An Adaptive Feature Perception Attention Network for Smart Contract Vulnerabilities

Yizhou Chen

147

07 Jul 2024

ESQA: Event Sequences Question Answering

226

03 Jul 2024

Learning from Memory: Non-Parametric Memory Augmented Self-Supervised Learning of Visual Features

T. Silva

Hélio Pedrini

Adín Ramírez Rivera

SSL

178

03 Jul 2024

Predicting Visual Attention in Graphic Design Documents

Souradeep Chakraborty

167

02 Jul 2024

Multi-Modal Video Dialog State Tracking in the Wild

Adnen Abdessaied

Lei Shi

Andreas Bulling

362

02 Jul 2024

Enhancing Travel Decision-Making: A Contrastive Learning Approach for Personalized Review Rankings in Accommodations

158

30 Jun 2024

Brevity is the soul of wit: Pruning long files for code generation

197

29 Jun 2024

Into the Unknown: Generating Geospatial Descriptions for New Environments

282

28 Jun 2024

SignSpeak: Open-Source Time Series Classification for ASL Translation

143

27 Jun 2024

Molecular Diffusion Models with Virtual Receptors

221

26 Jun 2024

Continuous Urban Change Detection from Satellite Image Time Series with Temporal Feature Refinement and Multi-Task Integration

362

25 Jun 2024

Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers

Zilong Zheng

233

24 Jun 2024

KEHRL: Learning Knowledge-Enhanced Language Representations with Hierarchical Reinforcement Learning

Hui Xue

199

24 Jun 2024

Confidence Regulation Neurons in Language Models

242

24 Jun 2024

Linearly-Interpretable Concept Embedding Models for Text Analysis

311

20 Jun 2024

CityNav: A Large-Scale Dataset for Real-World Aerial Navigation

325

20 Jun 2024

Active Diffusion Subsampling

Oisin Nolan

Tristan S. W. Stevens

Wessel L. van Nierop

Ruud J. G. van Sloun

DiffM MedIm

250

20 Jun 2024

$$\texttt{MoE-RBench}$: Towards Building Reliable Language Models with Sparse Mixture-of-Experts$

\texttt{MoE-RBench}

: Towards Building Reliable Language Models with Sparse Mixture-of-Experts

270

17 Jun 2024

P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models

233

17 Jun 2024

Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens

Weiyao Luo

Suncong Zheng

Heming Xia

Weikang Wang

Yan Lei

Tianyu Liu

Shuang Chen

Zhifang Sui

150

16 Jun 2024

Diffusion Synthesizer for Efficient Multilingual Speech to Speech TranslationInterspeech (Interspeech), 2024

Nameer Hirschkind

Xiao Yu

Joseph Liu

Eloi DuBois

...

149

14 Jun 2024

SimGen: Simulator-conditioned Driving Scene Generation

Bolei Zhou

302

13 Jun 2024

3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection

Thye Shan Ng

Feiqi Cao

S. Han

111

13 Jun 2024

Deep Transformer Network for Monocular Pose Estimation of Shipborne Unmanned Aerial Vehicle

Maneesha Wickramasuriya

Taeyoung Lee

Murray Snyder

MDE ViT

123

13 Jun 2024

SynthForge: Synthesizing High-Quality Face Dataset with Controllable 3D Generative Models

220

12 Jun 2024

Large Language Models Must Be Taught to Know What They Don't Know

450

12 Jun 2024

Information Geometry of Evolution of Neural Network Parameters While Training

124

07 Jun 2024

What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular LanguagesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

802

06 Jun 2024