v1v2v3 (latest)

Decoupled Weight Decay Regularization

14 November 2017

I. Loshchilov

Katharina Eggensperger

OffRL

ArXiv (abs)PDF HTML Github (275★)

Papers citing "Decoupled Weight Decay Regularization"

50 / 1,216 papers shown

Title
Just-In-Time Software Defect Prediction via Bi-modal Change Representation LearningJournal of Systems and Software (JSS), 2024 Yuze Jiang Beijun Shen Xiaodong Gu VLM 156 4 0 15 Oct 2024
Learning Linear Attention in Polynomial Time Morris Yau Ekin Akyürek Jiayuan Mao Joshua B. Tenenbaum Stefanie Jegelka Jacob Andreas 492 3 0 14 Oct 2024
Targeted Vaccine: Safety Alignment for Large Language Models against Harmful Fine-Tuning via Layer-wise PerturbationIEEE Transactions on Information Forensics and Security (IEEE TIFS), 2024 Guozhi Liu Weiwei Lin Tiansheng Huang Ruichao Mo Qi Mu Li Shen AAML 402 28 0 13 Oct 2024
Chain-of-Restoration: Multi-Task Image Restoration Models are Zero-Shot Step-by-Step Universal Image Restorers Jin Cao Deyu Meng Xiangyong Cao CLL 221 2 0 11 Oct 2024
Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both Abhijnan Nath Changsoo Jung Ethan Seefried Nikhil Krishnaswamy 1.0K 5 0 11 Oct 2024
Alberta Wells Dataset: Pinpointing Oil and Gas Wells from Satellite Imagery Pratinav Seth Michelle Lin Brefo Dwamena Yaw Jade Boutot Mary Kang David Rolnick 484 0 0 11 Oct 2024
Chain-of-Sketch: Enabling Global Visual Reasoning Aryo Lotfi Enrico Fini Samy Bengio Moin Nabi Emmanuel Abbe LRM 292 0 0 10 Oct 2024
SPA: 3D Spatial-Awareness Enables Effective Embodied RepresentationInternational Conference on Learning Representations (ICLR), 2024 Haoyi Zhu Honghui Yang Yating Wang Jiange Yang Limin Wang Tong He 3DH 376 23 0 10 Oct 2024
Surgical Depth Anything: Depth Estimation for Surgical Scenes using Foundation Models Ange Lou Yamin Li Yike Zhang Jack Noble MedIm 128 7 0 09 Oct 2024
The Sampling-Gaussian for stereo matching Baiyu Pan Jichao Jiao Bowen Yao Jianxin Pang Jun Cheng 154 1 0 09 Oct 2024
Parameter Efficient Fine-tuning via Explained Variance Adaptation Fabian Paischer Lukas Hauzenberger Thomas Schmied Benedikt Alkin Marc Peter Deisenroth Sepp Hochreiter 330 4 0 09 Oct 2024
FINALLY: fast and universal speech enhancement with studio-like qualityNeural Information Processing Systems (NeurIPS), 2024 Nicholas Babaev Kirill Tamogashev Azat Saginbaev Ivan Shchekotov Hanbin Bae Hosang Sung WonJun Lee Hoon-Young Cho Pavel Andreev 381 13 0 08 Oct 2024
Continuous Ensemble Weather Forecasting with Diffusion modelsInternational Conference on Learning Representations (ICLR), 2024 Martin Andrae Tomas Landelius Joel Oskarsson Fredrik Lindsten AI4Cl 371 14 0 07 Oct 2024
Can Transformers Learn $n$ -gram Language Models?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Anej Svete Nadav Borenstein M. Zhou Isabelle Augenstein Robert Bamler 216 12 0 03 Oct 2024
AlphaIntegrator: Transformer Action Search for Symbolic Integration Proofs Mert Ünsal Timon Gehr Martin Vechev 134 1 0 03 Oct 2024
CTARR: A fast and robust method for identifying anatomical regions on CT images via atlas registrationMachine Learning for Biomedical Imaging (MLBI), 2024 Thomas Buddenkotte R. Opfer Julia Kruger Alessa Hering Mireia Crispin-Ortuzar 187 0 0 03 Oct 2024
Immunogenicity Prediction with Dual Attention Enables Vaccine Target SelectionInternational Conference on Learning Representations (ICLR), 2024 Song Li Yang Tan Song Ke Liang Hong Bingxin Zhou 228 6 0 03 Oct 2024
On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding Kevin Xu Issei Sato 736 7 0 02 Oct 2024
Structure-Preserving Operator Learning Nacime Bouziani Nicolas Boullé 195 3 0 01 Oct 2024
The Conformer Encoder May Reverse the Time DimensionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Robin Schmitt Albert Zeyer Mohammad Zeineldeen Ralf Schluter Hermann Ney 273 1 0 01 Oct 2024
Semantic Parsing with Candidate Expressions for Knowledge Base Question Answering Daehwan Nam Gary Geunbae Lee 480 2 0 01 Oct 2024
AUCSeg: AUC-oriented Pixel-level Long-tail Semantic SegmentationNeural Information Processing Systems (NeurIPS), 2024 Boyu Han Qianqian Xu Zhiyong Yang Shilong Bao Peisong Wen Yangbangyan Jiang Qingming Huang 389 15 0 30 Sep 2024
Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis Luka Andrenšek Boshko Koloski Andraz Pelicon Nada Lavrac Senja Pollak Matthew Purver 259 2 0 30 Sep 2024
MemFusionMap: Working Memory Fusion for Online Vectorized HD Map ConstructionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Jingyu Song Xudong Chen Liupei Lu Jie Li Katherine A. Skinner 155 5 0 26 Sep 2024
60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering Junjie Ye Yuming Yang Qi Zhang Tao Gui Xuanjing Huang Xuanjing Huang Peng Wang Jianping Fan AI4MH 162 0 0 24 Sep 2024
Critic Loss for Image ClassificationInternational Conference on Machine Learning and Applications (ICMLA), 2024 B. Rappazzo Aaron Ferber Daniel Schwalbe-Koda VLM 177 0 0 23 Sep 2024
Position IDs Matter: An Enhanced Position Layout for Efficient Context Compression in Large Language Models Runsong Zhao Xin Liu Xinyu Liu Pengcheng Huang Chunyang Xiao Tong Xiao Jingbo Zhu 165 0 0 22 Sep 2024
Beyond Accuracy Optimization: Computer Vision Losses for Large Language Model Fine-TuningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Daniele Rege Cambrin Giuseppe Gallipoli Irene Benedetto Luca Cagliero Paolo Garza 166 5 0 20 Sep 2024
Reward-Robust RLHF in LLMs Yuzi Yan Xingzhou Lou Jialian Li Yiping Zhang Jian Xie Chao Yu Yu Wang Dong Yan Yuan Shen 368 17 0 18 Sep 2024
Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement Simon Yu Liangyu Chen Sara Ahmadian Marzieh Fadaee 199 11 0 17 Sep 2024
StyleTTS-ZS: Efficient High-Quality Zero-Shot Text-to-Speech Synthesis with Distilled Time-Varying Style DiffusionNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024 Yinghao Aaron Li Xilin Jiang Cong Han N. Mesgarani DiffM 269 10 0 16 Sep 2024
Harnessing Large Language Models: Fine-tuned BERT for Detecting Charismatic Leadership Tactics in Natural Language Yasser Saeid Felix Neubürger Stefanie Krügl Helena Hüster Thomas Kopinski Ralf Lanwehr 31 0 0 16 Sep 2024
Rediscovering the Latent Dimensions of Personality with Large Language Models as Trait Descriptors Joseph Suh Suhong Moon Minwoo Kang David M. Chan 291 2 0 16 Sep 2024
AgileIR: Memory-Efficient Group Shifted Windows Attention for Agile Image Restoration Hongyi Cai Mohammad Mahdinur Rahman Mohammad Shahid Akhtar Jie Li Jingyu Wu Zhili Fang 152 1 0 10 Sep 2024
Retrieval Augmented Correction of Named Entity Speech Recognition ErrorsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Ernest Pusateri Anmol Walia Anirudh Kashi Bortik Bandyopadhyay Nadia Hyder Sayantan Mahinder R. Anantha Daben Liu Sashank Gondala RALM 3DV 265 10 0 09 Sep 2024
RexUniNLU: Recursive Method with Explicit Schema Instructor for Universal NLU Chengyuan Liu Shihang Wang Fubang Zhao Kun Kuang Yangyang Kang Weiming Lu Changlong Sun Fei Wu 222 1 0 09 Sep 2024
Sequential Classification of Misinformation Daniel Toma Wasim Huleihel 159 0 0 07 Sep 2024
Unsupervised Adaptive NormalizationIEEE International Joint Conference on Neural Network (IJCNN), 2024 Hanane Azzag Hanane Azzag M. Lebbah Fangchen Fang 188 0 0 07 Sep 2024
FastForensics: Efficient Two-Stream Design for Real-Time Image Manipulation DetectionBritish Machine Vision Conference (BMVC), 2024 Yangxiang Zhang Yuezun Li Delong Zhu Jiaran Zhou Junyu Dong 222 0 0 29 Aug 2024
Pre-training Everywhere: Parameter-Efficient Fine-Tuning for Medical Image Analysis via Target Parameter Pre-training Xingliang Lei Yiwen Ye Zhisong Wang Ziyang Chen Minglei Shu Weidong (Tom) Cai Yanning Zhang Yong-quan Xia 267 2 0 27 Aug 2024
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language ModelNeural Information Processing Systems (NeurIPS), 2024 Chaoya Jiang Jia Hongrui Haiyang Xu Wei Ye Mengfan Dong Ming Yan Ji Zhang Fei Huang Shikun Zhang VLM 161 3 0 22 Aug 2024
Approaching Deep Learning through the Spectral Dynamics of Weights David Yunis Kumar Kshitij Patel Samuel Wheeler Pedro H. P. Savarese Gal Vardi Karen Livescu Michael Maire Matthew R. Walter 316 12 0 21 Aug 2024
MsMemoryGAN: A Multi-scale Memory GAN for Palm-vein Adversarial Purification Huafeng Qin Yuming Fu Huiyan Zhang M. El-Yacoubi Xinbo Gao Qun Song Jun Wang GAN AAML 234 0 0 20 Aug 2024
Enhancing Object Detection with Hybrid dataset in Manufacturing Environments: Comparing Federated Learning to Conventional Techniques Vinit Hegiste Snehal Walunj Jibinraj Antony T. Legler Martin Ruskowski FedML 240 7 0 16 Aug 2024
Information-Theoretic Progress Measures reveal Grokking is an Emergent Phase Transition Kenzo Clauw S. Stramaglia Daniele Marinazzo 192 7 0 16 Aug 2024
HAIR: Hypernetworks-based All-in-One Image Restoration Jin Cao Yi Cao Li Pang Deyu Meng Xiangyong Cao 3DH 282 17 0 15 Aug 2024
CTISum: A New Benchmark Dataset For Cyber Threat Intelligence Summarization Wei Peng Junmei Ding Wei Wang Lei Cui Wei Cai Zhiyu Hao Xiaochun Yun 257 7 0 13 Aug 2024
SAGA: A Participant-specific Examination of Story Alternatives and Goal Applicability for a Deeper Understanding of Complex EventsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Sai Vallurupalli Katrin Erk Francis Ferraro 177 3 0 11 Aug 2024
Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition Huafeng Qin Yuming Fu Jing Chen M. El-Yacoubi Xinbo Gao Feng Xi Mamba 295 1 0 11 Aug 2024
A Psychology-based Unified Dynamic Framework for Curriculum LearningComputational Linguistics (CL), 2024 Guangyu Meng Qingkai Zeng John P. Lalor Hong-ye Yu 227 1 0 09 Aug 2024

All Papers

Decoupled Weight Decay Regularization

Papers citing "Decoupled Weight Decay Regularization"