Understanding deep learning requires rethinking generalization

10 November 2016

Benjamin Recht

Papers citing "Understanding deep learning requires rethinking generalization"

50 / 1,028 papers shown

Title
Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion Zhiwei Bai Jiajie Zhao Yaoyu Zhang AI4CE 37 0 0 22 May 2024
A Multi-Perspective Analysis of Memorization in Large Language Models Bowen Chen Namgi Han Yusuke Miyao 46 1 0 19 May 2024
A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks Xuanfan Ni Piji Li ELM LRM 34 8 0 16 May 2024
Iterative Filter Pruning for Concatenation-based CNN Architectures Svetlana Pavlitska Oliver Bagge Federico Nicolás Peccia Toghrul Mammadov J. Marius Zöllner VLM 3DPC 48 2 0 04 May 2024
Uniform Generalization Bounds on Data-Dependent Hypothesis Sets via PAC-Bayesian Theory on Random Sets Benjamin Dupuis Paul Viallard George Deligiannidis Umut Simsekli 48 2 0 26 Apr 2024
Information-Theoretic Generalization Bounds for Deep Neural Networks Haiyun He Christina Lee Yu 38 5 0 04 Apr 2024
Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation Aaron Mishkin Mert Pilanci Mark Schmidt 66 1 0 03 Apr 2024
Partitioned Neural Network Training via Synthetic Intermediate Labels C. V. Karadag Nezih Topaloglu 37 1 0 17 Mar 2024
A Decade's Battle on Dataset Bias: Are We There Yet? Zhuang Liu Kaiming He 44 28 0 13 Mar 2024
Efficient Knowledge Deletion from Trained Models through Layer-wise Partial Machine Unlearning Vinay Chakravarthi Gogineni E. Nadimi MU 31 1 0 12 Mar 2024
Leveraging Continuous Time to Understand Momentum When Training Diagonal Linear Networks Hristo Papazov Scott Pesme Nicolas Flammarion 38 5 0 08 Mar 2024
On the use of Silver Standard Data for Zero-shot Classification Tasks in Information Extraction Jianwei Wang Tianyin Wang Ziqian Zeng 60 1 0 28 Feb 2024
Investigating Generalization Behaviours of Generative Flow Networks Lazar Atanackovic Emmanuel Bengio AI4CE 33 2 0 07 Feb 2024
Characterizing Overfitting in Kernel Ridgeless Regression Through the Eigenspectrum Tin Sum Cheng Aurelien Lucchi Anastasis Kratsios David Belius 45 8 0 02 Feb 2024
Strategic Usage in a Multi-Learner Setting Eliot Shekhtman Sarah Dean 37 2 0 29 Jan 2024
Learning to Manipulate under Limited Information Wesley H. Holliday Alexander Kristoffersen Eric Pacuit 22 4 0 29 Jan 2024
Learning with Noisy Labels: Interconnection of Two Expectation-Maximizations Heewon Kim Hyun Sung Chang Kiho Cho Jaeyun Lee Bohyung Han NoLa 28 2 0 09 Jan 2024
PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs Max Zimmer Megi Andoni Christoph Spiegel Sebastian Pokutta VLM 52 10 0 23 Dec 2023
The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction Pratyusha Sharma Jordan T. Ash Dipendra Kumar Misra LRM 19 79 0 21 Dec 2023
Optimizing Neural Networks with Gradient Lexicase Selection Lijie Ding Lee Spector 42 20 0 19 Dec 2023
$\emph{Lifted} RDT based capacity analysis of the 1-hidden layer treelike \emph{sign} perceptrons neural networks$ \emph{Lifted} RDT based capacity analysis of the 1-hidden layer treelike \emph{sign} perceptrons neural networks M. Stojnic 30 1 0 13 Dec 2023
Capacity of the treelike sign perceptrons neural networks with one hidden layer -- RDT based upper bounds M. Stojnic 21 4 0 13 Dec 2023
SoK: Unintended Interactions among Machine Learning Defenses and Risks Vasisht Duddu S. Szyller Nadarajah Asokan AAML 47 2 0 07 Dec 2023
Critical Influence of Overparameterization on Sharpness-aware Minimization Sungbin Shin Dongyeop Lee Maksym Andriushchenko Namhoon Lee AAML 50 1 0 29 Nov 2023
In Search of a Data Transformation That Accelerates Neural Field Training Junwon Seo Sangyoon Lee Kwang In Kim Jaeho Lee 49 3 0 28 Nov 2023
Do Smaller Language Models Answer Contextualised Questions Through Memorisation Or Generalisation? Tim Hartill Joshua Bensemann Michael Witbrock Patricia Riddle KELM 30 0 0 21 Nov 2023
Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets A. D. Cunha Francesco d’Amore Emanuele Natale MLT 27 1 0 16 Nov 2023
Unified machine learning tasks and datasets for enhancing renewable energy Arsam Aryandoust Thomas Rigoni Francesco di Stefano Anthony Patt 40 0 0 12 Nov 2023
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples Shuo Yang Wei-Lin Chiang Lianmin Zheng Joseph E. Gonzalez Ion Stoica ALM 27 112 0 08 Nov 2023
OpenForest: A data catalogue for machine learning in forest monitoring Arthur Ouaknine T. Kattenborn Etienne Laliberté David Rolnick 53 6 0 01 Nov 2023
Learning to Abstain From Uninformative Data Yikai Zhang Songzhu Zheng M. Dalirrooyfard Pengxiang Wu Anderson Schneider Anant Raj Yuriy Nevmyvaka Chao Chen 26 2 0 25 Sep 2023
PanoMixSwap Panorama Mixing via Structural Swapping for Indoor Scene Understanding Yu-Cheng Hsieh Cheng Sun Suraj Dengale Min Sun 3DPC 36 1 0 18 Sep 2023
Fundamental Limits of Deep Learning-Based Binary Classifiers Trained with Hinge Loss T. Getu Georges Kaddoum M. Bennis 40 1 0 13 Sep 2023
Learning Active Subspaces for Effective and Scalable Uncertainty Quantification in Deep Neural Networks Sanket R. Jantre Nathan M. Urban Xiaoning Qian Byung-Jun Yoon BDL UQCV 29 4 0 06 Sep 2023
Geometry and Local Recovery of Global Minima of Two-layer Neural Networks at Overparameterization Leyang Zhang Yaoyu Zhang Tao Luo 28 2 0 01 Sep 2023
MarginMatch: Improving Semi-Supervised Learning with Pseudo-Margins Tiberiu Sosea Cornelia Caragea 16 12 0 17 Aug 2023
Test-Time Poisoning Attacks Against Test-Time Adaptation Models Tianshuo Cong Xinlei He Yun Shen Yang Zhang AAML TTA 32 5 0 16 Aug 2023
DaMSTF: Domain Adversarial Learning Enhanced Meta Self-Training for Domain Adaptation Menglong Lu Zhen Huang Yunxiang Zhao Zhiliang Tian Yang Liu Dongsheng Li 39 6 0 05 Aug 2023
Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing Attacks Jun Guo Aishan Liu Xingyu Zheng Siyuan Liang Yisong Xiao Yichao Wu Xianglong Liu AAML 38 12 0 02 Aug 2023
Understanding Activation Patterns in Artificial Neural Networks by Exploring Stochastic Processes S. Lehmler Muhammad Saif-ur-Rehman Tobias Glasmachers Ioannis Iossifidis 27 0 0 01 Aug 2023
Are Transformers with One Layer Self-Attention Using Low-Rank Weight Matrices Universal Approximators? T. Kajitsuka Issei Sato 31 16 0 26 Jul 2023
Learning to Segment from Noisy Annotations: A Spatial Correction Approach Jiacheng Yao Yikai Zhang Songzhu Zheng Mayank Goswami Prateek Prasanna Chao Chen 41 15 0 21 Jul 2023
Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization Kaiyue Wen Zhiyuan Li Tengyu Ma FAtt 38 26 0 20 Jul 2023
Addressing caveats of neural persistence with deep graph persistence Leander Girrbach Anders Christensen Ole Winther Zeynep Akata A. Sophia Koepke GNN 28 1 0 20 Jul 2023
Deconstructing Data Reconstruction: Multiclass, Weight Decay and General Losses G. Buzaglo Niv Haim Gilad Yehudai Gal Vardi Yakir Oz Yaniv Nikankin Michal Irani 34 10 0 04 Jul 2023
Understanding quantum machine learning also requires rethinking generalization Elies Gil-Fuster Jens Eisert Carlos Bravo-Prieto 43 44 0 23 Jun 2023
Precise Asymptotic Generalization for Multiclass Classification with Overparameterized Linear Models David X. Wu A. Sahai 29 2 0 23 Jun 2023
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing Yelysei Bondarenko Markus Nagel Tijmen Blankevoort MQ 23 87 0 22 Jun 2023
FedNoisy: Federated Noisy Label Learning Benchmark Siqi Liang Jintao Huang Junyuan Hong Dun Zeng Jiayu Zhou Zenglin Xu FedML 40 7 0 20 Jun 2023
Gibbs-Based Information Criteria and the Over-Parameterized Regime Haobo Chen Yuheng Bu Greg Wornell 27 1 0 08 Jun 2023