Title
ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts Jinho Choi Hyesu Lim Steffen Schneider Jaegul Choo 88 0 0 30 Oct 2025
Aggregation Hides Out-of-Distribution Generalization Failures from Spurious Correlations Olawale Salaudeen Haoran Zhang Mingyu Lu Sara Beery Marzyeh Ghassemi OODD 261 0 0 28 Oct 2025
GaLLoP: Gradient-based Sparse Learning on Low-Magnitude Parameters Anand Choudhary Yasser Sulaıman Lukas Mauch G. B. Hacene Fabien Cardinaux Antoine Bosselut 100 0 0 22 Oct 2025
Towards Reliable and Practical LLM Security Evaluations via Bayesian Modelling Mary Llewellyn Annie Gray Josh Collyer Michael Harries 80 0 0 07 Oct 2025
Confidence and Dispersity as Signals: Unsupervised Model Evaluation and Ranking Weijian Deng Weijie Tu Ibrahim Radwan Mohammad Abu Alsheikh Stephen Gould Liang Zheng 100 0 0 03 Oct 2025
Towards Generalizable PDE Dynamics Forecasting via Physics-Guided Invariant Learning Siyang Li Yize Chen Yan Guo Ming Huang Hui Xiong AI4CE AI4TS 68 0 0 29 Sep 2025
ALSA: Anchors in Logit Space for Out-of-Distribution Accuracy Estimation Chenzhi Liu Mahsa Baktashmotlagh Yanran Tang Zi Huang Ruihong Qiu 68 0 0 27 Aug 2025
Domain Adaptation via Feature Refinement S. Karatsiolis A. Kamilaris OOD 104 1 0 22 Aug 2025
Consensus-Driven Active Model Selection Justin Kay Grant Van Horn Subhransu Maji Daniel Sheldon Sara Beery 142 1 0 31 Jul 2025
Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead Tom Sühr Florian E. Dorner Olawale Salaudeen Augustin Kelava Samira Samadi ALM ELM 141 2 0 30 Jul 2025
Evaluating and Improving the Robustness of Speech Command Recognition Models to Noise and Distribution Shifts Anaïs Baranger Lucas Maison 101 0 0 30 Jul 2025
CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts Olaf Dünkel Artur Jesslen Jiahao Xie Christian Theobalt Christian Rupprecht Adam Kortylewski DiffM 152 0 0 23 Jul 2025
Monitoring Risks in Test-Time Adaptation Mona Schirmer Metod Jazbec C. A. Naesseth Eric T. Nalisnick TTA 432 2 0 11 Jul 2025
DynaSubVAE: Adaptive Subgrouping for Scalable and Robust OOD Detection Tina Behrouzi S. Tonekaboni Rahul G. Krishnan Anna Goldenberg 153 1 0 11 Jun 2025
Enabling Validation for Robust Few-Shot Recognition Hanxin Wang Tian Liu Shu Kong VLM 347 1 0 05 Jun 2025
Data Heterogeneity Modeling for Trustworthy Machine Learning Tianyu Wang Peng Cui 205 1 0 01 Jun 2025
Asymmetric Duos: Sidekicks Improve Uncertainty Tim G. Zhou Evan Shelhamer Geoff Pleiss UQCV 357 0 0 24 May 2025
StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity AlignmentInternational Joint Conference on Artificial Intelligence (IJCAI), 2025 Younghyun Kim Jongheon Jeong Sangkyung Kwak Kyungmin Lee Juho Lee Jinwoo Shin 289 0 0 19 May 2025
Beyond Accuracy: What Matters in Designing Well-Behaved Models? Robin Hesse Doğukan Bağcı Bernt Schiele Simone Schaub-Meyer Stefan Roth VLM 249 0 0 21 Mar 2025
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning Gokul Swamy Sanjiban Choudhury Wen Sun Zhiwei Steven Wu J. Andrew Bagnell OffRL 331 41 0 03 Mar 2025
Parameter Expanded Stochastic Gradient Markov Chain Monte CarloInternational Conference on Learning Representations (ICLR), 2025 Hyunsu Kim G. Nam Chulhee Yun Hongseok Yang Juho Lee BDL UQCV 201 0 0 02 Mar 2025
A Guide to Failure in Machine Learning: Reliability and Robustness from Foundations to Practice Eric Heim Oren Wright David Shriver OOD FaML 283 0 0 01 Mar 2025
CrossFuse: Learning Infrared and Visible Image Fusion by Cross-Sensor Top-K Vision Alignment and Beyond Yukai Shi Cidan Shi Zhipeng Weng Yin Tian Xiaoyu Xian Liang Lin 215 3 0 21 Feb 2025
Privacy-Preserving Dataset Combination Keren Fuentes Mimee Xu Irene Chen 279 0 0 09 Feb 2025
Style Outweighs Substance: Failure Modes of LLM Judges in Alignment BenchmarkingInternational Conference on Learning Representations (ICLR), 2024 Benjamin Feuer Micah Goldblum Teresa Datta Sanjana Nambiar Raz Besaleli Samuel Dooley Max Cembalest John P. Dickerson ALM 281 0 0 28 Jan 2025
Vision Transformer Neural Architecture Search for Out-of-Distribution Generalization: Benchmark and InsightsNeural Information Processing Systems (NeurIPS), 2025 Sy-Tuyen Ho Tuan Van Vo Somayeh Ebrahimkhani Ngai-Man Cheung 264 1 0 08 Jan 2025
Predictable Artificial Intelligence Lexin Zhou Pablo Antonio Moreno Casares Fernando Martínez-Plumed John Burden Ryan Burnell ... Seán Ó hÉigeartaigh Danaja Rutar Wout Schellaert Konstantinos Voudouris José Hernández-Orallo 385 6 0 08 Jan 2025
Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot ModelsNeural Information Processing Systems (NeurIPS), 2024 Kaican Li Weiyan Xie Yongxiang Huang Didan Deng Lanqing Hong Hao Sun Ricardo Silva Ningyu Zhang 394 0 0 29 Nov 2024
ReC-TTT: Contrastive Feature Reconstruction for Test-Time TrainingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Marco Colussi S. Mascetti Jose Dolz Christian Desrosiers 284 4 0 26 Nov 2024
Loss-to-Loss Prediction: Scaling Laws for All Datasets David Brandfonbrener Nikhil Anand Nikhil Vyas Eran Malach Sham Kakade 227 10 0 19 Nov 2024
LLM Embeddings Improve Test-time Adaptation to Tabular $Y\|X$ -Shifts Yibo Zeng Tianyu Wang Henry Lam Hongseok Namkoong LMTD 202 5 0 09 Oct 2024
SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image ClassificationNeural Information Processing Systems (NeurIPS), 2024 Benjamin Feuer Jiawei Xu Niv Cohen Patrick Yubeaton Govind Mittal Chinmay Hegde 156 4 0 07 Oct 2024
Generalizability analysis of deep learning predictions of human brain responses to augmented and semantically novel visual stimuli Valentyn Piskovskyi Riccardo Chimisso Sabrina Patania Tom Foulsham Giuseppe Vizzari Dimitri Ognibene 166 0 0 06 Oct 2024
OOD-Chameleon: Is Algorithm Selection for OOD Generalization Learnable? Liangze Jiang Damien Teney OODD OOD 495 1 0 03 Oct 2024
Toward a Holistic Evaluation of Robustness in CLIP ModelsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 Weijie Tu Weijian Deng Tom Gedeon VLM 261 7 0 02 Oct 2024
Contrastive Abstraction for Reinforcement Learning Vihang Patil M. Hofmarcher Elisabeth Rumetshofer Sepp Hochreiter OffRL SSL 249 4 0 01 Oct 2024
A novel open-source ultrasound dataset with deep learning benchmarks for spinal cord injury localization and anatomical segmentationScientific Reports (Sci Rep), 2024 Avisha Kumar Kunal Kotkar Kelly Jiang Meghana Bhimreddy Daniel Davidar ... Ian Suk Jennifer Son Nicholas Theodore Nitish Thakor A. Manbachi 112 3 0 24 Sep 2024
Unsupervised Domain Adaptation Via Data Pruning Andrea Napoli Paul White 124 2 0 18 Sep 2024
Calibration of Network Confidence for Unsupervised Domain Adaptation Using Estimated Accuracy Coby Penso Jacob Goldberger 196 0 0 06 Sep 2024
The Data Addition DilemmaMachine Learning in Health Care (MLHC), 2024 Judy Hanwen Shen Inioluwa Deborah Raji Irene Y. Chen 288 12 0 08 Aug 2024
LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies Jia Shi Gautam Gare Jinjin Tian Siqi Chai Zhiqiu Lin Arun Vasudevan Di Feng Francesco Ferroni Shu Kong VLM OODD OOD 220 13 0 22 Jul 2024
Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection Sebastian Cygert Damian Sójka Tomasz Trzciñski Bartlomiej Twardowski 215 0 0 19 Jul 2024
A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification Markus Marks Manuel Knott Neehar Kondapaneni Elijah Cole T. Defraeye Fernando Pérez-Cruz Pietro Perona SSL 342 14 0 16 Jul 2024
Real-Time Anomaly Detection and Reactive Planning with Large Language Models Rohan Sinha Amine Elhafsi Christopher Agia Matthew Foutter Edward Schmerling Marco Pavone OffRL LRM 187 65 0 11 Jul 2024
Introducing Ínside' Out of Distribution Teddy Lazebnik 289 1 0 05 Jul 2024
SAFT: Towards Out-of-Distribution Generalization in Fine-Tuning Bac Nguyen Stefan Uhlich Fabien Cardinaux Lukas Mauch Marzieh Edraki Aaron Courville OODD CLL VLM 341 7 0 03 Jul 2024
Evaluating Model Performance Under Worst-case Subpopulations Mike Li Hongseok Namkoong Shangzhou Xia Shangzhou Xia 215 19 0 01 Jul 2024
Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation Amartya Sanyal Yaxi Hu Yaodong Yu Yian Ma Yixin Wang Bernhard Schölkopf OODD 176 7 0 27 Jun 2024
MD tree: a model-diagnostic tree grown on loss landscape Yefan Zhou Jianlong Chen Qinxue Cao Konstantin Schürholt Yaoqing Yang 251 2 0 24 Jun 2024
What Does Softmax Probability Tell Us about Classifiers Ranking Across Diverse Test Conditions? Weijie Tu Weijian Deng Liang Zheng Tom Gedeon 285 4 0 14 Jun 2024