Une comparaison des algorithmes dápprentissage pour la survie avec données manquantes

Survival analysis is an essential tool for the study of health data. An inherent component of such data is the presence of missing values. In recent years, researchers proposed new learning algorithms for survival tasks based on neural networks. Here, we studied the predictive performance of such algorithms coupled with different methods for handling missing values on simulated data that reflect a realistic situation, i.e., when individuals belong to unobserved clusters. We investigated different patterns of missing data. The results show that, without further feature engineering, no single imputation method is better than the others in all cases. The proposed methodology can be used to compare other missing data patterns and/or survival models. The Python code is accessible via the package survivalsim. -- Lánalyse de survie est un outil essentiel pour l'\étude des donn\ées de sant\é. Une composante inh\érente \`a ces donn\ées est la pr\ésence de valeurs manquantes. Ces derni\`eres ann\ées, de nouveaux algorithmes dápprentissage pour la survie, bas\és sur les r\éseaux de neurones, ont \ét\é con\c{c}us. Lóbjectif de ce travail est d'\étudier la performance en pr\édiction de ces algorithmes coupl\és \`a diff\érentes m\éthodes pour g\érer les valeurs manquantes, sur des donn\ées simul\ées qui refl\`etent une situation rencontr\ée en pratique, cést-\`a dire lorsque les individus peuvent \^etre group\és selon leurs covariables. Diff\érents sch\émas de donn\ées manquantes sont \étudi\és. Les r\ésultats montrent que, sans lájout de variables suppl\émentaires, aucune m\éthode dímputation nést meilleure que les autres dans tous les cas. La m\éthodologie propos\ée peut \^etre utilis\ée pour comparer dáutres mod\`eles de survie. Le code en Python est accessible via le package survivalsim.
View on arXiv