Apprentissage statistique pour la détection de données aberrantes et application en santé

Alain Virouleau

Apprentissage statistique pour la détection de données aberrantes et application en santé

2020

Alain Virouleau

Le probleme de la detection de donnees aberrantes et celui de regression robuste dans un contexte de grande dimension est fondamental en statistiques et a de nombreuses applications.Dans la lignee de recents travaux proposant de traiter conjointement ces deux problemes de regression et de detection, nous considerons dans la premiere partie de ce travail un modele lineaire gaussien en grande dimension avec ajout d'un parametre individuel pour chaque observation.Nous proposons une nouvelle procedure pour simultanement estimer les coefficients de la regression lineaire et les parametres individuels, en utilisant deux penalites differentes basees toutes les deux sur une penalisation convexe l1 ordonnee, nommee SLOPE. Nous faisons l'analyse theorique de ce probleme: nous obtenons dans un premier temps une borne superieure pour l'erreur d'estimation a la fois pour le vecteur des parametres individuels et pour le vecteur des coefficients de regression. Puis nous obtenons un resultat asymptotique sur le controle du taux de fausse decouverte et sur la puissance concernant la detection du support du vecteur des parametres individuels.Nous comparons numeriquement notre procedure avec les alternatives les plus recentes, a la fois sur des donnees simulees et sur des donnees reelles.La seconde partie de ce travail est motivee par un probleme issu de la genetique. Des sequences particulieres d'ADN, appelees multi-satellites, sont des indicateurs du developpement d'un type de cancer colorectal. Le but est de trouver parmi ces sequences celles qui ont un taux de mutation bien plus eleve (resp. bien moindre) qu'attendu selon les biologistes. Ce probleme mene a une modelisation probabiliste non-lineaire et n'entre ainsi pas dans le cadre aborde dans la premiere partie de cette these. Nous traitons ainsi dans cette partie le cas de modeles lineaires generalises, avec de nouveau des parametres individuels en plus du predicteur lineaire, et analysons les proprietes statistiques d'une nouvelle procedure estimant simultanement les coefficients de regression et les parametres individuels. Nous utilisons de nouveau la penalisation SLOPE mais nous nous restreignons au cas de la petite dimension. La performance de l'estimateur est mesure comme dans la premiere partie en terme d'erreur d'estimation des parametres et de taux de fausse decouverte concernant la recherche du support du vecteur des parametres individuels.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations