Classification sur données médicales à l'aide de méthodes d'optimisation et de datamining, appliquée au pré-screening dans les essais cliniques

2013 
Les donnees medicales souffrent de problemes d'uniformisation ou d'incertitude, ce qui les rend difficilement utilisables directement par des logiciels medicaux, en particulier dans le cas du recrutement pour les essais cliniques. Dans cette these, nous proposons une approche permettant de palier la mauvaise qualite de ces donnees a l'aide de methodes de classification supervisee. Nous nous interesserons en particulier a 3 caracteristiques de ces donnees : asymetrie, incertitude et volumetrie. Nous proposons l'algorithme MOCA-I qui aborde ce probleme combinatoire de classification partielle sur donnees asymetriques sous la forme d'un probleme de recherche locale multi-objectif. Apres avoir confirme les apports de la modelisation multi-objectif dans ce contexte, nous calibrons MOCA-I et le comparons aux meilleurs algorithmes de classification de la litterature, sur des jeux de donnees reels et asymetriques de la litterature. Les ensembles de regles obtenus par MOCA-I sont statistiquement plus performants que ceux de la litterature, et 2 a 6 fois plus compacts. Pour les donnees ne presentant pas d'asymetrie, nous proposons l'algorithme MOCA, statistiquement equivalent a ceux de la litterature. Nous analysons ensuite l'impact de l'asymetrie sur le comportement de MOCA et MOCA-I, de maniere theorique et experimentale. Puis, nous proposons et evaluons differentes methodes pour traiter les nombreuses solutions Pareto generees par MOCA-I, afin d'assister l'utilisateur dans le choix de la solution finale et reduire le phenomene de sur-apprentissage. Enfin, nous montrons comment le travail realise peut s'integrer dans une solution logicielle.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []