Réutilisation de données structurées de santé : le défi de l’extraction de caractéristiques

2019 
Introduction La reutilisation de donnees structurees de sante est particulierement prometteuse en recherche. Elle fut d’abord decrite par Fayyad sous le terme de “ knowledge discovery in databases ”, puis le terme “ data reuse ” est apparu. L’extraction de caracteristiques en est une phase primordiale mais peu commentee dans la litterature. Les objectifs sont :. – de proposer une representation a jour du processus de reutilisation de donnees structurees de sante ; – d’illustrer les methodes et objectifs de l’extraction de caracteristiques et ; – de discuter la place des connaissances metier. Methodes 1) Un consensus entre auteurs permet de proposer un schema a jour ; 2) Un cas d’etude (projet europeen FP7) consistant a identifier automatiquement les episodes d’insuffisance renale aigue et decouvrir automatiquement les facteurs de risque par reutilisation de donnees est analyse et presente ; 3) Une revue de la litterature publiee par Meystre et al. en 2017 est analysee. Resultats 1) Nous proposons une schematisation du processus de reutilisation de donnees en cinq phases. Phase 1 : preparation des donnees (nettoyage, jointure, alignement terminologique, conversions d’unites, de-identification). Elle permet de construire un entrepot de donnees. Phase 2 : extraction de caracteristiques. Phase 3 : fouille de donnees statistique et graphique. Phase 4 : filtrage expert et reorganisation des resultats. Phase 5 : prise de decision. – Le cas d’etude illustre comment des caracteristiques temps-dependantes peuvent etre extraites de resultats de biologie medicale et d’administrations de medicaments, a l’aide de connaissances expertes specifiques au domaine. – Parmi les 200 articles cites par Meystre et al., le premier et le dernier auteur sont affilies a une institution de sante dans 74 % des articles (68 % pour les articles methodologiques, 79 % pour les appliques). Discussion/Conclusion L’extraction de caracteristiques a un impact majeur sur le succes d’une operation de reutilisation de donnees. Les raisonnements bases sur une expertise du domaine etudie y prennent une part importante, ce qui requiert une collaboration etroite entre informaticiens, statisticiens et professionnels de sante.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []