Reconstruction de variables structurées à partir des données textuelles d’un entrepôt de données de santé, à des fins de recherche clinique, Paris

S. Karunakaran,D. van Gysel,S. Guinemer,I. Mahé,Kankoe Sallah

Reconstruction de variables structurées à partir des données textuelles d’un entrepôt de données de santé, à des fins de recherche clinique, Paris

2020

Introduction L’entrepot de donnees de sante de l’Assistance publique–Hopitaux de Paris offre l’opportunite d’une reutilisation des donnees massives de soins au profit de la recherche clinique. Cependant, une difficulte majeure est qu’il s’agit souvent de donnees non-structurees (80 % de texte) dont la relecture par des specialistes s’avere autant necessaire que chronophage pour l’extraction d’informations justes et pertinentes. En vue de limiter cette demarche couteuse de relecture, nous proposons une approche fondee sur le traitement automatique du langage naturel (TALN) combinee aux techniques d’apprentissage automatique, et ne necessitant qu’un volume reduit de donnees labellisees en relecture. Nous avons propose une demarche de reconstruction d’une variable binaire. Methodes Au total, 104 comptes rendus d’hospitalisation ont ete annotes par des cliniciens specialistes sur le statut cancer actif (oui/non) et utilises comme base d’apprentissage (70 %) et test (30 %) pour des modeles de classification. Ces modeles utilisaient en entree des termes recuperes des comptes rendus apres traitement TALN : suppression de la ponctuation, des mots vides, des suffixes et prefixes sans valeur semantique, vectorisation des termes par methode TF-IDF. Un modele bayesien naif, une regression logistique regularisee et des forets aleatoires ont ete iterees par validation croisee (k = 5 sous-echantillons). Les performances des modeles ont ete evaluees par le F1 Score, la precision et le rappel. Resultats Les scores F1 obtenus pour le modele bayesien naif, la regression logistique avec regularisation Lasso et les forets aleatoires sont 0,91, 0,93 et 0,68 respectivement ; pour le rappel : 1,00, 0,90, 0,58 ; et la precision : 0,94, 0,96, 0,81. L’utilisation du PMSI comme predicteur binaire renvoyait un score F1 a 0,87 lorsque le statut cancereux etait predit par un code diagnostique quelconque en C. Discussion/Conclusion Le deploiement d’algorithmes d’apprentissage automatique sur les contenus textuels des entrepots de donnees de sante offre une possibilite de reconstruction des variables structurees indispensables a la mise en œuvre des projets de recherche clinique sur ces nouvelles sources de donnees.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations