Mining medical data to develop clinical decision making tools in hemodialysis: prediction of cardiovascular events

2013 
Durante gli ultimi trent’anni si sono sempre piu diffuse sia la possibilita che la consuetudine di immagazzinare dati medicali in formato elettronico. La possibilita di immagazzinare grandi quantita di dati medicali ha reso di dimensioni sempre maggiori i database medicali. Per questo motivo le tecniche di machine learning hanno acquisito un ruolo sempre piu importante in ambiente clinico. Questo fattore e di fondamentale importanza in quanto ha reso possibile l’esplorazione dei dati per estrarre utili ed interessanti informazioni celate in essi. Informatici e statistici stanno sempre piu applicando le tecniche di machine learning a database medicali proprio perche un loro corretto impiego puo essere utile per individuare la presenza di pattern specifici o particolari relazioni presenti tra le variabili mediche e lo stato pato-fisiologico del paziente. La predizione di eventi e uno degli obiettivi piu diffusi nel machine learning: l’applicazione di tali tecniche nell’ambito della medicina preventiva puo portare all’identificazione di fattori predittivi di situazioni di rischio. I pazienti con patologia renale cronica trattati con emodialisi sono soggetti ad un rischio di mortalita molto alta. Il tasso di mortalita annuale e di circa il 20% e lo stato pato-fisiologico dei pazienti con patologie renali croniche e stato recentemente definito “vasculopatico” dal momento che l’insorgenza di morte cardiovascolare e approssimativamente 30 volte piu alta che nella popolazione generale. La comprensione dei fattori coinvolti nell’insorgenza di eventi cardiovascolari nei pazienti in dialisi e uno degli obiettivi attuali e primari in nefrologia. Recentemente sono stati compiuti da parte di diversi gruppi di ricerca diversi tentativi per predire l’outcome cardiovascolare dei pazienti dialitici. Purtroppo pero i fenomeni pato-fisiologici coinvolti sono molto complessi e una predizione accurata del decorso dello stato cardio-renale in questi pazienti rimane una sfida molto attuale. Lo scopo di questa tesi di dottorato e lo sviluppo di strumenti e modelli basati su tecniche di machine learning per la predizione di eventi cardiovascolari in pazienti nefropatici trattati con trattamento emodialitico. A tale scopo e stato utilizzato un dataset di dati reali estratto dal sistema EuCliD, proprieta dell’azienda Fresenius Medical Care. Tale sistema e utilizzato nella routine clinica per la raccolta di dati di pazienti e trattamenti emodialitici. Sono stati analizzati i dati di piu di 4500 pazienti sottoposti a trattamento emodialitico tre volte a settimana per 18 mesi. In particolare sono stati selezionati i pazienti incidenti il trattamento emodialitico, cioe pazienti trattati per la prima volta nella loro vita con trattamento emodialitico. Quindi i 18 mesi di trattamento in analisi sono i primi 18 mesi di trattamento per i pazienti in analisi. Tale categoria di pazienti e stata selezionata per l’alta insorgenza di malattie cardiovascolari durante il periodo iniziale di dialisi. Il periodo in analisi e stato suddiviso in finestre temporali di sei mesi e sono stati sviluppati modelli predittivi l’insorgenza di eventi cardiovascolari nella finestra temporale successiva sulla base di variabili estratte dalla finestra temporale corrente. Le tecniche di machine learning scelte per lo sviluppo di tali modelli sono state regressione logistica basata sull’algoritmo di Lasso, random forests, support vector machines e self organizing maps. Le random forests sono state scelte per la loro capacita di identificare e sfruttare nella predizione le relazioni non-lineari presenti nei dati. Infatti la complessita dei meccanismi fisiologici coinvolti e la presenza di relazioni fortemente non lineari tra le variabili considerate e l’outcome cardiovascolare ha suggerito l’impiego di un metodo non lineare come le random forests. La migliore performance predittiva e stata ottenuta proprio con l’impiego di tale modello: e stata ottenuta una area sotto la curva (AUC) ROC pari a 73% con sensitivita maggiore del 70% in entrambe le finestre temporali, dimostrando l’abilita delle random forests di sfruttare le relazioni non lineari identificate nello spazio delle features. Nella tesi viene affrontata anche l’applicazione di tecniche di feature selection. In particolare due differenti metodi di feature selection basati entrambi su strategia wrapper sono stati integrati nella costruzione dei modelli per identificare sottogruppi di features efficaci nella predizione: tramite procedura wrapper la capacita predittiva dei modelli basati su random forests e self organizing map e stata incrementata e sono stati ottenuti modelli computazionalmente meno pesanti e piu facilmente interpretabili. Dall’analisi dei modelli implementati e dall’analisi dei sottogruppi di features identificati e stato possibile notare che la presenza di uno stato infiammatorio, di malnutrizione e di una non corretta ultrafiltrazione del paziente sono predittori significativi dell’insorgenza di eventi cardiovascolari in pazienti incidenti il trattamento emodialitico. Tali fattori evidenziano un maggiore rischio di peggioramento repentino nelle condizioni del sistema cardiovascolare: strategie di cura personalizzate possono essere escogitate per diminuire il rischio cardiovascolare in pazienti incidenti il trattamento dialitico ed identificati come a maggior rischio cardiovascolare.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []