Regresión Logística y Árboles de Clasificación. Un estudio de simulación para la comparación en el caso de grupos balanceados y desbalanceados.

2019 
En esta investigacion se propone el estudio, evaluacion y comparacion de dos tecnicas estadisticas multivariadas de clasificacion, Regresion Logistica y Arboles de Clasificacion, siendo de interes evaluar el desempeno de las mismas cuando son utilizadas en datos simulados bajo distintas situaciones. Se simularon datos bajo 4 condiciones diferentes que diferian en la estructura de correlaciones entre las variables. Asimismo, se combinaron estas cuatro situaciones con otras dos situaciones correspondientes a grupos balanceados y desbalanceados. El escenario 1 corresponde a datos provenientes de una poblacion en la que los predictores estan fuertemente correlacionados con la respuesta pero no entre ellos. El escenario 2 plantea una simulacion a partir de una poblacion con poca correlacion de la respuesta con las variables predictoras pero estas correlacionadas entre si. En el escenario 3, la correlacion presente en la poblacion origen de la simulacion es importante tanto entre las predictoras como entre estas y la respuesta. Por ultimo, el escenario 4 corresponde a una poblacion original en la que no existe ningun tipo de correlacion de magnitud importante entre las variables, ni de los predictores con la respuesta ni entre ellos. Asimismo, estos escenarios presentaban dos tipos de modalidades para la variable respuesta dicotomica: caso balanceado y desbalanceado. Para cada muestra, se simularon 30 datos extras o suplementarios para ser considerados en la evaluacion de la clasificacion sin haberlos utilizados en los procesos de estimacion. Se observo como resultado principal, que en condiciones donde las variables predictoras estan altamente correlacionadas con la respuesta, si bien los AC mostraron un porcentaje de error significativamente menor en la clasificacion, ambas metodologias funcionan satisfactoriamente. Sin embargo, cuando las condiciones para obtener una clasificacion satisfactoria son desfavorables (predictores poco correlacionados con la respuesta) los AC logran un porcentaje de clasificacion correcta notablemente superior a la RL. En el caso desbalanceado, la clase mayoritaria presento un porcentaje de clasificacion correcta superior en la regresion logistica a costa de un peor desempeno en la clase minoritaria. Este comportamiento estuvo mas marcado en regresion logistica que en los arboles de clasificacion. En aquellos casos donde los porcentajes de clasificacion correcta para los dos procedimientos son similares, el modelo de regresion logistica tendria la ventaja con respecto a los arboles, en el sentido de la interpretacion de los parametros del mismo.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []