Experimentos computacionales en un estudio de simulación de modelos de regresión para una mejor comprensión de las herramientas Random Forests y Conditional Trees

Álvaro Rollón de Pinedo

Experimentos computacionales en un estudio de simulación de modelos de regresión para una mejor comprensión de las herramientas Random Forests y Conditional Trees

2016

Álvaro Rollón de Pinedo

El presente Trabajo de Fin de Grado tiene como objetivo fundamental la realizacion de experimentos y simulaciones que permitan mejorar la comprension que se posee de una de las herramientas estadisticas mas potentes de las ultimas decadas, especialmente en problemas de regresion y clasificacion, los Random Forests. Los algoritmos de Bosques Aleatorios surgen como la evolucion natural de los modelos estadisticos de arboles individuales de decision, entre los cuales se pueden destacar dos principalmente: CART y los Conditional Inference Trees. En base a estos dos modelos mas simples es posible construir dichos Bosques a traves de una tecnica conocida como Bagging (Bootstrap Aggregating ), que permite mejorar la capacidad de los diversos algoritmos de Aprendizaje Automatico, aumentando su estabilidad, reduciendo su varianza y previniendo el problema que supone el fenomeno del overfitting (sobreajuste) en casos en los que se manejan grandes cantidades de datos. Basicamente, el proceso consiste en tomar de manera aleatoria una cantidad determinada de variables con las cuales construir cada uno de los arboles individuales, realizandose con ellos una prediccion concreta, que posteriormente sera ponderada a traves del calculo de la media de cada uno de dichos arboles, para generar la prediccion final del Random Forest. Si bien es cierto que este proceder se ha demostrado valido en numerosas aplicaciones y tiene gran cantidad de ventajas, el hecho de que en muchos aspectos se comporte como una caja negra a la que sencillamente se le introduce informacion y directamente aporte una solucion al problema, hace que conocer en detalle sus capacidades y caracteristicas constituya un problema considerablemente complejo. Para solventarlo, se realizaran una serie de simulaciones programadas que permitan facilitar la comprension de la herramienta. Las pruebas que se iran realizando tendran en cuenta diversos parametros a modificar para posteriormente poder analizar la respuesta. En general, se generaran variables aleatorias de diferentes caracteristicas y numero de observaciones. Asimismo, dicho conjunto de variables en ocasiones se generara de tal manera que las mismas esten correlacionadas o sean totalmente independientes dependiendo del caso. Asimismo, tambien se observara el efecto que tiene la introduccion de ruido en el sistema, pudiendose observar la adaptacion de Random Forests a modelos deterministas y no deterministas. Como es natural en cualquier problema de regresion, las variables dependientes son el resultado de una serie de relaciones matematicas entre las variables independientes o regresores que, en general, no son conocidas a priori. Sin embargo, para facilitar la comprension de los resultados obtenidos en los diversos experimentos, se emplearan dos modelos relativamente sencillos, que son ademas muy empleados en el caso de la regresion: El modelo lineal multiple y el modelo lineal multiple con interacciones de segundo orden entre las variables. El hecho de que en el segundo caso no se hayan incluido interacciones de orden tres o superior obedece al hecho de que rara vez en un proceso real se da dicha situacion. Una de las grandes ventajas de los arboles de decision es su gran capacidad para el manejo de enormes cantidades de datos y variables y aun asi proporcionar buenos resultados, caracteristica que se queria comprobar en este apartado. En este tipo de experimentos se modificara la cantidad de variables, y con el numero de observaciones que se tiene de la misma. En general, se proporcionara poca informacion al sistema, de tal manera que la tarea de encontrar las relaciones entre las mismas resulte aun mas complicado. El haber procedido de esta manera permite comprobar como incluso el ajuste de modelos lineales, falla a partir de cierto punto en el que le falta demasiada informacion para ajustar un modelo correcto. Sin embargo, se comprueba que Random Forest se mantiene robusto pese a que esta claramente desfavorecido en este caso. Si bien esta claro que los algoritmos realizados con arboles de decision poseen una gran robustez a la hora de tratar con problemas en los que se posee poca informacion, al final todo modelo matematico esta sujeto a este tipo de problema. La intencion de dicho experimento era forzar hasta tal punto al sistema que incluso los modelos de arboles tuvieran complicaciones serias a la hora de abordarlos. Tras diversas simulaciones, en las cuales se analizo la variacion del MAPE se llego a encontrar una relacion exponencial entre la necesidad de observaciones de las variables y la cantidad de las mismas, estando en todo momento dicha relacion acotada por la bisectriz del primer cuadrante, es decir, se necesitan mas observaciones, como es logico. Para llegar a dichas conclusiones fue necesario analizar modelos de Random Forest que llegaron a estar construidos hasta con 3000 variables y observaciones (nueve millones de datos). El numero de arboles que se incluyen en el Bosque Aleatorio es uno de los parametros mas discutidos en cuanto a la influencia que pueden tener en la precision de las predicciones o la aparicion de fenomenos como el sobreajuste. En principio la metodologia del Bagging resulta muy eficaz en estos modelos a la hora de evitar el overfitting, de modo que en principio un aumento del tamano del bosque unicamente deberia redundar en un aumento del coste computacional del analisis y quiza en un aumento de la precision. El parametro conocido como mtry hace referencia a la cantidad de variables que se emplearan a la hora de analizar como conseguir la mayor mejora posible de un determinado parametro, como puede ser la ganancia de informacion segun se va ramificando el arbol. En general, es considerado uno de los parametros que mas influyen en la calidad del Random Forest que se ajuste a un modelo concreto, de forma que lo esperable es que haya una gran sensibilidad de la precision de las predicciones ante variaciones de dicho parametro. En los experimentos llevados a cabo en los cuales se varia el mtry, se analiza la respuesta que aportan los modelos a lo largo de todo el espacio de valores que puede tomar, tomando un mayor o menor paso de analisis en funcion de la cantidad de variables y de observaciones consideradas. Importancia de variables: Se trata de un concepto complicado de definir pero que pretende expresar la relevancia que tienen los diversos regresores en la respuesta. Existen diversos metodos de medicion indirecta de la misma, de modo que en funcion del caso se intentara comprobar hasta que punto los metodos implementados en los diversos algoritmos a analizar se acercan a la relevancia ponderada que se puede asignar a cada regresor dado que el modelo con el que se generan las repuestas es conocido a priori. Intervalos de confianza: Resulta una caracteristica tipica de la mayoria de documentos relativos al comportamiento de Random Forest el analisis de la calidad de las predicciones en funcion del error relativo, dejando de lado un aspecto fundamental del analisis estadistico en cualquier proceso de regresion o que implique problemas de prediccion: la incertidumbre sobre la misma. Se denomina intervalo de confianza al numero o dupla de numero a partir del cual o entre los cuales es posible encontrar el parametro estimado con una cierta probabilidad, de modo que se puede emplear como una medida de la incertidumbre. En el caso de Random Forest, dichos intervalos seran construidos mostrando donde se situa la prediccion del conjunto respecto de la totalidad de predicciones de cada arbol individual.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations