Sistemas de clasificación basados en reglas difusas lingüísticas aplicadas a problemas con clases no balanceadas

Alberto Fernández Hilario

Sistemas de clasificación basados en reglas difusas lingüísticas aplicadas a problemas con clases no balanceadas

2011

Alberto Fernández Hilario

Dentro de las aplicaciones reales de clasificacion en ingenieria, existe un tipo de problema que se caracteriza por tener una distribucion de ejemplos muy distinta entre sus clases. Esta situacion se conoce como el problema de las clases no balanceadas y crea un impedimento para la correcta identificacion de los diferentes conceptos que se requiere aprender. En muchos casos, la clase con un menor numero de ejemplos (positiva o minoritaria) representa el concepto de mayor interes del problema, mientras que la clase con mayor numero de ejemplos (negativa o mayoritaria) representa simplemente contraejemplos sobre la clase positiva. Entre las tecnicas de Inteligencia Computacional empleadas para resolver los problemas de clasificacion, los Sistemas de Clasificacion Basados en Reglas Difusas Linguisticas son una herramienta popular debido a la interpretabilidad de sus modelos asociados basados en variables linguisticas, que son mas faciles de comprender para los usuarios finales o expertos. Nuestro interes en esta memoria reside en el estudio del comportamiento de los Sistemas de Clasificacion Basados en Reglas Difusas Linguisticas aplicados al problema de los datos no balanceados, asi como el desarrollo de metodos de aprendizaje que permitan alcanzar una buena separabilidad entre las clases positiva y negativa. Tambien consideramos el uso de metodos evolutivos de aprendizaje y ajuste de sistemas basados en reglas difusas para analizar la calidad de los resultados obtenidos en el marco de trabajo propuesto. Por ultimo, nuestra intencion es la de extender el problema de clasificacion no balanceada en conjuntos binarios a problemas multi-clase y definir una metodologia que permita discriminar correctamente entre las distintas clases del conjunto de datos, independientemente de su distribucion de ejemplos. Para llevar a cabo este estudio, la presente memoria se divide en dos partes, la primera de ellas dedicada al planteamiento del problema y discusion de los resultados y la segunda correspondiente a las publicaciones asociadas al estudio. En la Parte I de la memoria comenzamos con una seccion dedicada al ''Planteamiento del Problema'', introduciendo este con detalle y describiendo las tecnicas utilizadas para resolverlo. Asimismo, definimos los problemas abiertos en este marco de trabajo que justifican la realizacion de esta memoria asi como los objetivos propuestos. Posteriormente, incluimos una seccion de ''Discusion de Resultados'', que proporciona una informacion resumida de las propuestas y los resultados mas interesantes obtenidos en las distintas partes en las que se divide el estudio. La seccion ''Comentarios Finales'' resume los resultados obtenidos en esta memoria y presenta algunas conclusiones sobre estos, para finalmente comentar algunos aspectos sobre trabajos futuros que quedan abiertos en la presente memoria. Por ultimo, para desarrollar los objetivos planteados, la Parte II de la memoria esta constituida por cinco publicaciones distribuidas en cuatro partes: * Un Estudio del Comportamiento de los Sistemas de Clasificacion Basados en Reglas Difusas Linguisticas en el Ambito de los Conjuntos de Datos No Balanceados - A Study Of The Behaviour Of Linguistic Fuzzy Rule Based Classification Systems In The Framework Of Imbalanced Data-Sets * Una Metodologia de Aprendizaje mediante un Sistema Difuso Jerarquico para Datos No Balanceados - A Learning Methodology by means of a Hierarchical Fuzzy System for Imbalanced Data-sets * Analisis de la Calidad Derivada del Uso de Sistemas Difusos Evolutivos para Sistemas de Clasificacion Basados en Reglas Difusas Linguisticas con Conjuntos de Datos no Balanceados - Analysis of the Quality Derived from the Use of Genetic Fuzzy Systems for Linguistic Fuzzy Rule Based Classification Systems with Imbalanced Data-sets * Una Metodologia para la Clasificacion de Conjuntos de Datos No Balanceados Multi-clase Basada en Aprendizaje por Parejas y Preprocesamiento - A Methodology for the Classification of Multi-class Imbalanced Data-sets based on Pairwise Learning and Preprocessing

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations