Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos

2017 
El presente articulo es una revision de tema cuyo objetivo es el examen de tecnicas de analisis multivariado usadas para clasificar unidades. En este trabajo se compara el desempeno de los metodos de clasificacion: Vecino mas Cercano, Sistema Bagging, Arboles de Clasificacion, Support Vector Machine, Sequential Minimal Optimization, Regresion Logistica, Redes Neuronales y Analisis Discriminante. Para todos los metodos se presenta su funcionalidad y desmpeno en la clasificacion de textos describiendo como es posible utilizarlos para clasificar y eventualmente caracterizar textos de distintos generos o disciplinas. El criterio de clasificacion es el genero al que pertenece el texto (Cientifico / No Cientifico). La caracterizacion de los textos esta basada en la distribucion de frecuencias de las categorias morfo-sintacticas. Los textos se clasificaron teniendo en cuenta simultaneamente las mediciones realizadas sobre ellos. Se considera como medida para la comparacion entre metodos el error de mala clasificacion calculada sobre una muestra de textos no incluidos en el proceso de construccion de la regla de clasificacion. De los metodos aplicados, Redes Neuronales presenta el mejor desempeno (3% de mala clasificacion). El siguiente en buen desempeno es el del Vecino mas Cercano (13% de mala clasificacion) teniendo como principales ventajas la simpleza de su aplicacion y la estabilidad de su comportamiento. Tambien presentaron desempenos aceptables los metodos Arboles de Clasificacion (14% de mala clasificacion) y Analisis Discriminante Cuadratico (16,67 % de mala clasificacion). Cabe destacar, que debido que los grupos presentan estructuras de covariancias distintas, es de esperar que el Analisis Discriminante Cuadratico clasifique mejor que el Analisis Discriminante Lineal (18% de mala clasificacion). Por otro lado, no es posible conocer en de que manera afecta la presencia de estructuras de covariancias distintas entre los grupos para los metodos restantes.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []