Índice de validação de agrupamento de dados baseado em curvas principais

2020 
Os algoritmos de agrupamento de dados sao metodos nao supervisionados que buscam separar o conjunto conjunto de dados em k grupos sem depender do conhecimento previo do conjunto de dados. Os indices de validacao de cluster sao comumente usados para validar o resultado desses algoritmos, ja que nenhum rotulo esta disponivel. O agrupamento de dados com base nas curvas principais, e uma generalizacao nao linear da Analise de Componentes Principais e pode mapear as nao linearidades dos dados de varias dimensoes para uma dimensao, gerando vetores de representacao de dados compactos. Ele e capaz de lidar com clusters de dados com distribuicao nao gaussiana, mas, em geral, os indices de validacao sao construidos combinando uma medida de compactacao e uma medida de separacao que nem sempre reflete a qualidade do cluster para esse tipo de distribuicao de dados e pode, portanto, apresentar resultados enganosos. Neste artigo, um novo indice de validacao e proposto para agrupamento de dados com base nas curvas principais. Foram realizados experimentos em bases de dados sinteticas. Os resultados mostraram que o indice proposto e adequado para o metodo de agrupamento baseado em curvas principais para diferentes distribuicoes
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []