ANÁLISE DE AGRUPAMENTOS SOBRE TEXTOS: UM ESTUDO DOS RESUMOS DO BANCO DE TESES E DISSERTAÇÕES DA CAPES

2018 
O processo de descoberta de conhecimento em grandes volumes de informacao tem um amplo campo de aplicacao. As principais tarefas de classificacao, agrupamento e associacao tem sido utilizadas em diferentes areas do conhecimento para tornar possivel a identificacao de conhecimento util em grandes volumes de dados. Neste artigo, e analisada a aplicacao de tecnicas de mineracao de dados, notadamente o algoritmo de agrupamento K-Means, com o objetivo de verificar sua efetividade para analise de dados oriundos do Portal Brasileiro de Dados Abertos, um repositorio de dados publico organizado e disponibilizado a populacao. O conjunto de dados utilizado para a aplicacao do algoritmo de agrupamento foi extraido das informacoes disponibilizadas sobre o banco de teses e dissertacoes disponibilizadas pela CAPES (Coordenacao de Aperfeicoamento de Pessoal de Nivel Superior). Os dados foram tratados e inseridos na plataforma Apache Solr® onde foram indexados, sendo os agrupamentos gerados a partir do software Carrot2, utilizando-se o algoritmo K-Means com configuracoes customizadas. Os agrupamentos foram gerados ano a ano e de forma consolidada, com diferentes configuracoes do algoritmo, tornando possivel a comparacao entre os termos obtidos. Concluiu-se que os resultados das ferramentas utilizadas estao diretamente relacionados com a escolha do numero de agrupamentos iniciais, mas a potencialidade para a descoberta de agrupamentos nao obvios e evidente.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []