ANÁLISE DE AGRUPAMENTOS SOBRE TEXTOS: UM ESTUDO DOS RESUMOS DO BANCO DE TESES E DISSERTAÇÕES DA CAPES
2018
O processo de descoberta de conhecimento em grandes volumes de informacao tem um amplo campo de aplicacao. As principais tarefas de classificacao, agrupamento e associacao tem sido utilizadas em diferentes areas do conhecimento para tornar possivel a identificacao de conhecimento util em grandes volumes de dados. Neste artigo, e analisada a aplicacao de tecnicas de mineracao de dados, notadamente o algoritmo de agrupamento K-Means, com o objetivo de verificar sua efetividade para analise de dados oriundos do Portal Brasileiro de Dados Abertos, um repositorio de dados publico organizado e disponibilizado a populacao. O conjunto de dados utilizado para a aplicacao do algoritmo de agrupamento foi extraido das informacoes disponibilizadas sobre o banco de teses e dissertacoes disponibilizadas pela CAPES (Coordenacao de Aperfeicoamento de Pessoal de Nivel Superior). Os dados foram tratados e inseridos na plataforma Apache Solr® onde foram indexados, sendo os agrupamentos gerados a partir do software Carrot2, utilizando-se o algoritmo K-Means com configuracoes customizadas. Os agrupamentos foram gerados ano a ano e de forma consolidada, com diferentes configuracoes do algoritmo, tornando possivel a comparacao entre os termos obtidos. Concluiu-se que os resultados das ferramentas utilizadas estao diretamente relacionados com a escolha do numero de agrupamentos iniciais, mas a potencialidade para a descoberta de agrupamentos nao obvios e evidente.
Keywords:
- Correction
- Source
- Cite
- Save
- Machine Reading By IdeaReader
0
References
0
Citations
NaN
KQI