Novas abordagens de aprendizado semisupervisionado por conectividade ótima

Willian Paraguassu Amorim

Novas abordagens de aprendizado semisupervisionado por conectividade ótima

2016

Willian Paraguassu Amorim

A anotacao de grandes bases de dados por um classificador e um problema cujo desafio aumenta a medida que o numero de amostras supervisionadas usadas para treinar o clas-sificador reduz em comparacao com o numero de amostras nao supervisionadas. Neste contexto, metodos de aprendizagem semisupervisionados visam a descoberta e propagacao de rotulos para amostras informativas entre as nao supervisionadas, de tal forma que a sua adicao a classe correta no conjunto de treinamento possa melhorar o desempenho de classificacao. Esta tese de doutorado apresenta uma serie de novas abordagens de apren-dizado semisupervisionado com base na metodologia adotada por Floresta de Caminhos Otimos (OPF). Esta metodologia interpreta o problema de reconhecimento de padroes como um problema de busca em grafo, onde os nos sao amostras de treinamento, os ar-cos sao definidos por uma dada relacao de adjacencia, e os caminhos sao avaliados por alguma funcao de conectividade. Nos prototipos sao identificados entre as amostras de treinamento e a competicao entre eles faz com que cada amostra seja conquistada (rotu-lada) pelo prototipo que lhe oferece um caminho otimo. O resultado e um classificador —floresta de caminhos otimos enraizado no conjunto de prototipos. Classificadores podem ser criados por uma ou multiplas execucoes do algoritmo OPF para diferentes grafos e funcoes de conectividade. Apresentamos duas abordagens (OPFSEMI e OPFSEMI,„„t) para o problema de rotulo unico, que diferem entre si em relacao aos prototipos finais e ao numero de execucoes do algoritmo OPF. Tambem propomos uma abordagem semi-supervisionada mais adequada para o problema multirotulos do que as anteriores. Este e um problema desafiador, especialmente quando a solucao adota a transformacao de dados de multirotulos em dados de rotulo unico, o que pode afetar o desempenho na fronteira entre classes. Para resolver este problema, melhoramos a atribuicao de multitotulos adici-onando uma etapa final no processo de treinamento de OPFSEMI.d. O metodo, chamado OPFSEMI„,d+L.„„, cria uma floresta de caminhos otimos enraizada nos maximos de uma funcao de densidade de probabilidade, estimada a partir de um grafo k-NN. Finalmente, propomos uma abordagem de aprendizagem ativa baseada em OPFSEMI„,d (OPFSEMI). O metodo seleciona amostras informativas para a supervisao de especialistas, de modo que o numero de iteracoes no aprendizado ativo (esforco do usuario) e reduzido.

Keywords:

Humanities

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations