Intelligent system for web spam detection

Jorge Fernández González

Intelligent system for web spam detection

2016

Jorge Fernández González

En la presente tesis doctoral se propone un modelo hibrido de Inteligencia Artificial destinado a solventar el problema de la deteccion y filtrado de dominios web que ofrecen contenido ilicito. En este contexto, la existencia de una web cambiante y cada vez mas heterogenea hace patente la necesidad de disponer de nuevas herramientas que permitan la combinacion de diferentes tecnicas anti-spam con el fin de aumentar su capacidad de generalizacion. Concretamente, el modelo propuesto implementa un sistema basado en reglas, que va a ser el encargado de gestionar y ejecutar las distintas tecnicas anti-spam incorporadas al sistema. Este conjunto de reglas constituye la base de conocimiento, que sera utilizada por el modelo propuesto a la hora de determinar la legitimidad de un dominio web. Adicionalmente, con el fin de manejar correctamente la naturaleza evolutiva del spam, el modelo incorpora un modulo de aprendizaje capaz de ajustar automaticamente los parametros de configuracion, permitiendo asi mantener el rendimiento de filtrado a lo largo del tiempo. Para llevar a cabo este cometido, el modelo propuesto ha sido disenado utilizando una metodologia IBR. Con el fin de poder demostrar experimentalmente la hipotesis inicial, el modelo propuesto ha sido evaluado empleando dos corpus accesibles publicamente, los cuales mantienen el contenido original de cada dominio y presentan una distribucion altamente desbalanceada, hecho muy habitual en el ambito de la web. El analisis de los resultados obtenidos evidencia que el sistema desarrollado ofrece mejoras en comparacion con el resto de modelos probados, tanto a nivel cualitativo como cuantitativo, siendo capaz de producir clasificaciones mas acertadas y con mayor precision y rapidez. Finalmente, se puede afirmar que el presente trabajo ha establecido las bases para la creacion de tecnicas para el filtrado del spam en la web, teniendo en consideracion conceptos tan importantes en este ambito como son el desbalanceo de clase o la naturaleza cambiante del spam. Adicionalmente, se ha propuesto un modelo de filtrado rapido y fiable, dotado de capacidad de aprendizaje incremental para la deteccion automatica de dominios con contenido ilicito.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations