Asignación de características a perfiles de cuentas en Twitter basándose en su actividad

2017 
Las redes sociales, y mas concretamente Twitter, se han convertido en un lugar donde compartir opiniones, informacion, mantener discusiones… y con ellas han ido creciendo tambien el numero de perfiles falsos que tratan de obstaculizar, falsear, difamar u obtener un redito economico. Ademas, la sofisticacion de este tipo de cuentas es cada vez mayor y ya no son los perfiles tipicos que a simple vista se pueden distinguir de las verdaderas. El camuflaje es en muchas ocasiones casi perfecto, hasta el punto de pasar totalmente inadvertidas. Ante todo esto, desde distintos ambitos de la docencia y la investigacion se esta llevando a cabo estudios para mejorar la identificacion de esas cuentas de modo que supongan un problema de menor grado. Pese a los esfuerzos que se estan realizando el problema sigue estando presente, y la utilizacion por parte de empresas, partidos politicos y organizaciones de este tipo de perfiles no hacen mas que aumentar este problema. Ademas, se juega en contra por el hecho de la falta de informacion de los usuarios de Twitter al no tener en consideracion que la informacion que les llega pueda ser perjudicial para ellos. Los objetivos que se persiguen con el trabajo son mostrar como funcionan algunos de los metodos de deteccion de cuentas tipo bot, explicar cuales son sus caracteristicas e incidir en las caracteristicas de las cuentas que permiten caracterizar a una cuenta como bot. Ademas, se busca que el lector entienda y reflexione sobre los problemas que conlleva la existencia de este tipo de cuentas y que aprenda a utilizar herramientas y metodos para detectarlas. Con el fin de realizar una clasificacion satisfactoria se ha creado un conjunto de datos formado por usuarios de tipo bot y otros humanos. Para hacerlo se han analizado todas y cada una de las cuentas y se han creado ciertos parametros ilustrativo del comportamiento de cada una de ellas. Se ha pretendido que el conjunto sea lo mas homogeneo posible y que el numero de cuentas de ambos tipos sea similar, para evitar que la probabilidad a priori introduzca sesgo en la labor de los clasificadores. Para conocer si las variables del conjunto de datos son las correctas o si por el contrario estan muy correlacionadas entre ellas y no son de gran utilidad, se ha realizado un procesado de los datos en los que se incluye un Analisis de Componentes Principales y por mapas auto-organizados (no lineales). Estos metodos permiten una representacion en 2 dimensiones y ver si existe de esta manera una division clara entre los dos tipos de cuentas. En concreto los mapas no lineales representan la proyeccion en 2 dimensiones de las distancias que hay entre los perfiles analizados Los metodos elegidos son Machine Learning Algorithms (SVM, Random Forest, Arboles de decision y el metodo bayesiano) que se han ejecutado en el programa estadistico R y que ayuda a trabajar con facilidad permitiendo mostrar, manipular y comparar los resultados obtenidos.El primero de ellos, SVM, realiza la clasificacion buscando una funcion lineal (hiperplano) que separe las entidades de dos o mas clases. Por otro lado, los arboles de decision son un tipo de algoritmo que va clasificando desde los parametros mas importantes hasta los de menor peso. Por otra parte Random Forest, hace multiples arboles de decision teniendo en cuenta multitud de combinaciones. En funcion de lo que la mayoria de arboles de decision determine, clasifica la entidad en uno u otro tipo. Para finalizar, el metodo bayesiano realiza una clasificacion en base a cada parametro por separado poniendo en comun todos los resultados.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []