Polarity Classification of Tourism Reviews in Spanish

2013 
espanolEste articulo presenta un clasificador de polaridad para criticas de recursos turisticos en espanol. Se ha creado una nueva coleccion de datos compuesta por criticas de recursos turisticos (hospedajes, restaurantes y actividades) del Pais Vasco en Espanol, extraidos de la web de criticas TripAdvisor. Adoptamos una estrategia supervisada y analizamos varios modelos configurados segun diferentes atributos: un modelo de unigramas y otros basados en la informacion lexica proporcionada por un lexicon de polaridad adaptado al dominio del turismo. El sistema basado en el lexico obtiene un 83% de precision para la tarea de clasificacion de 3 categorias, y un 57% a la hora de clasificar 5 categorias. La mejora respecto al modelo de unigramas no es significativa, pero el numero de atributos se reduce a la mitad, redundando en una mejora de la eficiencia. Asimismo, se ha evaluado el sistema para diferentes sub-dominios del turismo, que incluyen alojamientos, restaurantes y actividades. EnglishThis article describes a polarity classifier for Spanish tourism reviews. We created a new data-set comprised by reviews of tourism resources (accommodations, restaurants, and activities) from the Basque Country in Spanish, by crawling the TripAdvisor review website. We adopt a supervised approach, and analyze various feature sets: an unigram model and various models that rely on the lexical information provided by a polarity lexicon, adapted to the tourism domain. The lexicon-based system achieves 83% accuracy for a 3-category classification task, and a 57% accuracy for a 5-category classification. Although the improvement over the unigram model is not significant it uses the half number of features which is more efficient. On top of that, evaluation is carried out for tourism resources sub-domains, including accommodation, restaurants and activities.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []