UPC-CORE: What Can Machine Translation Evaluation Metrics and Wikipedia Do for Estimating Semantic Textual Similarity?

Alberto Barrón-Cedeño,Lluís Màrquez,Maria Fuentes,Horacio Rodríguez,Jordi Turmo

UPC-CORE: What Can Machine Translation Evaluation Metrics and Wikipedia Do for Estimating Semantic Textual Similarity?

2013

Alberto Barrón-Cedeño
Lluís Màrquez
Maria Fuentes
Horacio Rodríguez
Jordi Turmo

In this paper we discuss our participation to the 2013 Semeval Semantic Textual Similarity task. Our core features include (i) a set of metrics borrowed from automatic machine translation, originally intended to evaluate automatic against reference translations and (ii) an instance of explicit semantic analysis, built upon opening paragraphs of Wikipedia 2010 articles. Our similarity estimator relies on a support vector regressor with RBF kernel. Our best approach required 13 machine translation metrics + explicit semantic analysis and ranked 65 in the competition. Our postcompetition analysis shows that the features have a good expression level, but overfitting and —mainly— normalization issues caused our correlation values to decrease.

Keywords:

Semantic similarity
Machine translation
Overfitting
Support vector machine
SemEval
Machine learning
Normalization (statistics)
Radial basis function kernel
Explicit semantic analysis
Artificial intelligence
Computer science
Ranking
Information retrieval
Natural language processing

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations