language-icon Old Web
English
Sign In

Testing word embeddings for Polish

2017 
Testing word embeddings for Polish Distributional Semantics postulates the representation of word meaning in the form of numeric vectors which represent words which occur in context in large text data. This paper addresses the problem of constructing such models for the Polish language. The paper compares the effectiveness of models based on lemmas and forms created with Continuous Bag of Words (CBOW) and skip-gram approaches based on different Polish corpora. For the purposes of this comparison, the results of two typical tasks solved with the help of distributional semantics, i.e. synonymy and analogy recognition, are compared. The results show that it is not possible to identify one universal approach to vector creation applicable to various tasks. The most important feature is the quality and size of the data, but different strategy choices can also lead to significantly different results. Testowanie wektorowych reprezentacji dystrybucyjnych slow jezyka polskiego Semantyka dystrybucyjna opiera sie na zalozeniu, ze znaczenie slow wyrazone jest za pomocą wektorow reprezentujących, w sposob bezpośredni bądź pośredni, konteksty, w jakich slowo to jest uzywane w duzym zbiorze tekstow. Niniejszy artykul dotyczy ewaluacji wielu takich modeli skonstruowanych dla jezyka polskiego. W pracy porownano skutecznośc modeli opartych na lematach i formach slow, utworzonych przy wykorzystaniu sieci neuronowych na danych z dwoch roznych korpusow jezyka polskiego. Ewaluacji dokonano na podstawie wynikow dwoch typowych zadan rozwiązywanych za pomocą metod semantyki dystrybucyjnej, tzn. rozpoznania wystepowania synonimii i analogii miedzy konkretnymi parami slow. Uzyskane wyniki dowodzą, ze nie mozna wskazac jednego uniwersalnego podejścia do tworzenia modeli dystrybucyjnych, gdyz ich skutecznośc jest rozna w zalezności od zastosowania. Najwazniejszą cechą wplywającą na jakośc modelu jest jakośc oraz rozmiar danych, ale wybory roznych strategii uczenia sieci mogą rowniez prowadzic do istotnie odmiennych wynikow.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    13
    Citations
    NaN
    KQI
    []