Improving Topic Classification for Highly Inflective Languages

2012 
Despite the existence of many effective methods to solve topic classification tasks for such widely used languages as English, there is no clear answer whether these methods are suitable for languages that are substantially different. We attempt to solve a topic classification task for Lithuanian, a relatively resource-scarce language that is highly inflective, has a rich vocabulary, and a complex word derivation system. We show that classification performance is significantly higher when the inflective character of the language is taken into account by using character ngrams as opposed to the more common bag-of-words approach. These results are not only promising for Lithuanian, but also for other languages with similar properties. We show that the performance of classifiers based on character n-grams even surpasses that of classifiers built on stemmed or lemmatized text. This indicates that topic classification is possible even for languages for which automatic grammatical tools are not available. TITLE AND ABSTRACT IN LITHUANIAN Klasifikavimo į temas gerinimas stipriai kaitomoms kalboms Nepaisant to, jog tokioms placiai naudojamoms kalboms kaip anglų yra sukurta daug efektyvių metodų, sprendžiancių klasifikavimo į temas uždavinius, neaisku ar sie metodai yra tinkami visiskai skirtingoms kalboms. Siekiame isspresti klasifikavimo į temas uždavinį gana mažai isteklių sioje srityje turinciai lietuvių kalbai, kuri yra stipriai kaitoma, turi turtingą žodyną, sudėtingą žodžių darybos sistemą. Pademonstruosime, kad galima pasiekti ženkliai geresnius klasifikavimo rezultatus, kuomet atsižvelgiama į kaitomą kalbos pobūdį: naudojamos simbolių ngmamos vietoj labiau įprasto žodžių rinkinio. Gauti rezultatai perspektyvūs ne tik lietuvių kalbai, bet taip pat ir kitoms, panasiomis savybėmis pasižymincioms, kalboms. Pademonstruosime, kad klasifikatorių, naudojancių simbolių n-gramas veikimas netgi efektyvesnis, palyginus su klasifikatoriais, naudojanciais į žodžių kamienus arba lemas transformuotą tekstą. O tai reiskia, kad sį klasifikavimo į temas metodą galima taikyti netgi toms kalboms, kurios neturi specializuotų automatinių gramatinių įrankių.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    31
    References
    12
    Citations
    NaN
    KQI
    []