Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai

2021 
Ebben a tanulmanyban a magyar hadifoglyok adatbazisaban levő tulajdonnevek orosz-magyar atirasanak modszeret es tanulsagait mutatjuk be. Az adatbazisban a 682000 hadifogoly adatai cirill betűkkel leirva allnak rendelkezesre. Az adatok ket korben szenvedtek torzulast: előszor, amikor az adatokat felvevő szovjet katona hallas utana leirta, majd mikor 60 ev multan szinten orosz anyanyelvűek manualis munkaval digitalizaltak az anyagot a kezzel irott kartonokrol. Esetunkben nem szimpla atirasrol van szo, hanem valojaban az eredeti magyar szo helyreallitasarol. Kulon feladatot jelentett a helyeket leiro adatok adatmezőkre bontasa. Szabalyalapu algoritmusunkban szigoru es laza atirast, valamint kozelitő keresest alkalmazunk, az atirast listakkal vetjuk ossze. Ha egyik modszer sem vezet eredmenyre, akkor a buta betűről-betűre atirast adjuk vissza. Eredmeny: az adatok 77%-ahoz tudtunk helyes helyreallitott alakot rendelni. Megfogalmazunk tanulsagot a kezzel keszult, korlatozatlan, szabadszoveges adatbazisok szuksegszerű kovetkezetlensegeről; valamint arrol, hogy egyedi adatnal, tanuloadat hijan van letjogosultsaga a szabalyalapu modszereknek.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []