Removing Boilerplate and Duplicate Content from Web Corpora

2011 
V poslednich letech se Web stal oblibeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovske množstvi textů v řadě jazyků. Nicmeně, aby bylo možne z Webu vytvařet kolekce (textove korpusy) vhodne pro aplikaci v oblasti zpracovani přirozeneho jazyka, je třeba vyřesit řadu problemů. Tato prace řesi dva z nich: odstraňovani sablon a odstraňovani duplicitnich a podobných (teměř duplicitnich) dat. Na větsině webových stranek je hlavni obsah zasazen do sablony, ktera může obsahovat např. navigacni linky, reklamy, hlavicky a paticky apod. Pokud bychom texty z sablon zahrnuli do korpusu, výsledkem může být nadměrný výskyt slov typu domů, hledej, tisk apod. Tato prace poskytuje přehled běžně použivaných technik pro odstraňovani sabon a rovněž nabizi nový heuristický přistup k tomuto problemu. Prace srovnava navržnou metodu s aktualnimi algoritmy na dostupných datových kolekcich. Mnoho textů se na Webu vyskytuje vicenasobně (např. zrcadlene stranky, revize dokumentů, citace v diskuznich forech apod.). Duplicitni data narusuji statisticke udaje odvozene z korpusů a způsobuji potiže uživatelům, kteři ve webových korpusech hledaji lingvisticke informace. Problem identifikace duplicitnich a blizkých webových stranek byl již podrobně studovan v kontextu webových vyhledavaců. Nicmeně problem je zde typicky omezen pouze na identifikaci teměř totožných dokumentů. Dvojice webových stranek, ktere obsahuji v nezanedbatelnem množstvi jak identicke casti, tak i casti rozdilne, nejsou webovými vyhledavaci považovany za blizke. V oblasti textových korpusů jsou ovsem zdrojem problemů jakekoliv duplicity. Vzhledem k tomu, že identifikaci podobnosti středni urovně ve velkých textových kolekcich zatim ve vědeckých kruzich nebylo věnovano přilis pozornosti, jednim z cilů teto prace je zaplnit tuto mezeru.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    76
    Citations
    NaN
    KQI
    []