language-icon Old Web
English
Sign In

KWIC System on WEB Documents

2005 
言葉を調べる際に有用なKWICシステムをWEBの膨大なテキストを対象に作成した.データは約350GバイトのWEBページにある約100億文字以上の日本語データをクローラーで2ヶ月かけて収集した.テキストの分量は32ビットで表される4Gバイトを超えており, 40ビット長インデックスに対応したサフィックスアレーを用いた高速な検索を実現している.例として, 「と痛む」のKWICリストを集め, その直前に現れるオノマトペを分析し, 日本語学習者に対して有用であることを示した.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    1
    Citations
    NaN
    KQI
    []