KWIC System on WEB Documents
2005
言葉を調べる際に有用なKWICシステムをWEBの膨大なテキストを対象に作成した.データは約350GバイトのWEBページにある約100億文字以上の日本語データをクローラーで2ヶ月かけて収集した.テキストの分量は32ビットで表される4Gバイトを超えており, 40ビット長インデックスに対応したサフィックスアレーを用いた高速な検索を実現している.例として, 「と痛む」のKWICリストを集め, その直前に現れるオノマトペを分析し, 日本語学習者に対して有用であることを示した.
Keywords:
- Correction
- Source
- Cite
- Save
- Machine Reading By IdeaReader
0
References
1
Citations
NaN
KQI