KWIC System on WEB Documents

Satoshi Sekine,Yoshiyuki Takeda,Kenji Yoshihira

KWIC System on WEB Documents

2005

Satoshi Sekine
Yoshiyuki Takeda
Kenji Yoshihira

言葉を調べる際に有用なKWICシステムをWEBの膨大なテキストを対象に作成した.データは約350GバイトのWEBページにある約100億文字以上の日本語データをクローラーで2ヶ月かけて収集した.テキストの分量は32ビットで表される4Gバイトを超えており, 40ビット長インデックスに対応したサフィックスアレーを用いた高速な検索を実現している.例として, 「と痛む」のKWICリストを集め, その直前に現れるオノマトペを分析し, 日本語学習者に対して有用であることを示した.

Keywords:

Computer science
World Wide Web

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations