Text segmentation based on term repetition distances

2006 
テキストを意味段落に分割する方法として, 語の反復距離に基づく話題結束度による認定手法を提案する. 意味段落とはテキスト中に含まれるまとまった話題の単位である. 文をまたがって出現する反復語の文間距離をもとに話題形成の尺度化を行い話題結束力を算出する. 語が近接して反復する区間に話題形成ポテンシャルが生じ, それが話題結束力を形成するという話題境界判定モデルを考案した. 社説記事を連結して, 記事境界と段落分割点とが一致したときを正解とする境界判定実験を行った結果, 再現率67.8%, 適合率61.8%の精度を得た. 極めて簡単な方法で段落境界を判定することができ, 記事以外に随筆等の比較的長いテキストに対しても有効である.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []