language-icon Old Web
English
Sign In

Clustering Text Data Streams

2008 
聚类文本数据流是在数据采矿社区的一个重要问题并且有象新闻组过滤,爬行的文本,文件组织和话题察觉和跟踪等等那样的很多个应用程序。然而,大多数方法是基于类似的途径并且仅仅使用 TF *IDF 计划代表文章数据的语义并且经常导致聚类质量的穷人。最近,研究人员们主张那个语义变光滑模型是比为改进聚类质量的文本的存在 TF *IDF 计划更有效的。然而,存在语义变光滑模型不对动态文本数据上下文合适。在这篇论文,我们第一把语义变光滑模型扩大到文章数据流上下文。基于扩展模型,我们然后为聚类巨大的文本介绍二个联机聚类算法 10 月和 OCTSM 数据流。在两个算法,我们也介绍命名的簇介绍能动态地捕获文章数据流的语义并且同时加快聚类的过程的新簇统计结构。为我们的算法的一些有效实现也被给。最后,我们在场说明我们的技术的有效性的一系列试验性的结果。电子增补材料这篇文章(doi:10.1007/s11390-008-9115-1 ) 的联机版本包含增补材料,它对授权用户可得到。
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []