一种新的 Web 中文文本聚类方法研究

Yufei Ye,anshiquan,daijin

一种新的 Web 中文文本聚类方法研究

2013

Yufei Ye
anshiquan
daijin

传统的文本聚类缺少语义信息，文本的特征向量高维稀疏，忽略了Web文本的特殊性。为了解决这些问题，提出一种Web中文文本聚类方法。在基于知网（HowNet）的概念空间基础上过滤非名词，分析文本中重要词汇的语义，对标签特征集与正文特征集进行特征集聚类，再利用改进的TF—IDF算法选取两个集合中的特征，最终将文本表示为选取的标签特征集与正文特征集的并集，降低了特征的维度，高效地表示了文本。通过实验验证了其有效性。

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations