本文转自http://www.iteye.com/topic/989012
https://blog.csdn.net/jasontome/article/details/7933618
本文章纯属个人学习笔记,持续不断的增加中...
本章主要的学习是中文分词 和两种统计词频(传统词频和TF-IDF算法 ) 的方法.
学习目的:通过N多的新闻标题 or 新闻摘要 or 新闻标签,生成基本的文本聚类,以便统计当天新闻的热点内容.
扩展:可以运用到文本分类 ,舆情分析 等.
基本的学习思路:(本思路由网友rowen指点)
- 1.准备文本
- 2.切词并统计词频
- 3.去掉极低频词和无意义词(如这个、那个、等等)
- 4.从剩余的词中提取文本特征,即最能代表文本的词
- 5.用空间向量表示文本,空间向量需标准化,即将数值映射到-1到1之间
- 6.利用所获取的空间向量进行聚类分析
- 7.交叉验证