数据结构与算法
文章平均质量分 64
willdeamon
这个作者很懒,什么都没留下…
展开
-
sparse matrix(稀疏矩阵)
sparse matrix(稀疏矩阵)下文大致参考sparse_matrix-维基百科最近在接触sklearn 进行自然语言处理的时候,发现做类似tf-idf等等这样的算法时候,很多时候自然语言得出来的矩阵里面,是含有很多个0这样的元素的。这时候如果用一个大矩阵去处理数据,很容易造成内存不足(我处理100多万份短文本,分词后转化为矩阵明显是不足的),经过我研究,sklearn是默认使用一种spars原创 2016-12-05 14:54:14 · 12826 阅读 · 0 评论 -
scikit-learn 进行tf-idf计算
参考网站:sciki-learn feature-extractiontf-idf基本概念tf-idf主要是用于提取文本关键词,在文本中,有些词语如:我,你,他这种词会在大量文本出现,而对文本的分类起不大作用的词语。这时候使用tf-idf提取文本的关键词就可以把这些通用次筛选掉了。直接上公式了,一个词的tf-idf用下式计算: 其中tf是词在一个文本出现的次数,idf指一个词在所有文本出现的值原创 2016-12-06 15:41:08 · 586 阅读 · 0 评论