zhangpinghao的专栏

好记性不如烂笔头

TFIDF算法及应用

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Freque...

2014-03-10 01:41:00

阅读数 2444

评论数 1

模糊c均值聚类

FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。 6.1.1   ...

2013-10-14 20:47:31

阅读数 5471

评论数 0

k均值聚类(K-means)相异度计算

http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html 4.1、摘要       在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都...

2013-10-14 20:31:13

阅读数 4748

评论数 0

K-Means++算法

k-means算法是一种基本的聚类算法,这个算法的先决条件是   1)必须选择最终结果需要聚为几类,就是k的大小。   2)初始化聚类中心点,也就是seeds。   当然,我们可以在输入的数据集中随机的选择k个点作为seeds,但是随机选择初始seeds可能会造成聚类的结果和数据...

2013-10-14 19:31:45

阅读数 1254

评论数 0

召回率 Recall、精确度Precision、准确率Accuracy

假设原始样本中有两类,其中:  1:总共有 P个类别为1的样本,假设类别1为正例。  2:总共有N个类别为0 的样本,假设类别0为负例。  经过分类后: 3:有 TP个类别为1 的样本被系统正确判定为类别1,FN 个类别为1 的样本被系统误判定为类别 0,显然有P=TP+FN;  4:有...

2013-01-20 20:24:56

阅读数 2011

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭