2016年03月_zhaomaoer

原创数据挖掘十大经典算法(十) CART: 分类与回归树

在数据挖掘中，决策树主要有两种类型: 分类树的输出是样本的类标。回归树的输出是一个实数 (例如房子的价格，病人呆在医院的时间等)。分类回归树是一棵二叉树，且每个非叶子节点都有两个孩子，所以对于第一棵子树其叶子节点数比非叶子节点数多1。决策树为什么(WHY)要剪枝？原因是避免决策树过拟合(Overfitting)样本。如何(HOW)在原生的过拟合决

2016-03-21 17:02:23 1058

原创数据挖掘十大经典算法(九) 朴素贝叶斯分类器 Naive Bayes

分类算法--------贝叶斯定理：朴素贝叶斯的基本思想：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。可以看到，整个朴素贝叶斯分类分为三个阶段：第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，

2016-03-21 16:55:23 1381

原创数据挖掘十大经典算法(八) kNN: k-nearest neighbor classification

K最近邻(KNN，K-NearestNeighbor)分类算法：所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻居来代表。　　核心思想：如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。　　KNN算法不仅可以用于分类

2016-03-21 16:49:32 1016

原创数据挖掘十大经典算法(七) AdaBoost

Adaboost是一种迭代算法，应用于分类问题。其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

2016-03-21 16:43:55 335

原创数据挖掘十大经典算法（六）PageRank

PageRank，网页排名，又称网页级别。Google用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。一个页面的PageRank是由所有链向它的页面（“链入页面”）的重要性经过递归算法得到。一个有较多链入的页面会有较高的等级，相反如果一个页面没有任何链入页面，那么它没有等级。

2016-03-21 16:23:29 575

原创数据挖掘十大经典算法（五）最大期望(EM)算法

最大期望算法（Expectation Maximization Algorithm，又译期望最大化算法），是一种迭代算法。在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。最大期望经常用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。EM算

2016-03-21 15:39:33 949

原创数据挖掘十大经典算法（四） The Apriori algorithm

Apriori algorithm是关联规则里一项基本算法。关联规则的目的就是在一个数据集中找出项与项之间的关系，也被称为购物篮分析 (Market Basket analysis)，eg：“尿布和啤酒”。Apriori核心算法过程如下：过单趟扫描数据库D计算出各个1项集的支持度，得到频繁1项集的集合。连接步：为了生成，预先生成,由2个只有一个项不同的属于的频集做一个（k

2016-03-21 10:57:54 3636

原创数据挖掘十大经典算法（二）The k-means algorithm 即K-Means算法

The k-means algorithm 即K-Means算法：算法的主要思想：通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类内紧凑，类间独立。该算法不适合处理离散型属性，但是对于连续型具有较好的聚类效果。聚类的代表点:将各个聚类子集内的所有数据样本的均值。算法步骤：

2016-03-21 09:59:03 1101

原创数据挖掘十大经典算法（一）C4.5

决策树：是一种数据分类方法，使人从直观上理解，准确率较高。决策树算法有很多种变种，包含ID3、C4.5、C5.0、CART等。基本思想：算法：GenerateDecisionTree(D,attributeList)根据训练数据记录D生成一棵决策树.输入：数据记录D，包含类标的训练数据集;属性列表attributeList，候选属性集，用于在内部结点中作判断的属性.属性选择

2016-03-21 09:41:30 540

Molly