自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 数据挖掘十大经典算法(十) CART: 分类与回归树

在数据挖掘中,决策树主要有两种类型: 分类树 的输出是样本的类标。 回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。 分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1。 决策树为什么(WHY)要剪枝? 原因是避免决策树过拟合(Overfitting)样本。如何(HOW)在原生的过拟合决

2016-03-21 17:02:23 1058

原创 数据挖掘十大经典算法(九) 朴素贝叶斯分类器 Naive Bayes

分类算法--------贝叶斯定理:      朴素贝叶斯的基本思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。可以看到,整个朴素贝叶斯分类分为三个阶段:      第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,

2016-03-21 16:55:23 1381

原创 数据挖掘十大经典算法(八) kNN: k-nearest neighbor classification

K最近邻(KNN,K-NearestNeighbor)分类算法:所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表。  核心思想:如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。  KNN算法不仅可以用于分类

2016-03-21 16:49:32 1016

原创 数据挖掘十大经典算法(七) AdaBoost

Adaboost是一种迭代算法,应用于分类问题。其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

2016-03-21 16:43:55 335

原创 数据挖掘十大经典算法(六)PageRank

PageRank,网页排名,又称网页级别。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。一个页面的PageRank是由所有链向它的页面(“链入页面”)的重要性经过递归算法得到。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。

2016-03-21 16:23:29 575

原创 数据挖掘十大经典算法(五)最大期望(EM)算法

最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法。在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。EM算

2016-03-21 15:39:33 949

原创 数据挖掘十大经典算法(四) The Apriori algorithm

Apriori algorithm是关联规则里一项基本算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物篮分析 (Market Basket analysis),eg:“尿布和啤酒”。Apriori核心算法过程如下:过单趟扫描数据库D计算出各个1项集的支持度,得到频繁1项集的集合。连接步:为了生成,预先生成,由2个只有一个项不同的属于的频集做一 个(k

2016-03-21 10:57:54 3636

原创 数据挖掘十大经典算法(二)The k-means algorithm 即K-Means算法

The k-means algorithm 即K-Means算法:算法的主要思想:通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。        该算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。        聚类的代表点:将各个聚类子集内的所有数据样本的均值。算法步骤:

2016-03-21 09:59:03 1101

原创 数据挖掘十大经典算法(一)C4.5

决策树:是一种数据分类方法,使人从直观上理解,准确率较高。决策树算法有很多种变种,包含ID3、C4.5、C5.0、CART等。基本思想:算法:GenerateDecisionTree(D,attributeList)根据训练数据记录D生成一棵决策树.输入:数据记录D,包含类标的训练数据集;属性列表attributeList,候选属性集,用于在内部结点中作判断的属性.属性选择

2016-03-21 09:41:30 540

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除