数据挖掘
whycold
这个作者很懒,什么都没留下…
展开
-
数据挖掘领域最有影响力的18个算法
转贴:http://bbs.langtech.org.cn/frame.php?frameon=yes&referer=http%3A//bbs.langtech.org.cn/forumdisplay.php%3Ffid%3D20感谢原创作者. ICDM2006-介绍:数据挖掘领域最有影响力的18个算法ICDM是数据挖掘领域的顶级会议之一,在数据挖掘理论与应用转载 2011-06-19 20:26:00 · 1233 阅读 · 0 评论 -
K-MEANS算法
K-MEANS算法k-meansalgorithm是一个聚类算法,把n个对象根据它们的属性分为k个分割,k 使各个群组内部的均方误差总和最小。假设有k个群组Si,i=1,2,...,k。μi是群组Si内所有元素xj的重心,或叫中心点。k平均聚类发明于1956年,该算法最常见的形式是采用被称为劳埃德算法(Lloyd algorithm)的迭代式改进探索法。劳埃德算法首先把输入转载 2011-06-27 21:56:00 · 757 阅读 · 0 评论 -
贝叶斯(Bayes)分类器
贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点间若存在着一条弧,则表示这两结点相对应的随机变量是概率相依的,反之转载 2012-06-23 15:02:45 · 2581 阅读 · 0 评论 -
回归树分类器
如果要选择在很大范围的情形下性能都好的、同时不需要应用开发者付出很多的努力并且易于被终端用户理解的分类技术的话,那么Brieman, Friedman, Olshen和Stone(1984)提出的分类树方法是一个强有力的竞争者。1 分类树在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。2 递归划分让我们用变量Y表示因变量(分类变转载 2012-06-23 15:08:21 · 1337 阅读 · 0 评论 -
SVM(支持向量机)
支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器。它们也可以被认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这种分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器原创 2012-06-23 15:02:08 · 3336 阅读 · 0 评论 -
EM(最大期望)算法
<!--@page {margin:2cm}p {margin-bottom:0.21cm}a:link {}-->在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariable)。最大期望经常用在机器学习和计算机视觉的数据聚类(原创 2012-06-24 22:51:22 · 4905 阅读 · 0 评论 -
PageRank
<!--@page {margin:2cm}td p {margin-bottom:0cm}pre.cjk {font-family:"文泉驿等宽正黑",monospace}pre.ctl {font-family:"Lohit Devanagari",monospace}h3 {margin-bottom:0.21cm}h3.cjk {font-f转载 2012-06-24 22:59:16 · 1068 阅读 · 0 评论 -
Adaboost分类器
<!--@page {margin:2cm}p {margin-bottom:0.21cm}a:link {}-->Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以原创 2012-06-23 15:10:11 · 6550 阅读 · 1 评论 -
邻近算法(k-Nearest Neighbor algorithm,k最近邻算法)
下图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3(即实线圆内部),由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5(即虚线圆内),由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在转载 2012-06-23 15:05:35 · 4920 阅读 · 0 评论 -
人工神经网络(ANN, artificial neural network)
人工神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。人工神经网络研究的局限性:l 研究受到脑科学研究成果的限制; l 缺少一个完整、成熟的理论体系;l 研究带有浓厚的策略和经验色彩;l 与传统技术的接口不成熟。 一般而言, ANN与经典计算方法相比并非优越, 只有当常规方法解决不了或效转载 2012-06-23 15:13:25 · 22836 阅读 · 0 评论 -
数据挖掘十大经典算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,转载 2011-06-27 21:11:00 · 916 阅读 · 0 评论 -
决策树算法
机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。决策树学习也是数据挖掘中一个普通的方法。在这里,每个决策树都表述了原创 2011-06-19 20:28:00 · 5384 阅读 · 0 评论