Data Mining
Bonnie_Xie
这个作者很懒,什么都没留下…
展开
-
数据挖掘算法学习(七)SVM算法
SVM,支持向量机。数据挖掘中的一个经典算法,博主学了挺久,把学到的一些东西跟大家分享一下。支持向量机(SVM,Support Vector Machine)是在高维特征空间使用线性函数假设空间的学习系统,它由一个来自最优化理论的学习算法训练,该算法实现了一个由统计学习理论到处的学习偏置.此学习策略由Vapnik和他的合作者提出,是一个准则性的 并且强有力的方法.在它提出来的若干年来,在范原创 2014-10-11 17:27:19 · 4150 阅读 · 0 评论 -
数据挖掘算法学习(九)EM算法-上篇-多元高斯分布
EM算法大致分为两步——E步骤和M步骤。而在求解运算过程中,需要用到高斯分布,逆矩阵等数学知识。EM算法上篇先梳理一下基础的数学知识,具体EM算法的核心思想下篇再进行介绍。由于公式,矩阵太多,便手写一份推导,贴在下面。原创 2015-01-09 20:32:17 · 7072 阅读 · 2 评论 -
数据挖掘算法学习(一)K-Means算法
算法简介:K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。并使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中对象相似度较小。算法假设:均方误差是计算群组分散度的最佳参数。算法输入:聚类个数k;原创 2014-07-27 16:59:49 · 7406 阅读 · 0 评论 -
数据挖掘算法学习(三)NaiveBayes算法
算法简介NBC是应用最广的分类算法之一。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。算法假设给定目标值时属性之间互相条件独立。算法输入训练数据 T={(x1,y1),(x2,y2),……,(xn,yn)}待分类数据x0=(x0(1),x0(2),……,x0(n)原创 2014-07-28 10:02:36 · 4806 阅读 · 0 评论 -
数据挖掘算法学习(四)PCA算法
算法简介主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。主要用于对特征进行降维。算法假设数据的概率分布满足高斯分布或是指数型的概率分布。方差高的向量视为主元。原创 2014-07-28 20:50:56 · 3363 阅读 · 0 评论 -
数据挖掘算法学习(八)Adaboost算法
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。原创 2014-10-24 11:53:09 · 9862 阅读 · 0 评论 -
数据挖掘算法学习(五)C4.5算法
分类决策树算法,其核心算法是ID3算法。目前应用在临床决策、生产制造、文档分析、生物信息学、空间数据建模等领域。算法的输入是带类标的数据,输出是树形的决策规则。原创 2014-09-24 10:44:28 · 4314 阅读 · 0 评论 -
数据挖掘算法学习(六)CART算法
分类回归树算法:CART(Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。分类树两个基本思想:第一个是将训练样本进行递归地划分自变量空间进行建树的想法,第二个想法是用验证数据进行剪枝。CART与C4.5的原创 2014-09-24 11:04:04 · 3347 阅读 · 0 评论 -
数据挖掘算法学习(二)weka简介
weka官方下载地址:http://www.cs.waikato.ac.nz/ml/weka/downloading.html原创 2014-07-27 17:35:30 · 2818 阅读 · 0 评论 -
数据挖掘十大算法总结--核心思想,算法优缺点,应用领域
参考了许多资料加上个人理解,对十大算法进行如下分类:•分类算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM•聚类算法:KMeans•统计学习:EM•关联分析:Apriori•链接挖掘:PageRank其中,EM算法虽可以用来聚类,但是由于EM算法进行迭代速度很慢,比kMeans性能差很多,并且KMeans算法 聚类效果没有比EM差多少,所以一般用kMeans进行聚类,而不是EM。原创 2014-11-03 10:43:01 · 17332 阅读 · 2 评论