数据挖掘
文章平均质量分 85
冰凌其
这个作者很懒,什么都没留下…
展开
-
数据挖掘学习------------------1-数据准备-1-数据收集
1、数据收集(1.数据源:并不是把所有的数据都拿过来挖掘,而是选择与数据挖掘业务目标相关的数据,作为某次数据挖掘的数据源。例如:同样是证劵公司,在精准营销或服务方面,那么就要从数据源中选择客服相关的数据在量化投资方面,就选择交易数据、上市公司信息的数据(2.数据抽样:数据具有正确性(代表性和随机性)1、单纯随机抽样:用抽签法或随机数法从全体数据中抽取部分数据2、系统抽样原创 2017-12-09 11:25:36 · 597 阅读 · 0 评论 -
数据挖掘学习------------------2-关联规则-2-Apriori算法
2.2Apriori算法关联规则的挖掘分为两步:①找出所有的频繁项集。其总体性能由第一步决定。在搜索频繁项集时,最简单的是Apriori算法。②由频繁项集产生强关联规则。1)、基本思想①Apriori算法的名字基于一个事实:算法使用频繁项集性质的先验知识。②Apriori算法使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。(原创 2017-12-19 16:24:10 · 981 阅读 · 0 评论 -
数据挖掘学习------------------2-关联规则-1-基本概念
2.1关联规则基本概念1)、背景关联规则最初提出的动机是针对购物篮分析问题提出的。(1)购物篮问题:“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出原创 2017-12-18 12:31:39 · 1240 阅读 · 1 评论 -
K均值 、K-means算法 java
数据集:初始8个点:(2,10)(2,5)(8,4)(5,8)(7,5)(6,4)(1,2)(4,9)初始簇中心:(2,10)(5,8)(1,2)结果:代码:import java.util.ArrayList;/** * K均值聚类算法 */public class KMeans { private int k;// 分成多少簇 private原创 2017-12-26 20:46:20 · 420 阅读 · 0 评论 -
Apriori算法 java代码
训练集: 结果: 代码:import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import java.util.LinkedList;import java.util.List;import java.util.Map;import java.util.Map.Entr原创 2017-12-26 20:43:18 · 630 阅读 · 2 评论 -
数据挖掘学习------------------1-数据准备-4-主成分分析(PCA)降维和相关系数降维
1.4数据降维在分析多个变量时发现它们中有一定的相关性。有一种方法将多个变量综合成少数几个相互无关的代表性变量来代替原来的变量,这就是数据降维,可以考虑主成分分析法。1)、主成分分析法(PAC)1、基本思想(1)如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望它竟可能多的反映原来的变量信息。(这里的“信息”用方差来测量,即希望Var(F1原创 2017-12-17 17:29:58 · 13957 阅读 · 2 评论 -
数据挖掘学习------------------1-数据准备-3-数据预处理
3、数据预处理(1.数据清洗数据清洗是通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性等方式来‘清洗’数据的。主要任务:填充缺失值和去除噪声1、缺失值处理注意:缺失值并不意味着数据有错误。例如:申请信用卡时,可能要求申请人提供驾驶执照号,但他没有,允许他写“不适用”、空、等值。但后来他考过了,又来更新。所以说空值是被允许的,但是需要将这样的空值适当的进行原创 2017-12-09 20:45:39 · 1733 阅读 · 0 评论 -
数据挖掘学习------------------4-分类方法-7-支持向量机(SVM)
4.7支持向量机SVM是有监督的学习方法,即已知训练点的类别,求训练点和类别之间的对应关系,以便将训练集按照类别分开,或者预测新的训练点所对应的类别。1、基本思想SVM构建了一个分割两个类的超平面(这也可以拓展到多类问题)。在构建的过程中,SVM算法试图使两类之间的分割达到最大化。以一个很大的边缘分割两个类可以使期望泛化误差最小化。(1)概念:①最小化泛化误差:当对原创 2017-12-21 20:32:07 · 489 阅读 · 0 评论 -
数据挖掘学习------------------4-分类方法-4-神经网络(ANN)
4.4神经网络它是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。神经网络通常需要训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。感知器:由图可知:①几个输入结点,用来表示输入属性;②一个输出点,用来提供模型输出。③在感知器中,每个输入结点都需要经过一个加权wi的连接到输出结点。模拟原创 2017-12-21 15:15:22 · 2735 阅读 · 1 评论 -
数据挖掘学习------------------4-分类方法-6-判别分析
4.6判别分析它是根据观察或测量到的若干变量值判断研究对象如何分类的方法。①具体来讲,就是已知一定数量案例的一个分组变量和这些案例的一些特征变量,确定分组变量和特征变量之间的数量关系,建立判别函数。②然后便可以利用这一数量关系对其他已知特征变量信息、但未知分组类型所属的案例进行判别分组。1、判别分析的基本条件①分组变量的水平必须大于或等于2。②每组案例的规模必须至少在一个以原创 2017-12-21 20:19:02 · 3947 阅读 · 0 评论 -
数据挖掘学习------------------4-分类方法-3-贝叶斯分类(Bayes)
4.3贝叶斯分类贝叶斯分类是一类分类算法的总称,这类分类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。贝叶斯定理:通常,事件A在事件B条件下发生的概率,与事件B在事件A条件下发生的概率是不一样的,然而两者有确定的关系。即P(Y|X) = P(X|Y) * P(Y) / P(X) 。它表示先验概率P(Y)、条件概率P(X|Y)、证据P(X)来表示后验概率P(Y|X)。原创 2017-12-20 17:35:45 · 908 阅读 · 0 评论 -
数据挖掘学习------------------4-分类方法-2-K-紧邻(KNN)
4.2K-近邻(KNN)1、思想①通过计算每个训练样例到待分类样品的距离。②取待分类样品距离最近的K个训练样例。③K个样品种中那个类别的训练样例占多数,则待分类元组就属于那个类别。小例子:如图:x:为测试点,-:为负类,+:为正类①看(a)1-近邻圆圈中心的数据,只有一个负类和测试点在一起,说明测试点是个负类。②看(c)3-近邻圆圈中心的数据原创 2017-12-20 15:15:22 · 887 阅读 · 0 评论 -
数据挖掘学习------------------1-数据准备-2-数据质量分析
2、数据质量分析(1.数据质量分析的目的:保证数据的正确性、保证数据的有效性例如:国际漫游通话客户只有0.01%,因此对国际漫游通话时长该变量统计正确性毫无问题,也认为该变量缺少有效的信息而有数据质量问题,因为该变量提供的信息只能对最多0.01%的客户产生影响,对未来预测模型的贡献实在是微乎其微。(2.数据质量分析的内容:在数据的正确性分析方面:1、缺失值:缺失数据包括空值原创 2017-12-09 12:48:44 · 5933 阅读 · 0 评论 -
数据挖掘学习------------------4-分类方法-1-基本概念
4.1基本概念数据挖掘中的分类的目的是得到一个分类函数或分类模型(也称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。比如:可以将股票分为易涨和易跌股票两类。这样就可以选择属于易涨的哪类股票买入。分类描述如下:输入数据(训练集),它是有一条条的数据库记录组成的。每条记录包含若干个属性,组成一个特征向量。训练集的每条记录还有一个特定的类标签与之对应。该类标原创 2017-12-20 12:37:21 · 1278 阅读 · 0 评论 -
数据挖掘学习------------------3-数据回归方法-1-一元回归
3.1一元回归1)、数据回归了解(1)事物之间的关系可以抽象为变量之间的关系。(2)变量之间的关系分为两类:确定性关系-函数关系,相关关系。①函数关系:变量随着其他变量的确定而确定。②相关关系:变量之间很难用一种精确的方法表示出来。例如:人年龄越大,血压越高,但人的年龄和血压之间没有确定的数量关系,即它们是相关关系。(3)回归原创 2017-12-19 20:34:10 · 747 阅读 · 0 评论 -
数据挖掘学习------------------2-关联规则-3-FP_Growth算法
2.3FP_Growth算法1)、基本思想FP-Growth即频繁模式增长算法是韩家炜老师于2000年提出的关联分析算法。①该算法采用分治策略:将提供的频繁项集的数据压缩到一颗频繁模式树(FP-Tree),但仍保留项集关联信息。②该算法与Apriori算法有两个不同:第一,不产生候选集;第二,只需要两次遍历数据库。2)、步骤(1)构造FP-树:①扫描事务数据库D一次原创 2017-12-19 16:29:45 · 1182 阅读 · 0 评论 -
机器学习算法:18大数据挖掘的经典算法以及代码Java实现
https://python.ctolib.com/article/wiki/95851数据挖掘十大类经典算法基于Java8实现。算法目录常用的标准数据挖掘算法包名 目录名 算法名 AssociationAnalysis DataMining_Apriori Apriori-关联规则挖掘算法 AssociationAnalysis Da...转载 2019-03-01 16:33:16 · 4129 阅读 · 0 评论