数据挖掘
windywwf
本博客纯属个人学习日志,不从事任何商业活动和言论发布,如有不妥之处请谅解并告之。
展开
-
数据挖掘算法
绝大多数数据挖掘算法大致可以分为“监督学习(supervised learning)”和“无监督学习(unsupervised learning)”两种数据挖掘技术。监督学习需要先由数据分析师确定一个目标属性或因变量(例如,购买某种特定产品的客户),然后通过监督学习技术筛分数据,尽量找出其他属性和目标属性之间的规律和关系(例如,能够表明很可能会购买特定产品的预期客户的特点)。Ora转载 2009-01-11 11:58:00 · 815 阅读 · 0 评论 -
关联规则
关 联 规 则 分 析关联规则简介:关联规则虽然来源于POS中,但是可以应用于很多领域。只要一个客户在同一个时间里买了多样东西,或者在一段时间了做了好几样事情就可能是一个潜在的应用。例如:用信用卡购物,如汽车租金和旅馆费,可以看他下一个要买的东西。 电话公司提供的多项服务,以研究捆绑销售的问题。 银行提供的多项服务,来分析客户可能需要那些服务。 不寻常的多项保险申请可能是欺诈行为。 数据挖掘什转载 2009-01-11 13:12:00 · 2076 阅读 · 0 评论 -
聚类
数 据 挖 掘 课——聚 集(一)一,什么是聚类?聚类:-将一个对象的集合分割成几个类,每个类内的对象之间是相似的,但与其他类的对象是不相似的。评判聚类好坏的标准:1,能够适用于大数据量。2,能应付不同的数据类型。3,能够发现不同类型的聚类。4,使对专业知识的要求降到最低。5,能应付脏数据。6,对于数据不同的顺序不敏感。7,能应付很多类型的数据。8,模型可解释,可使用。二,聚类所基于的数据类型。转载 2009-01-11 15:54:00 · 4335 阅读 · 0 评论 -
孤立点分析
“孤立点是什么?”经常存在一些数据对象,它们不符合数据的一般模型。这样的数据对象被称为孤立点( outlier ),它们与数据的其他部分不同或不一致。 孤立点可能是度量或执行错误所导致的。例如,一个人的年龄为-999 可能是程序对未记录的年龄的缺省设置所产生的。另外,孤立点也可能是固有的数据变异性的结果。例如,一个公司的首席执行官的工资自然远远高于公司其他雇员的工资,成为一个孤立点。转载 2009-03-25 17:11:00 · 13695 阅读 · 0 评论 -
Apriori
APRIORI Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后转载 2009-04-09 22:45:00 · 1140 阅读 · 0 评论 -
一种基于Apriori的关联规则挖掘算法
一种基于Apriori的关联规则挖掘算法 周政尹1,闫仁武1 (1江苏科技大学电子信息学院,镇江212003) 摘要:Apriori算法为经典的关联规则挖掘算法,其中一个重要的步骤为剪枝(pruning),剪枝操作需要将每个后选集的每个子集跟上一层频繁项集匹配,然后根据Apriori性质删除相应的非频繁项集。这一操作是Apriori算法的一个耗时因素,本文设计的这一算法NPA(No Prunin转载 2009-04-09 22:48:00 · 1954 阅读 · 0 评论