数据挖掘
文章平均质量分 63
wustdatamining
这个作者很懒,什么都没留下…
展开
-
数据挖掘之数据预处理
数据挖掘,显然数据是问题的核心。但一贯是核心最有问题,因为并不是所有的数据都是有用的,大多数数据是参差不齐的,概念层次不清的,数量级不同的,这些问题就给后续的数据分析和数据挖掘带来的极大的麻烦,甚至导致错误的结论。所以数据挖掘的第一项工作就是要对数据进行预处理,使数据能够被用来进行数据挖掘,方便挖掘,从而获得有用的模式。通常数据预处理包含四个部分:数据清理、集成和变换、规约以及概念分层。转载 2012-04-29 10:17:37 · 922 阅读 · 0 评论 -
数据挖掘中的分类和聚类
分类(classification ):有指导的类别划分,在若干先验标准的指导下进行,效果好坏取决于标准选取的好坏。 它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务, 目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。分类原创 2012-04-29 10:57:38 · 5398 阅读 · 0 评论 -
频繁关联规则挖掘之FP树
一. FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,它不需要不断地生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。请看下面这个例子: 先看数据集如下: 这张表描转载 2012-05-27 13:16:12 · 6405 阅读 · 0 评论 -
数据挖掘中的相似性度量指数
在数据挖掘分类算法中,常常提到根据数据表项的相似性进行分类,那么主要用到的相似性度量有哪些呢?这里总结一下最常用的两个:(1)欧几里德距离评价(2)皮尔逊相关评价: (1)欧几里德距离评价 该系数就是我们从小到大的计算两点之间的距离。不同点在于,这里的两点不再是局限与二维,而是n维,每一维对应于原始数据中的一个属性。公式如下: d =原创 2012-06-10 08:49:39 · 1177 阅读 · 0 评论 -
基于用户的推荐和基于物品的推荐
(一)基于用户的推荐原理 基于用户的 CF 的基本思想相当简单,基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户。计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到 K 邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。图 2 给出了一个例子,对于用户原创 2012-06-11 15:26:57 · 5378 阅读 · 0 评论