数据挖掘
文章平均质量分 66
一个很菜的小猪
欢迎来到我的博客
展开
-
【数据挖掘】期末复习 第五章
关联分析(Association Analysis)用于发现隐藏在大型数据集中的令人感兴趣的联系。联系的表示方式一般为关联规则或频繁项集,例:{尿布}→{啤酒}。挖掘商场销售数据,发现商品间的联系,帮助商场进行促销及货架的摆放;挖掘医疗诊断数据,可以发现某些症状与某种病之间的关联,为医生进行疾病诊断和治疗提供线索;网页挖掘——揭示不同浏览网页之间的有趣联系。项集:一个包含 k 个数据项的项集就称为 k−项集支持度计数:包含该项集的事务数频繁项集:满足minsupport的n项集关联规则:形如 X –>原创 2022-06-18 11:58:02 · 1515 阅读 · 0 评论 -
【数据挖掘】期末复习 第四章
聚类(Clustering)是将数据集划分为若干相似对象组成的多个类或组或簇的过程,一个簇就是由相似的一组对象构成的集合,不同簇中的对象通常相似度很低。聚类分析中“簇”的特征:聚类所说的簇不是事先给定的,而是根据数据的相似性和距离来划分,另外聚类的数目和结构都没有事先假定。聚类方法主要有:给定 n 个对象或元组组成的数据库,一个划分方法构建数据的 k 个划分,每个划分表示一个聚类,并且 k......原创 2022-06-17 15:14:20 · 617 阅读 · 0 评论 -
【数据挖掘】期末复习 第三章
分类是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如:根据电子邮件的标题和内容预测该邮件是否为垃圾邮件。分类和回归都有预测的功能,但是:分类预测的输出为离散或标称的属性;回归预测的输出为连续属性值,例如:预测未来某银行客户会流失或不流失,这是分类任务,预测某商场未来一年的总营业额,这是回归任务。目前分类与回归方法已被广泛应用于各行各业,如:在金融领域中,分类器被用于预测股票未来的走向。在医疗诊断中,预测疾病的诊断。在市场营销中,利用历史的销售数据,预测某些商品是否可以销售、预原创 2022-06-16 20:21:45 · 431 阅读 · 0 评论 -
【数据挖掘】期末复习 第二章
(1) 数据挖掘中使用的数据是数据对象及其属性的集合。属性是指对象的特性。(2) 不同的属性类型:分类属性和数值属性;分类属性又分标称型和序数型,数值属性又分区间型和比率型。如性别为标称型,好坏等级为序数型,日期时间为区间型,分数为比率型。因此,根据属性的不同性质,属性可分为四种:标称、序数、区间、比例。包括:数据清理、数据集成、数据变换、数据归约、离散化及特征选择等。数据清理包括填写空缺数据,平滑噪声数据,识别、删除孤立点等。数据集成是集成多个数据库,数据立方体或文件。数据变换是对原始数据进行规范化和特原创 2022-06-09 15:38:29 · 889 阅读 · 0 评论 -
【数据挖掘】期末复习 第一章
技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息的过程。商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。预测任务:根据其它属性的值,预测特定属性的值,如分类、回归、离群点检测。描述任务:寻找概括数据中潜在的联系模式,如聚类分析、关联分析。包括空间数据库、时间序列数据库、流数据、多媒体数据库、文本数据和万维网产生背景:“数据过剩”原创 2022-06-08 22:25:05 · 372 阅读 · 0 评论