复习——大数据

1.数据挖掘概念:

从大量的、错综复杂的数据中挖掘哪些令人感兴趣的(易被理解、新颖的、潜在

有用的、非平凡的)模式或知识

2.数据中的知识发现(KDD)步骤

数据清理: (消除噪声和删除不一致的数据)60%的工作量

数据集成(多种数据源可以组合在一起)

数据选择(从数据库中提取与分析任务相关的数据)

数据变换(数据变换或统一成适合挖掘的形式)

数据挖掘(核心步骤,使用智能方法提取数据模式)

模式评估(根据某种兴趣度量识别提供知识的真正有趣的模式)

知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

  1. 数据挖掘的数据类型:数据库数据,数据仓库,事务数据,空间数据库,时间数据库和时间序列数据库, 流数据, 文本数据库和万维网(WWW)
  2. 数据集由数据对象组成。一

数据对象又称为样本、实例、数据点、或样例。数据对象用属性描述。

数据行对应数据对象,;列对应属性。

属性是是一个数据字段,表示数据对象的一个特征。

  1. 数据类型:

定性属性:标称,二元,序数;  定量属性:数值属性(区间标度属性,比率标度)

  1. Apriori算法利用的是先验性质—反单调性:

    ➢ 频繁项集的所有非空子集也必须是频繁的

➢ 非频繁项集的超集一定是非频繁的

  1. Apriori算法基本流程:由连接(生成候选频繁项集)和 剪枝(除去非频繁项集) 两个步骤组成
  2. 分类:利用已知类别的对象以预测未知对象属于哪个预定义的目标类
  3. 决策树ID3流程:

决定分类属性;对目前的数据表,建立一个节点N;如果数据库中的数据都属于同一个类,N就是树叶,在树叶上标出所属的类;如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数服从多数的原则在树叶上标出所属类别;否则,根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N的测试属性;节点属性选定后,对于该属性中的每个值;从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏如果分支数据表非空,则运用以上算法从该节点建立子树

  1. ID3分类的特征选择:信息增益准则
  2. 贝叶斯:类条件假设:在类别已知的条件下,各属性是相互独立的。
  3. k-近邻算法

基本思想:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

基本步骤:计算测定实例与每个训练实例(i=1,..,N)相似度= )(默认越大越相似);

按照由大到小的顺序将1, 2, … , 排序 ;取前K个样本作为的个近邻

  1. 模型评估指标:分类准确率,召回率,精度,F度量
  2. K-Means算法基本流程:
  1. 任意选择k个对象作为初始的簇中心;(2)将所有对象划归为k个簇:计算所有对象到k个簇中心的距离并找出与每个对象最近的簇中心, 将该对象划分到该中心点所代表的的簇当中去;(3) 更新簇的平均值, 即重新计算每个簇中对象的平均值;(4) until 对象归属的簇不再发生变化
  1. 什么是离群点?

离群点是一个数据对象,显著不同于其他数据对象。

  1. 离群点的特点

➢ 离群点不同于噪声数据(噪声在数据分析中不是令人感兴趣的);

➢ 离群点是有趣的,因为怀疑产生它们的机制不同于产生其他数据的机制;

➢ 离群点检测还与演变数据集上的新颖性检测(novelty detection)相关;

  1. 列举出常用的离群点检测方法:

(1)统计学方法:对给定的数据集合假设了一个分布或概率模型, 然后根据模型采用不一致性检验来识别离群点。

(2)基于近邻性的方法:

基于距离的离群点检测:考虑对象给定半径的邻域,若其邻域内没有足够样本点则识别为离群点。

基于密度的离群点检测:若一个对象的密度相对于它的近邻低得多,则识别为离群点

(3)基于聚类的方法:通过考察对象与簇之间的关系检测离群点

(4)基于分类的方法:考虑一个训练数据集,它包含一些标记为“正常”,而其他标记为“离群点”的样本,这样训练一个可以区分“正常”数据和“离群点”的分类模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值