- 数据清理(消除噪声和删除不一致数据)
- 数据集成(多种数据源可以组合在一起)
- 数据选择(从数据库中提取与分析任务相关的数据)
- 数据变换(通过汇总与聚集操作,把数据变换和统一成适合挖掘的形式)
- 数据挖掘(基本步骤,使用智能方法提取智能模式)
- 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
- 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
- 数据挖掘常用模式?
- 概念/类描述:特性化和区分
- 关联分析 (挖掘频繁模式、关联和相关)
- 分类和预测
- 聚类分析
- 离群点分析
- 趋势和演变分析
- 数据挖掘涉及到的数据类型有哪些?
- 关系数据库
- 数据仓库
- 事务数据库
- 高级数据库系统和信息库
- 空间数据库
- 时间数据库和时间序列数据库
- 流数据
- 多媒体数据库
- 文本数据库(万维网 www)
- 异构数据和遗产数据
- 大数据具有哪些特征?
Volume(大量)、Variety(多样)、Velocity(高速) Value(价值)
- 数据分为哪几类,如何度量不同类型数据的相似性或距离?
数据类型:连续型、二值型、离散型、字符型、符号型
数据属性类型:标称属性、二元属性、数值属性、序数属性
- 标称属性
直接度量
相异性:d(i,j)=1-m/p
相似性:sim(i,j)=m/p
转化为二元属性
1为目标状态,0为其他
- 二元属性
- 数值属性
数值数据距离——闵可夫斯基距离
- 序数属性
- 混合类型属性
- 余弦相似性距离
- 列举数据的5基本统计图,并明确每种统计图的主要用途。
- 正态分布
- 箱线图:五数概括(最大值、最小值、下四位数、中位数、上四位数)
- 直方图:x-值,y-频率。
- 分位数图:x-值,f-百分数,表示大约f*100%数据小于x。既可展示整体行为又可展示异常行为。一种观察单变量数据的简单有效方法。
- 分位数-分位数图(Q-Q图):一个变量的百分位与另一个变量百分位的对应图,可以展示从一个分布到另一个分布是否有漂移
- 散点图:至少是两个变量的对应图,可看成聚类或离群点的初探索。是确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。
- 为什么要进行数据预处理,数据预处理包括哪几方面内容?
真实的数据是非常“dirty“的。
- 不完整
- 噪声
- 不一致
- 冗余(太多数据+太多特征)
- 其他(数据类型 数据不平衡)
数据预处理包括:
- 数据清洗
- 数据集成
- 数据归约
- 数据变换
1) 光滑
2) 属性构造
3) 聚集
4) 离散化
5) 由标称数据产生概念分层:属性
- 如何处理缺失数据?
- 忽视
- 人工补全缺失值
- 自动补全缺失值
- 固定值
- 均值
- 基于算法
课本:
- 忽略元组
- 人工填写缺失值
- 使用一个全局常量填充缺失值
- 使用属性的中心度量(如均值或中位数)填充缺失值
- 使用与给定元组属同一类的所有样本的属性均值或中位数
- 使用最可能的值填充缺失值(回归、贝叶斯、决策树等算法)
- 数据集成包括哪两方面,集成的依据是什么?
数据集成
合并来自多个数据存储的数据,把不同来源、格式、特点和性质的数据合理地集中并合并起来。
元数据集成
实体识别问题:匹配来自不同数据源的现实世界的实体(行)
属性集成
解决冗余问题:同一属性在不同的数据库或同一数据库的不同数据表有不同的字段名(列)
集成依据:
每个属性的元数据包括名字,含义,数据类型,和属性的允许取值范围,以及处理空白,零或null值的空值规则。这样的元数据可以帮助避免模式集成的错误。在数据集成时,特别注意一个数据库的数据属性与另一个数据库的属性匹配时的数据结构,这旨在确保源系统中的函数依赖和参照约束目标系统中的匹配
- 数据归约方式有几种,每一种方法都如何进行归约?
- 维归约(小波变换、主成分分析、线性判别分析)。
- 数量规约
- 数据压缩
- 如何进行数据标准化?
- 欧几里得距离、曼哈顿距离和切比雪夫距离的计算方法,以及物理含义?
曼哈顿距离:两个点在标准坐标系上的绝对轴距总和
欧几里得距离:两个点之间的距离,也即通常情况下,我们所计算的距离
切比雪夫距离:各坐标数值差的最大值
- 数据分布如何影响距离计算?
计算数值属性刻画的对象的相异性的距离度量:欧几里得距离,曼哈顿距离,闵可夫斯基距离,最流行的距离度量是欧几里得距离。而数据的分布可以用中心趋