《数据仓库与数据挖掘教程》–黄德才
数据挖掘和分析
数据的属性与相似值
数据集的结构
1、二维表
2、数据矩阵
二维表看上去更容易理解,因为在数据本身的基础上增加了表结构及其属性名称,且用标识符(主键值)来唯一表示数据对象的数据记录。
而数据矩阵存储结构仅存放数据本身,没有引入任何冗余数据,但理解较为困难。
属性的类型
1、连续属性
通常在一个实数区间内取值,取值个数是不可数无限的。可以进行各种数学运算。
均值:对数据量特别大的数据,建议去除高端和低端2%的数据,消除极值、极端数据的影响。
中位数:数据集中的数据按大小排列,最中间的值
众数:集合中出现最频繁的数据
方差和标准差:可以描述数据集分散程度,值越小,意味着每个数据越靠近其均值;值越大,表示数据集分散在离均值两端更大的区间之中。
2、离散属性
离散属性指该属性可以取有限或可数无限个不同的值,这些取值可以用字母、自然数、单词或短语表示。
3、分类属性
分类属性也称标称属性(nominal attribute),是离散属性的一个细分类型。取值是一些符号或事物的名称,每个值代表某种类别、编码或状态,且这些值之间不存在大小或顺序关系。
4、二元属性
二元属性(binary attribute),又常称布尔属性,是分类属性的一种特殊情况,这种属性只取两种可能的值或只能处于两个状态之一。
5、序数属性
序数属性(ordinal attributes)也是离散属性的一种,它的所有可能的取值之间可以进行排序,虽然任意两个相继值之间的差值是未知的。
6、数值属性
数值属性(numeric attributes)是一种定量属性,它的取值是可以度量的,一般用整数或实数值表示。可以是区间标度或比率标度属性。
区间标度(interval-scaled)属性用相等的单位尺度度量。如温度属性。
比率标度(ratio-scaled)是具有固有零点的数值属性,它弥补了区间标度没有固定0点的不足。
相似度和相异度
两个数据对象之间的相似度就是两个对象相似性程度的一个度量值。
1、数值属性的距离
如果数据集所有属性都是数值型的,一般可用明可夫斯基距离、二次型距离等作为数据对象之间的相异性度量函数,也称相异度函数。
距离满足以下三个数学属性:非负、对称、三角不等式
以下是三种描述向量之间相异度的距离公式:
1)明可夫斯基距离
ps:如何确定超参数p
传统优化算法:
人工试错、网格搜索、随机搜索→贝叶斯优化
贝叶斯算法缺点–对未知平滑度和有噪声的高维、非凸函数,BO算法难以对其进行拟合和优化,且BO算法有很强的假设条件。
Hyperband算法: