数据仓库学习笔记(二)

《数据仓库与数据挖掘教程》–黄德才

数据挖掘和分析

数据的属性与相似值

数据集的结构

1、二维表

在这里插入图片描述

2、数据矩阵在这里插入图片描述

二维表看上去更容易理解,因为在数据本身的基础上增加了表结构及其属性名称,且用标识符(主键值)来唯一表示数据对象的数据记录。

而数据矩阵存储结构仅存放数据本身,没有引入任何冗余数据,但理解较为困难。

属性的类型

1、连续属性

通常在一个实数区间内取值,取值个数是不可数无限的。可以进行各种数学运算。

均值:对数据量特别大的数据,建议去除高端和低端2%的数据,消除极值、极端数据的影响。

中位数:数据集中的数据按大小排列,最中间的值

众数:集合中出现最频繁的数据

方差和标准差:可以描述数据集分散程度,值越小,意味着每个数据越靠近其均值;值越大,表示数据集分散在离均值两端更大的区间之中。

2、离散属性

离散属性指该属性可以取有限或可数无限个不同的值,这些取值可以用字母、自然数、单词或短语表示。

3、分类属性

分类属性也称标称属性(nominal attribute),是离散属性的一个细分类型。取值是一些符号或事物的名称,每个值代表某种类别、编码或状态,且这些值之间不存在大小或顺序关系。

4、二元属性

二元属性(binary attribute),又常称布尔属性,是分类属性的一种特殊情况,这种属性只取两种可能的值或只能处于两个状态之一。

5、序数属性

序数属性(ordinal attributes)也是离散属性的一种,它的所有可能的取值之间可以进行排序,虽然任意两个相继值之间的差值是未知的。

6、数值属性

数值属性(numeric attributes)是一种定量属性,它的取值是可以度量的,一般用整数或实数值表示。可以是区间标度或比率标度属性。

区间标度(interval-scaled)属性用相等的单位尺度度量。如温度属性。

比率标度(ratio-scaled)是具有固有零点的数值属性,它弥补了区间标度没有固定0点的不足。

相似度和相异度

两个数据对象之间的相似度就是两个对象相似性程度的一个度量值。

1、数值属性的距离

如果数据集所有属性都是数值型的,一般可用明可夫斯基距离、二次型距离等作为数据对象之间的相异性度量函数,也称相异度函数。

距离满足以下三个数学属性:非负、对称、三角不等式

以下是三种描述向量之间相异度的距离公式:

1)明可夫斯基距离

在这里插入图片描述

ps:如何确定超参数p

传统优化算法:

人工试错、网格搜索、随机搜索→贝叶斯优化

贝叶斯算法缺点–对未知平滑度和有噪声的高维、非凸函数,BO算法难以对其进行拟合和优化,且BO算法有很强的假设条件。

Hyperband算法:

2)二次型距离
3)MP马氏距离
2、分类属性的相似度
3、余弦相似度
4、混合属性的相异度
2)二次型距离
3)MP马氏距离
2、分类属性的相似度
3、余弦相似度
4、混合属性的相异度
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值