《数据挖掘——概念与技术（第3版）》笔记（二）

最新推荐文章于 2022-12-05 18:49:45 发布

codingClaire

最新推荐文章于 2022-12-05 18:49:45 发布

阅读量695

点赞数

分类专栏：数据挖掘文章标签：数据挖掘概念与技术余弦相似性

本文链接：https://blog.csdn.net/wuruoting_claire/article/details/100575410

版权

数据挖掘专栏收录该内容

3 篇文章 1 订阅

订阅专栏

【内容包括：第二章认识数据】

一、数据对象与属性类型

数据对象：一个实体，又称样本、实例、数据点或对象
数据库的行对应于数据对象，列对应于属性

属性：一个数据字段，表示数据对象的一个特征（属性、维度、特征、变量）

标称属性：值式符号或事物的名称。每个值代表类别，编码或状态。
标称属性也是分类的，枚举的。
标称属性中数学运算没有意义。

二元属性（布尔属性）：是一种标称属性，只有两个类别或状态：01（truefalse)
对称的二元属性：两种状态的价值相同，权重相同。
非对称的二元属性：状态的结果并不式同样重要的。

序数属性：可能的值之间具有有意义的序或秩评定，但相继值之间的差是未知的。

数值属性：定量的，可度量的值。
区间标度属性：属性用相等的单位尺度度量。
比率标度属性：属性是具有固有零点的数值属性。

机器学习的分类算法把属性分为离散的和连续的。

离散属性：具有有限或无限可数个值
连续属性：不是离散的就是连续的

二、数据的基本统计描述

中心趋势度量

均值

算术均值、加权算术均值（加权平均）、截尾均值

中位数

众数

具有一、二、三个众数的数据集合成为单峰的、双峰的、三峰的
可能没有众数

中列数

数据集的最大和最小值的平均值

度量数据散布

1.极差（range)

最大值和最小值之差

分位数
4-分位数
百分位数

四分位数极差（IQR)：第三个和第一个四分位数的极差

2.五数概括、盒图与离群点

可疑的离群点：落在第三个四分位数之上或第一个四分位数之下至少1.5IQR处的值。

盒图：
1.端点在四分位数上，盒的长度是四分位数极差IQR
2.盒内的线：表示中位数
3.盒外的线：延伸到最大、最小观测值
4.绘制出可能的离群点

3.方差和标准差

数据的基本统计描述的图形显示

分位数图
分位数-分位数图
直方图（频率直方图）
散点图

三、数据可视化

1.基于像素的可视化技术

除了线性方法安排数据记录填充窗口的其他方法：

二维空间填充曲线：希尔伯特曲线、格雷码、z-曲线
圆弓分割技术

2.几何投影可视化技术

基于像素的缺点是对于理解多维空间的数据分布帮助不大。
二维：散点图
三维：三维的散点图
高维数据集：散点图矩阵、平行坐标系

3.基于图符的可视化技术

切尔诺夫脸

人物线条画

4.层次可视化技术

1.把所有维划分成自己，这些子空间按层次可视化。
“世界中的世界”Worlds-within-Worlds
n-vision
探究高维中的某一维随着其他维变化时，可以先固定某些维，然后使用一个三维图对没有固定的维进行可视化

树图

5.可视化复杂对象和关系

1.标签云
2.相关性（类似知识图谱的）

四、度量数据的相似性和相异性

簇数据对象的集合
分类：使同一个簇中的对象互相相似，其他簇中的对象相异。
临近性 相似性和相异性

数据矩阵 对象-属性结构。用关系表的形式或n×p的形式表示
又称二模矩阵。
相异性矩阵 对象-对象矩阵，存放n个对象两两之间的邻近度。
又称单模矩阵，只包含一类实体。
d(i,j) 是对象i和j之间的相异性或差别的度量。i,j越相似，其值越接近于0。
d(i,i)=0
对于标称数据有：sim(i,j)=1-d(i,j)

1.标称属性的邻近性度量

两个对象i和j的相异性（不匹配率）：

$d(i,j)=\frac{p-m}{p}$

m是匹配的数目，两个对象中有m个属性是相同的。
还可以赋予m较大的权重等增加m的影响。

两个对象i和j的相似性:

$sim(i,j)=1-d(i,j)=\frac{m}{p}$

2.二元属性的邻近性度量

对于对称的二元属性，每个状态都同样重要。
二元相异性 基于对称二元属性的相异性。

对象i\对象j	1	0	sum
1	q	r	q+r
0	s	t	s+t
sum	q+s	r+t	q+r+s+t

对于非对称的二元属性，两个状态不是同等重要的。
给定两个非对称的二元属性，两个都取1的情况被认为比两个都取值0（负匹配）的情况更有意义。
（书中通过检测不同的病人的症状是否相同，来判断病人之间是否得的是同一种病，此时不需要考虑两个人都没有的症状）

i和j的相异性为：
用对称的二元属性刻画： $d(i,j)=\frac{r+s}{q+r+s+t}$

用非对称的二元相异性刻画： $d(i,j)=\frac{r+s}{q+r+s}$

互补地，可以容易得到相似性。
非对称的二元相似性（Jaccard系数）： $sim(i,j)=1-d(i,j)=\frac{q}{q+r+s}$

3.数值属性的相异性

欧几里得距离
曼哈顿距离

满足性质：
1.非负性
2.同一性（对象到自身的距离为0）
3.对称性 d(i,j)=d(j,i)
4.三角不等式

度量：满足上述条件的的测度

闵科夫斯基距离 Minkowski Distance
Lp范数
p=1 曼哈顿距离
p=2 欧几里得距离

上确界距离
又称Lmax, 切比雪夫距离
p=∞ L∞称为一致范数

每个变量还可以根据重要性赋一个权重

4.序数属性的临近性度量

1.第i个对象的f值称为 ${{x}_{if}}$ ，属性f有 ${{M}_{f}}$ 个有序的状态，表示f个排位，用排位 ${{r}_{if}}$ 取代 ${{x}_{if}}$ 。

2.由于每个序数属性都可以有不同的状态数，通常需要将每个属性的值域映射到[0,1]上，以便每一个属性有相同的权重，规格化的公式如下：

${{z}_{if}}=\frac{{{r}_{if}}-1}{{{M}_{f}}-1}$

3. 相异性可以用任何一种数值属性的距离度量计算，使用${{z}_{if}}$作为第i个对象的f值。

5.混合类型的相异性

1.将每种类型的属性分成一组，对每种类型分别进行数据挖掘分析

2.(更可取）将所有的属性类型一起处理，只做一次分析。把所有有意义的属性转换到共同的区间[0,1]上

6.余弦相似性

每一个特定词或短语的频率都可以看成是文档的属性。
每一个文档都被一个所谓的词频向量表示。

这种数据可能是高度非对称的。

词频向量长而且稀疏，很多公共0值，我们需要一种度量，关注两个文档确实共有的词，而忽略都没有出现在两个文档中的词。

使用余弦相似度能够比较或针对给定的查询词向量对文档排序。
令x和y是两个待比较的向量，使用余弦度量作为相似性函数，有：

$sim(x,y)=\frac{x\times y}{||x||\cdot ||y||}$

余弦值0意味着两个向量正交，没有匹配。余弦值越接近于1，夹角越小，匹配越大。

余弦相似度并不遵守度量测度性质，因此被称为非度量测度

当属性是二值属性时，余弦相似性函数可以用共享特征或属性解释。1表示拥有某属性，0表示不拥有。

Tanimoto系数（Tanimoto距离）：x和y所具有的属性的个数于x（y）所具有的属性的比率，同样可运用于相似度评估,如下：

$sim(x,y)=\frac{x\times y}{x\times x+y\times y-x\times y}$

codingClaire

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《数据挖掘——概念与技术（第3版）》笔记（二）

【内容包括：第二章认识数据】目录一、数据对象与属性类型数据对象：一个实体，又称样本、实例、数据点或对象数据库的行对应于数据对象，列对应于属性属性：一个数据字段，表示数据对象的一个特征（属性、维度、特征、变量）标称属性：值式符号或事物的名称。每个值代表类别，编码或状态。标称属性也是分类的，枚举的。标称属性中数学运算没有意义。二元属性（布尔属性）：是一种标称属性，只有两个...
复制链接

扫一扫

专栏目录