2.预备知识-数学基础
本章导读
本章主要介绍数据挖掘中所用到的基本数学知识,包括矩阵与线性代数、概率论与数理统计、信息熵和基尼系数,最后介绍了无约束最优化、约束最优化及应用。学完本章内容后您将能够掌握与数据挖掘相关的数学基础,为后面的数据挖掘算法学习奠定基础。
前言
○本章为预备章节,主要介绍数据挖掘中所用到的基本数学知识,包括矩阵与线性代数,概率论与数理统计,信息和基尼系数。本章节最后介绍无约束最优化,约束最优及应用。
目标
○学完本课程后,您将能够:
◎掌握线性代数的基础知识及应用
◎掌握概率论与数理统计的基础知识及应用
◎理解信息熵与基尼系数的相关知识
◎掌握常用的最优化算法及应用
目录
1. 线性代数
○行列式
○矩阵及其变换
○矩阵分解
○线性变换
○向量空间
2. 概率论与数理统计
3. 信息熵与基尼系数
4. 最优化
2.1.1 行列式
本小节主要介绍行列式相关内容,包括行列式的概念、行列式的计算方法和行列式的几何意义。
为什么要学习线性代数?
○瑞典数学家Lars Garding在Encounter with Mathematics——一书中说:“如果不熟悉线性代数的概念,要去学习自然科学,现在看来就和文盲差不多。”
○线性代数,概率论,统计学和微积分是数据挖掘用于表述的“语言”。学习这些数学知识有助于将有助于深入理解底层算法机制,便于发开新算法。
○在互联网大数据中,许多应用场景的分析对象(待处理的非结构化数据)都需要换成离散的矩阵或向量形式,例如,大量用户信息、文本中文本与词汇的关系等等都可以用矩阵表示。
○线性代数主要研究矩阵与向量、用于处理线性关系。线性关系是指数学对象之间的关系是以一次形式来表达的。线性代数需要解决的第一个问题就是求解线性方程组。
引入案例(1)
○为了避免肥胖,提升员工健康状况,大数据部门组织月跑活动。规则如下:部门为参与者在月初指定月度目标,对完成目标者进行奖励,对未完成者进行惩罚,惩罚奖金为:
wi=si-ⅆixi=hixi
○其中wi为第i月总奖惩罚金额,si为总公里数,ⅆi为月度目标,hi为实际距离与月度目标的差,xi为每月对每公里的惩罚金额。活动影响好,同时云部门也开展起来。以下数据为第一季度部门参与员工每月与月度目标差以及第一季度的总奖励值:
月份 姓名 | h1 | h2 | h3 | w |
小陈 | 10 | 8 | 12 | 20 |
小刘 | 4 | 4 | 2 | 8 |
小桃 | 2 | -4 | -2 | -5 |
表1 大数据部门
月份 姓名 | h1 | h2 | h3 | w |
小李 | 2 | 4 | 5 | 10 |
小黄 | 4 | 2 | 2 | 6 |
小傅 | -2 | 2 | 2 | 3 |
表2 云部门
引入案例(2)
○根据上述案例,是否可以求出大数据部门每月指定的每公里数的奖励金额xi?根据可列出一下方程组:
10x1+8x2+13x3=20
4x1+4x2+2x3=8
2x1-4x2-2x3=20
○那么问题转化为,若能求得此方程组的解,即可求得部门每月制定的每公里数的奖励金额。
行列式
○行列式是一个将方针映射到一个标量的函数,记作det(A)或|A|。行列式也可以看作是有向面积或体积在一般欧几里得空间的推广。或者说是在n维欧几里得空间中,行列式描述的是一个线性变化对“体积”所造成的影响。
○行列式的意义
◎行列式等于矩阵特征值的乘积。
◎行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或缩小了多少。
◎行列式的正负表示空间的定向。
○行列式的应用:求矩阵特征值,求解线性方程等。
行列式的计算
○二阶行列式
○三阶行列式
○容易看出:右边的每一项都是2个或者3个元素的乘积,且这些元素位于不同的列,不同的行。
行列式的几何意义
○二阶行列式 D=
是二维平面上以向量a=(0,-1.5)T,b=(2,1)T的平行四边形的有向面积。