【自己动手写机器学习算法】第1章 统计学习方法概论

第1章 统计学习方法概论

统计学习

简述之,从数据中挖掘规律,并形式化表现这种规律并将之应用在将来的数据之中,其实现在的机器学习方法都是离不开统计学原理的,这也就是本人结合李航的《统计学习方法》来编写统计学习的相关基础算法的初衷。一些基本的概念这里不再赘述,统计学习方法包含了监督式学习、非监督式学习、半监督式学习和强化学习等。这里也先假定每个读者对这些概念已经有了一些初步的了解,如果不了解,也没有关系,这个教程将会在之后的章节里对这些概念进行实际地操作,尽可能会让每个读者都能有所收获。
另外,由于原书实际是一本教材,且某些概念之所以出现也是属于按照教材编排的风格设计的,但这样一开始就涉及了大量的基本概念,对于想从事机器学习的读者来说,可能会吃不消,这里我将只会在第一章编写最需要要理解的概念,至于其他的概念,本教程将在具体应用到时候具体描述和讲解。

本章删繁就简,只提炼原书的核心内容:

  • 输入空间、特征空间、输出空间:

每个具体的样本实例( i n s t a n c e instance instance)在统计学习方法中实际表示为一个向量,叫做特征向量,而这个特征向量所存在的空间,称之为特征空间,通常这个向量表示为列向量 x x x,即有
KaTeX parse error: Got function '\left' with no arguments as superscript at position 13: x = \left( x^̲\left(1\right),…
其中,KaTeX parse error: Got function '\left' with no arguments as superscript at position 2: x^̲\left(i\right)表示 x x x的第 i i i个特征,注意,KaTeX parse error: Got function '\left' with no arguments as superscript at position 2: x^̲\left(i\right) x i x_i xi不同,这里通常用 x i x_i xi表示多个输入变量的第 i i i个,即有
KaTeX parse error: Got function '\left' with no arguments as superscript at position 17: …_i = \left( x_i^̲\left(1\right),…
当有许多 x x x组成所有的输入时,记为 X X X X X X中的所有的 x i x_i xi所对应的 y i y_i yi记为 Y Y Y Y Y Y是一个类别标签向量,通常对于“类别标签”这个词,简称为“类标”。

  • 补充

读者可能会好奇,通常一行 x x x对应一个 y y y是很好理解的,如下所示,其中, X X X数据包含了 m m m个实例,每个实例有 n n n个属性:
KaTeX parse error: Got function '\left' with no arguments as superscript at position 169: …in{bmatrix} x_1^̲\left( 1 \right…
为什么要把 x x x弄成列呢?原因是这这样的,由于在之后的统计学习的方法中,需要反复使用一个式子,即 f ( x ) = w ⋅ x + b f\left(x\right) = w \cdot x+b f(x)=wx+b,即“参数乘以样本偏置项”,此时,从矩阵运算角度来讲, w w w是横向量, x x x是列向量, w ⋅ x + b w \cdot x+b wx+b的结果 f ( x ) f\left(x\right) f(x)就成为了一个常数项,如果不这样, x x x表现为上图中的横向量,那就需要将这个 w w w x x x就需要来回倒腾,很麻烦,所以,对于数学分析来讲,这里定义 x x x是一个列向量是极好的。但是直观来讲,上面的式子对整个训练集的表现形式更符合人类直观的理解(至少我很喜欢这种表现形式,主要看着好看哈哈哈,= =~)。

  • 关于统计学习方法以及机器学习方法的本质描述

X X X决定 Y Y Y的过程实际是一个模型所要所的事情,这个模型,可以有两种理解:第一,是一个概率关系,即有 X X X的分布来确定 Y Y Y的分布,并且它是一种条件概率分布的关系,有 P ( Y ∣ X ) P\left( Y |X\right) P(YX)
第二种,即函数关系,当有 X X X的时候,可以通过一种函数关系映射将之表现为 Y Y Y,此时,有
Y = f ( X ) Y=f\left(X\right) Y=f(X)
当新的样本进来要用模型去预测其可能的结果的时候,可以形式化得将刚才得到的 P P P f ( ) f() f()应用在新的样本 x x x上,则预测的过程记为 P ( y ∣ x ) P\left(y|x\right) P(yx)或者 y = f ( x ) y=f\left(x\right) y=f(x)

至于原书中其他的概念,如损失函数过拟合与欠拟合等,本文不打算详细描述了,这个一方面需要弄懂的话也不是简简单单描述完就没事儿了,还是需要动手,之后每个章节对算法进行描述的时候,若是涉及到了相关概念,也会具体说明一下,而且结合案例来讲概念,或许更有利于理解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值