02-感知机 读书笔记

一、感知机基本概念:

  1. 感知机:是一种二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,只取+1,-1两个值。注意:只输出正负结果。
  2. 支持向量机:以及与感知机的区别。支持向量机是求解能够正确划分数据集并且几何间隔最大的的分离超平面。
  3. 梯度下降法:寻找给定点的梯度,与梯度相反的方向就是函数值下降最快的方向。

二、感知机模型:

  1. 感知机模型的定义:假设输入空间(特征空间)是 x ∈ R n x\in R^{n} xRn,输出空间是 y = { + 1 , − 1 } y=\begin{Bmatrix}+1&,-1\end{Bmatrix} y={+1,1},输出表示实例的类别。由输入空间到输出空间的如下函数:
    f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w\cdot x+b) f(x)=sign(wx+b)
    称为感知机。其中 w w w b b b 感知机模型参数, s i g n sign sign是符号函数,即:
    s i g n ( x ) = { + 1 , x ⩾ 0 − 1 , x < 0 sign(x)=\left\{\begin{matrix}+1 &,x\geqslant 0 \\ -1& ,x<0\end{matrix}\right. sign(x)={+11,x0,x<0
  2. 感知机的几何解释:线性方程:
    w ⋅ x + b = 0 w\cdot x+b=0 wx+b=0
    其中,对于特征空间 R n R^{n} Rn 中一个超平面 S S S,其中 w w w 表示超平面的法向量, b b b 表示超平面的截距。这个超平面将特征空间划分为两个部分,位于两部分的点分别成为正、负两类,见下图:

三、感知机学习策略:

  1. 数据集的线性可分性:感知机要求训练数据集必须是线性可分的。
    数据集的线性可分性:给定一个数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } T=\begin{Bmatrix}(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\end{Bmatrix} T={(x1,y1),(x2,y2),...,(xn,yn)}
    如果存在一个超平面 S S S,能够将数据集的正实例点完全正确地划分到超平面的两侧,则称数据集 T T T 为线性可分数据集,否则线性不可分。
  2. 感知机学习策略:
    感知机学习的目的是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。为了找出这样的超平面(即确定感知机模型的 w 、 b w、b wb 参数),需要确定一个学习策略,即定义损失函数并将损失函数极小化。而损失函数定义为误分类点到超平面的距离总和:
    − 1 ∥ w ∥ ∑ x i ∈ M y i ( w ⋅ x i + b ) -\frac{1}{\left \| w \right \|}\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b) w1xiMyi(wxi+b)
    如果不考虑 1 ∥ w ∥ \frac{1}{\left \| w \right \|} w1,设误分类点集合为 M M M, 感知机 s i g n ( w ⋅ x + b ) sign(w\cdot x+b) sign(wx+b) 学习的损失函数定义为: L ( w , b ) = − ∑ x i ∈ M y i ( w ⋅ x 0 + b ) L(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{0}+b) L(w,b)=xiMyi(wx0+b)

四、感知机算法:

  1. 算法思想:
    (1)机器学习通过对错误数据集的学习,不断调整更新自身的参数 w , b w,b w,b,使得模型参数对当前系统的输入数据集,得到最佳的输出。
    【注意】:当存在误分类数据的时候(本来y=1,结果却分类为了-1;而本来是-1,结果却分类为了1),因此对于误分类数据来说: y i ( w ⋅ x i + b ) ≤ 0 y_{i}(w·x_{i}+b)≤0 yi(wxi+b)0
    (2)对于参数 w , b w,b w,b当前的值,仍存在误分类点时,需要对参数 w , b w,b w,b进行调整,即沿着梯度的方向:
    ▽ w L ( w , b ) = − ∑ x i ∈ M y i x i \bigtriangledown _{w}L(w,b)=-\sum_{x_{i}\in M}y_{i}x_{i} wL(w,b)=xiMyixi
    ▽ b L ( w , b ) = − ∑ x i ∈ M y i \bigtriangledown _{b}L(w,b)=-\sum_{x_{i}\in M}y_{i} bL(w,b)=xiMyi
    【注意】:算法中为什么加上学习率 η \eta η,是为了更好的调整参数 w , b w,b w,b,而 0 < η ≤ 1 0<\eta \leq 1 0<η1
  2. 感知机学习算法的原始形式:
    感知机模型为: f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w\cdot x+b) f(x)=sign(wx+b),需要通过求解参数 w , b w,b wb来构建最优化问题 m i n w , b = − ∑ x i ∈ M y i ( w ⋅ x i + b ) 。 min_{w,b}=-\sum_{x_{i}\in M}y_{i}(w \cdot x_{i}+b)。 minw,b=xiMyi(wxi+b)
    输入:训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } T=\begin{Bmatrix}(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\end{Bmatrix} T={(x1,y1),(x2,y2),...,(xn,yn)};学习率 η ( 0 < η ≤ 1 ) \eta(0<\eta \leq 1) η0<η1
    输出:参数 w , b w,b wb;感知机模型 f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w\cdot x+b) f(x)=sign(wx+b)
    (1) 选取初始值 w 0 , b 0 w_{0}, b_{0} w0,b0
    (2) 在训练集中选取数据 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)
    (3) 如果 y i ( w ⋅ x + b ) ≤ 0 y_{i}(w·x+b)≤0 yi(wx+b)0,则
    w ← w + η y i x i w\leftarrow w+\eta y_{i}x_{i} ww+ηyixi
    b ← b + η y i b\leftarrow b+\eta y_{i} bb+ηyi
    (4) 跳转至 (2) 直至训练集中没有误分类点。
    可以证明,对于线性可分数据集感知机学习算法原始形式收敛,即经过有限次迭代可以得到一个将于训练集数据完全正确划分的分离超平面以及感知机模型。
  3. 感知机学习算法的对偶形式:
    这个应该就是一次进行了多次原始形式的操作。
    感知机模型 f ( x ) = s i g n ( ∑ j = 1 N α j y j x j ⋅ x + b ) f(x)=sign(\sum_{j=1}^{N}\alpha _{j}y_{j}x_{j}\cdot x+b) f(x)=sign(j=1Nαjyjxjx+b)。其中, α = ( α 1 , α 2 , . . . , α n ) T \alpha =(\alpha_{1},\alpha_{2},...,\alpha_{n})^{T} α=(α1,α2,...,αn)T
    (1) 选取初始值 α ← 0 , b ← 0 \alpha\leftarrow0,b\leftarrow0 α0b0
    (2) 在训练集中选取数据 ( x i , y i ) (x_{i},y_{i}) (xi,yi)
    (3) 如果 y i ∑ j = 1 N α j y j x j ⋅ x i + b ≤ 0 y_{i}\sum_{j=1}^{N}\alpha _{j}y_{j}x_{j}\cdot x_{i}+b\leq 0 yij=1Nαjyjxjxi+b0, α i = α i + η \alpha_{i}=\alpha_{i}+\eta αi=αi+η b = b + η y i b=b+\eta y_{i} b=b+ηyi
    (4) 跳转至 (2) 直至训练集中没有误分类点。
    对偶形式中训练实例仅以内积的形式出现。为了方便,可以预先将训练集中的实例间的内积计算出来并以矩阵的方式存储,这个矩阵就是所谓的 G r a m Gram Gram 矩阵。
    G = [ x i , x j ] N × N G=\begin{bmatrix} x_{i},x_{j}\end{bmatrix}_{N \times N} G=[xi,xj]N×N
    当训练集数据集线性可分时,感知机学习算法存在无穷多个解,其解由于不同的初值或者不同的迭代顺序可能有所不同。

五、补充知识:

  1. 梯度下降法
  2. Gram矩阵的计算
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值