目录
一、M-P神经元
M-P神经元(模拟生物行为的数学模型)
接受n个输入(通常是来自其他神经元)并给各个输入赋予权重加权和,然后和自身特有的阈值进行比较(做减法),最后经过激活函数(模拟“抑制”和“激活”)处理得到输出(通常是给下一个神经元)
单个M-P神经元:感知机(sgn作激活函数)、对数几率回归(sigmoid作激活函数)
多个M-P神经元:神经网络
(机器学习三要素:模型、策略、算法)
感知机模型
数学角度:激活函数为sgn(阶跃函数)的神经元
其中,为样本的特征向量,是感知机模型的输入,是感知机模型的参数,为权重,为阈值
几何角度:
给定一个线性可分的数据集T,感知机的学习目标是求得能对数据集T中的正负样本完全正确划分的超平面,其中即为超平面方程(换句话说,只有线性可分的数据集才能用感知机)
n维空间的超平面(,其中):
超平面方程不唯一
感知机学习策略
随机初始化w,b,将全体训练样本代入模型找出误分类样本,假设此时误分类样本合集为,对任意一个误分类样本来说,当时,模型输出值为,样本真实标记为y = 0,反之标记y = 1。综上恒有:
所以,给定数据集T,其损失函数可以定义为:
此损失函数是非负的,若无误分类点,损失函数值为0;而且误分类点越少,误分类点离超平面越近,损失函数越小。
二、神经网络
由于像感知机这种单个神经元分类能力有限,只能分类线性可分的数据集,对于线性不可分的数据集则无能为力,但是多个神经元构成的神经网络能够分类线性不可分的数据集(西瓜书上异或问题的那个例子),且有理论证明了通甬近似定理):只需一个包含足够多神经元的隐层,多层前馈网络(最经典的神经网络之一)就能以任意精度逼近任意复杂度的连续函数。因此,神经网络既能做回归,也能做分类,而且不需要复杂的特征工程。