【机器学习】感知机算法的原理和实现

极客又朋克

已于 2024-07-26 09:55:06 修改

阅读量1.7k

点赞数 2

文章标签：机器学习算法人工智能

于 2022-05-31 00:22:33 首次发布

本文链接：https://blog.csdn.net/weixin_53761163/article/details/125022242

版权

本文详细介绍了感知机算法，包括其作为线性分类模型的定义、模型参数、学习策略和损失函数。文章重点阐述了感知机的原始形式，通过随机梯度下降法进行参数更新，同时提到了其在面对线性不可分数据时的局限性，并与支持向量机、神经网络等其他算法进行了对比。此外，文章还预告了对偶形式的感知机算法的理论和实现。

摘要由CSDN通过智能技术生成

文章目录

推荐
一、简介
二、模型
三、策略
四、感知机算法的原始形式
- 1、理论
- 2、实现（代码）
- 3、效果
五、感知机算法的对偶形式
- 1、理论
- 2、实现（代码）
- 3、效果

一、简介

定义：感知机 (perceptron) 类分类的线性分类模型，其输入为实例的特征向量，输
出为实例的类别，取 +1 和-1值。
感知机对应于输入空间中将实例划分为正负两类的分离超平面，属于判别模型。
目的：感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。
特点：感知机学习算法具有简单，并且易于实现的特点，分为原始形式和对偶形式。
预测：感知机预测是用学习得到的感知机模型对新的输入实例进行分类。

感知机的思想很好理解，比如我们在一个屋子里有很多的男人和女人，感知机的模型就是尝试找到一条直线，能够把所有的男人和女人隔离开。放到三维或者更高维的空间，感知机的模型就是尝试找到一个超平面，能够把所有的二元类别隔离开。当然，如果我们找不到这么一条直线的话怎么办？找不到的话那就意味着类别线性不可分，也就意味着感知机模型不适合你的数据的分类。

算法前提：数据集得线性可分。感知机模型遇上线性不可分的数据，它的学习算法就不会收敛，它就不能经过有限次选代可以得到 1个将训练数据集完全正确划分的分离超平面及感知机模型。
这一前提大大限制了它的应用场景。

它的分类竞争对手在面对不可分的情况时，比如支持向量机可以通过核技巧来让数据在高维可分，神经网络可以通过优化激活函数、增加隐藏层和支持多输出，来让数据可分。

二、模型

输入空间： $\chi\subseteq\ R^n$

$R^n$ ：n维实数集,即( $x_1,x_2, ... ,x_n$ ) ， $R^n$ 中每个元素是n维向量，向量中的每个分量是实数。

输出空间： $Y=\{-1,+1\}$
感知机模型： $f(x)=sign(\omega\cdot x+b)$
模型参数: $\omega\in R^n$ $b\in R$ $\omega$ 叫做权值向量
$b$ 叫做偏置
$\omega\cdot x$ 表示 $\omega$ 和 $x$ 的内积
$s i g n$ 是符号函数，即 $sign(x)=\begin{cases} +1,x\geq 0 \\ -1,x<0 \end{cases}$
假设空间：感知机是一种线性分类模型，属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合 $\{f|f(x)=\omega\cdot x + b\}$
训练数据集： $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 其中， $x_i\in \chi =R^n$ ， $y_i\in Y =\{-1,+1\}$ ， $i=1,2,\cdots,N$

$\in$ 是“属于“，表示元素和集合之间的关系
$\subseteq$ 是”包含于“，表示集合和集合之间的关系

三、策略

数据集的线性可分性：
给定一个数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 其中， $x_i\in \chi =R^n$ ， $y_i\in Y =\{-1,+1\}$ ， $i=1,2,\cdots,N$ ，如果存在某个超平面 $S$ $\omega\cdot x+b=0$ 能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，即对所有 $y_i = +1$ 的实例 $i$ ，有 $\omega\cdot x_i + b >0$ ，对所有 $y_i =-1$ 的实例 $i$ ，有 $\omega\cdot x_i + b <0$ ，则称数据集 $T$ 为线性可分数据集；否则，称数据集 $T$ 为线性不可分
感知机学习策略：
假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。
为了找出这样的超平面，即确定感知机模型参数 $\omega$ ， $b$ ，需要确定一个学习策略，即定义(经验)损失函数并将损失函数极小化。
损失函数的另一个自然选择是误分类点到超平面的总距离，这是感知机所采用的。

损失函数的一个 自然选择 是误分类点的总数。但是这样的损失函数不是 $\omega,b$ 的连续可导函数，所以不能求该损失函数的极小值。

自然选择：自然选择就是最接近人类思维方向逻辑推断

策略中的损失函数：

首先写出输入空间 $R^n$ 中任一点 $x_0$ 到超平面 $S$ 的距离： $\frac {1}{\parallel\omega\parallel} \mid \omega\cdot x_0+b\mid$ 这里 $\parallel\omega\parallel$ 是 $\omega$ 的 $L_2$ 范数。
上式可联想到点到直线的距离公式
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sFwwNcAY-1721958901331)(https://i-blog.csdnimg.cn/blog_migrate/06796039fabe5a594e5293811ad18f5c.png)]
其次，对于误分类的数据 $x_i,y_i)$ 来说 $-y_i(\omega\cdot x_i+b)>0$ 成立。因为对于误分类数据，当 $\omega\cdot x_i+b>0$ 时， $y_i=-1$ ；当 $\omega\cdot x_i+b<0$ 时， $y_i=+1$ 。即 $\omega\cdot x_i+b与y_i是异号$
这样，误分类点 $x_i,y_i)$ 到超平面 $S$ 的距离为 $-\frac{1}{\parallel\omega\parallel}y_i\mid\omega\cdot x_i+b\mid$ 假设超平面 $S$ 的误分类点的集合为 $M$ ，那么所有误分类点到超平面 $S$ 的总距离为 $-\frac{1}{\parallel\omega\parallel}\sum_{x_i\in M}^{}y_i{\mid\omega\cdot x_i+b\mid}$ 若不考虑 $\frac{1}{\parallel\omega\parallel}$ 就得到感知机学习的损失函数。
为什么不考虑 $\frac{1}{\parallel\omega\parallel}$ 见我下一篇博客
感知机损失函数定义（上面为推导过程）：

给定一个数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 其中， $x_i\in \chi =R^n$ ， $y_i\in Y =\{-1,+1\}$ ， $i=1,2,\cdots,N$ ，感知机 $sign(\omega\cdot x+b)$ 学习的损失函数定义为 $L(\omega,b)=-\sum_{x_i\in M}^{}y_i{\mid\omega\cdot x_i+b\mid}$

$L_2$ 范数：向量中各元素的平方和然后求平方根。
即欧氏距离

四、感知机算法的原始形式

1、理论

经过模型，策略的推导，我们已经把感知机学习问题转化为损失函数的最优化问题，最优化方法为随机梯度下降法。

给定一个数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 其中， $x_i\in \chi =R^n$ ， $y_i\in Y =\{-1,+1\}$ ， $i=1,2,\cdots,N$ ，求参数 $\omega，b$ 使其为损失函数最小化问题的解（即求下式的解 $\omega，b$ ） $\min_{\omega,b}{L(\omega,b)}=-\sum_{x_i\in M}^{}y_i{\mid\omega\cdot x_i+b\mid}$ 上式中 $M$ 为超平面 $S$ 的误分类点的集合。

感知机学习算法是误分类驱动的，具体采用随机梯度下降法（该方法见后面的博客）
首先，任意选取一个超平面 $\omega_0,b_0$ ，然后用梯度下降法不断地极小化目标函数，极小化过程中不是一次使 $M$ 中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。

假设误分类点的集合 $M$ 是固定的，那么损失函数 $L(\omega,b)$ 的梯度由
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F2GwEndi-1721958901333)(https://i-blog.csdnimg.cn/blog_migrate/4a6865ac8c0e008511ba5d821617cc34.jpeg)]
给出。

随机选取一个误分类点 $x_i,y_i)$ , 对 $\omega,b$ 进行更新: $\omega\leftarrow\omega+\eta y_ix_i$ $b\leftarrow b+\eta y_i$ 式中 $\eta (0<\eta<1)$ 叫做步长，也叫做学习率。
这样，通过迭代可以使损失函数 $L(\omega, b)$ 不断减小，直到为0 。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-25K2Cv1P-1721958901334)(https://i-blog.csdnimg.cn/blog_migrate/2bbfc746105072f906d8367c167f7f8e.png)]

损失函数 $L(\omega, b)$ 是非负的。如果没有误分类点，损失函数值是0 。而且，误分类点越少，误分类点离超平面越近，损失函数值就越小。一个特定的样本点的损失函数：在误分类时是参 $\omega,b$ 的线性函数，在正确分类时是 0。

2、实现（代码）

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
%matplotlib inline
# load data
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target
df.columns = [
    'sepal length', 'sepal width', 'petal length', 'petal width', 'label'
]
df.label.value_counts()
plt.scatter(df[:50]['sepal length'], df[:50]['sepal width'], label='0')
plt.scatter(df[50:100]['sepal length'], df[50:100]['sepal width'], label='1')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()
data = np.array(df.iloc[:100, [0, 1, -1]])
X, y = data[:,:-1], data[:,-1]
y = np.array([1 if i == 1 else -1 for i in y])
# 数据线性可分，二分类数据
# 此处为一元一次线性方程
class Model:
    def __init__(self):
        self.w = np.ones(len(data[0]) - 1, dtype=np.float32)
        self.b = 0
        self.l_rate = 0.1
        # self.data = data

    def sign(self, x, w, b):
        y = np.dot(x, w) + b
        return y

    # 随机梯度下降法
    def fit(self, X_train, y_train):
        is_wrong = False
        while not is_wrong:
            wrong_count = 0
            for d in range(len(X_train)):
                X = X_train[d]
                y = y_train[d]
                if y * self.sign(X, self.w, self.b) <= 0:
                    self.w = self.w + self.l_rate * np.dot(y, X)
                    self.b = self.b + self.l_rate * y
                    wrong_count += 1
            if wrong_count == 0:
                is_wrong = True
        return 'Perceptron Model!'

    def score(self):
        pass
perceptron = Model()
perceptron.fit(X, y)
x_points = np.linspace(4, 7, 10)
y_ = -(perceptron.w[0] * x_points + perceptron.b) / perceptron.w[1]
plt.plot(x_points, y_)

plt.plot(data[:50, 0], data[:50, 1], 'bo', color='blue', label='0')
plt.plot(data[50:100, 0], data[50:100, 1], 'bo', color='orange', label='1')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()

3、效果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PTyPivU3-1721958901335)(https://i-blog.csdnimg.cn/blog_migrate/90fccd8e199ffd38f73f83b83807afdf.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9jQ2bzke-1721958901335)(https://i-blog.csdnimg.cn/blog_migrate/adeef661d56355013d131a13e5616806.png)]

五、感知机算法的对偶形式

1、理论

2、实现（代码）

3、效果

极客又朋克

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
4
评论
【机器学习】感知机算法的原理和实现

文章目录推荐一、简介二、模型三、策略四、感知机算法的原始形式1、理论2、实现（代码）3、效果五、感知机算法的对偶形式1、理论2、实现（代码）3、效果推荐去年看完吴恩达的机器学习网课之后，虽然记了很多笔记，但是感觉学的太多也太浅，应该是自己学的不够认真，没有一个完整的体系。（吴老师的课讲得很细，很适合初学者，即便你是高中毕业稍微花点时间也可以学懂）今年开学除了完成学业，也有在查机器学习方面的资料。在知乎上找相关学习资料时，发现知乎如何学习《统计学习方法》下面有两类人，一类是大佬推荐一些论文和英
复制链接

扫一扫