作业一 ·感知机实现二分类

明·煜

已于 2023-04-19 19:31:43 修改

阅读量1.7k

点赞数 8

分类专栏：机器/深度学习笔记文章标签：机器学习

于 2023-04-16 11:25:54 首次发布

本文链接：https://blog.csdn.net/weixin_53195427/article/details/130180454

版权

机器/深度学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

感知机

一、感知机的基本原理

1.1 感知机学习的数学模型

感知机是根据输入实例的特征向量 $x$ 对其进行二类分类的线性分类模型，针对训练集数据：
$\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$
其中， $x_i \in R^n,y_i \in \{-1,1\},i=1,2,\dots,N$ ,则有感知机模型函数：

$f(x)=\operatorname{sign}(w \cdot x+b)$

感知机模型对应于输入空间（特征空间）中的分离超平面 $\cdot x+b=0$ 。其中，w是一个 $n$ 维向量，与 $x$ 维度相同， $b$ d为一常数。

1.2 感知机的损失函数

感知机学习的策略是极小化损失函数：
$\min _{w, b} L(w, b)=-\sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right)$

M为误分类点的集合，损失函数对应于误分类点到分离超平面的总距离。

感知机学习算法是误分类驱动的，具体是采用随机梯度下降法。首先，任意选取一个超平面 $w_0,b_0$ ,然后用梯度下降法不断极小化目标函数。极小化过程中不是一次使得集合 $M$ 中所有的误分类点的梯度下降，而是一次随机选取一个误分类点进行梯度下降。

对损失函数求梯度，有：
$\nabla_wL(w,b) = -\sum_{x_i \in M}y_ix_i\\ \nabla_bL(w,b) = -\sum_{x_i \in M}y_i$
随机选取一个误分类点 $x_i,y_i)$ ,对 $w, b$ 进行更新

$\leftarrow w + \eta y_ix_i\\ b \leftarrow b + \eta y_i$

式中, $\eta (0 \le \eta \le 1)$ 是学习率。这样通过迭代可以使得损失函数 $L (w, b)$ 不断减少，直至为0

感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法，有原始形式和对偶形式。

1.3 感知机学习算法的原始形式

原始形式中，首先任意选取一个超平面，然后用梯度下降法不断极小化目标函数。在这个过程中一次随机选取一个误分类点使其梯度下降。整个算法流程如下：

针对训练集数据： $\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$
其中， $x_i \in R^n,y_i \in \{-1,1\},i=1,2,\dots,N$

有感知机模型函数： $f(x)=\operatorname{sign}(w \cdot x+b)$

选取初始值 $w_0,b_0$ （一般都取0作为初始值）
在训练集中选取数据 $x_i,y_i)$
如果 $y_i(w \cdot x_i + b) \le 0$
$\leftarrow w + \eta y_ix_i\\ b \leftarrow b + \eta y_i$
转至步骤2，直至训练集中没有误分类点

1.4 感知机学习算法的对偶形式

对偶性的基本思想是希望将 $w, b$ 表示为实例 $x_i，y_i$ 线性组合的形式。已知在感知机原始形式中，对误分类点 $x_i,y_i)$ 参数迭代形式：
$\leftarrow w + \eta y_ix_i\\ b \leftarrow b + \eta y_i$
现在假设初始值 $w_0,b_0$ 均为0，则可修改迭代公式为：
$\leftarrow \eta y_ix_i\\ b \leftarrow \eta y_i$
则可知，第n次迭代时， $w, b$ 关于 $x_i,y_i)$ 的增量分别是 $\cdot \eta y_ix_i$ 和 $\cdot \eta y_i$

假设 $\alpha_i=n \cdot \eta$ ,得增量表达式： $\alpha_i y_ix_i$ 和 $\alpha_i y_i$ 因此最后学习到得 $w, b$ 可以用下式表达：

$\sum_{i=1}^N \alpha_iy_ix_i\\ b = \sum_{i=1}^N \alpha_iy_i$
其中，N时迭代次数。对于每个实例点，如果其使得参数更新的次数越多，意味着其离超平面越近，即其越难被分类。

整个算法流程如下：

针对训练集数据： $\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$
其中， $x_i \in R^n,y_i \in \{-1,1\},i=1,2,\dots,N$

有感知机模型函数： $f(x)=\operatorname{sign}( \sum_{i=1}^N \alpha_iy_ix_i \cdot x+b)$

选取初始值 $\alpha_0,b_0$ （一般都取0作为初始值）
在训练集中选取数据 $x_i,y_i)$
如果 $y_i(\sum_{j=1}^N \alpha_jy_jx_j \cdot x_i+b) \le 0$
$\alpha_j \leftarrow \alpha_j + \eta\\ b \leftarrow b + \eta y_i$
转至步骤2，直至训练集中没有误分类点

在本算法中，训练集实例仅以内积的形式出现。为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储，这就是所谓的Gram矩阵

$\|x_i \cdot x_j \|_{N \times N}$

1.5 感知机学习算法的收敛性

当训练数据集线性可分时，感知机学习算法是收敛的。感知机算法在训练数据集上的误分类次数 $k$ 满足不等式：

$\leqslant\left(\frac{R}{\gamma}\right)^{2}$

当训练数据集线性可分时，感知机学习算法存在无穷多个解，其解由于不同的初值或不同的迭代顺序而可能有所不同。

二、应用实例

计划需要完成四种分类问题：

使用感知机原始形式解决二维分类问题（可视化）
使用感知机对偶形式解决二维分类问题（可视化）
使用感知机原始形式算法解决四维分类问题
使用感知机对偶形式解决四维分类问题

2.1 使用感知机原始形式解决二维分类问题

# 导入所需库
import csv
import numpy as np
from matplotlib import pyplot as plt

2.1.1 Iris数据提取、抽取、分割和可视化

# 样本数据的抽取
with open('iris.data') as csv_file:
    data = list(csv.reader(csv_file, delimiter=','))

label_map = {
    'Iris-setosa': -1,
    'Iris-versicolor': 1,
}
# 感知机解决二分类问题的标签一定为1或-1（因为sign函数），别为正实例点和负实例点，

# 抽取样本
X = np.array([[float(x) for x in s[:-1]] for s in data[:100]], np.float32) # X是一个四维数据，此处我们只去其两维
Y = np.array([[label_map[s[-1]]] for s in data[:100]], np.float32) # 

# 样本可视化
plt.scatter(X[:50, 0], X[:50, 1], label='Iris-setosa') # 前50个数据点为1类
plt.scatter(X[50:, 0], X[50:, 1], label='Iris-versicolor') # 后50个数据点为1类
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()

# 分割数据集

# 将数据集按照8：2划分为训练集和测试集
train_idx = np.random.choice(100, 80, replace=False)

test_idx = np.array(list(set(range(100)) - set(train_idx)))

# train-训练集 test-测试集
X_train, Y_train = X[train_idx], Y[train_idx]
X_test, Y_test = X[test_idx], Y[test_idx]

请添加图片描述

2.1.2 训练

# 感知机学习类（原始形式）

class PerceptionMethod(object):  # 定义 感知机学习类
    def __init__(self, X, Y, eta):  # 类中参数是 X,Y（X,Y)均为numpy数组,eta,eta是学习率
        if X.shape[0] != Y.shape[0]:  # 要求X,Y中的数目一样，即一个x对应一个y,否则返回错误
            raise ValueError('Error,X and Y must be same when axis=0 ')
        else:  # 在类中储存参数
            self.X = X
            self.Y = Y
            self.eta = eta

    def ini_Per(self):  # 感知机的原始形式
        weight = np.zeros(self.X.shape[1])  # 初始化weight,b,np.zeros(size)表示生成0矩阵，weight的数据类型是array
        b = 0
        number = 0  # 记录训练次数
        mistake = True  # mistake是变量用来说明分类是否有错误
        while mistake is True:  # 当有错时
            mistake = False  # 开始下一轮纠错前需要将mistake变为true，一来判断这一轮是否有错误
            for index in range(self.X.shape[0]):  # 循环开始
                if self.Y[index] * (weight @ self.X[index] + b) <= 0:  # 错误判断条件 这里@表示的是矩阵运算的乘法
                    weight += self.eta * self.Y[index] * self.X[index]  # 进行更新weight，b
                    b += self.eta * self.Y[index]
                    number += 1
                    mistake = True  # 此轮检查出错误，表明mistake为true，进行下列一轮
                    break  # 找出第一个错误后调出循环
        return weight, b  # 返回值

# 测试验证函数

def test(weight,b,X,Y):
    num = 0 # 错误分类个数
    for index in range(X.shape[0]):  # 循环开始
        if Y[index] * (weight @ X[index] + b) <= 0:  # 错误判断条件 这里@表示的是矩阵运算的乘法
            num += 1
    return 1- num/(X.shape[0])

# 只使用训练集的两个维度

X_train_2 = X_train[:,0:2]
X_test_2 = X_test[:,0:2]

# 训练

PER = PerceptionMethod(X_train_2, Y_train, 1) # 类初始化
weight,b = PER.ini_Per()

# 训练集可视化

plt.scatter(X[:50, 0], X [:50, 1], label='Iris-setosa') # 前50个数据点为1类
plt.scatter(X[50:, 0], X [50:, 1], label='Iris-versicolor') # 后50个数据点为1类
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()

# 可视化分类平面
x = np.linspace(3, 8, 100)
y = -(weight[0]*x + b)/weight[1]
plt.plot(x, y)

请添加图片描述

2.1.3 测试

# 测试集验证

acc = test(weight,b,X_test_2,Y_test)
print('Test accuracy is', acc)

Test accuracy is 1.0

2.2 使用感知机对偶形式解决二维分类问题

2.2.1 Iris数据提取、抽取、分割和可视化

在上文已经完成

2.2.2 训练

# 感知机学习类（对偶形式）

import numpy as np
from matplotlib import pyplot as plt
class PerceptionMethod(object):  # 定义 感知机学习类
    def __init__(self, X, Y, eta):  # 类中参数是 X,Y（X,Y)均为numpy数组,eta,eta是学习率
        if X.shape[0] != Y.shape[0]:  # 要求X,Y中的数目一样，即一个x对应一个y,否则返回错误
            raise ValueError('Error,X and Y must be same when axis=0 ')
        else:  # 在类中储存参数
            self.X = X
            self.Y = Y
            self.eta = eta
            G = np.zeros((X.shape[0],X.shape[0]))
            for i in range(X.shape[0]):
                for j in range(X.shape[0]):
                    G[i,j] = X[i] @ X[j]
            self.G = G
    def ini_Per(self):  # 感知机的原始形式
        a = np.zeros(self.X.shape[0])  # 初始化weight,b,np.zeros(size)表示生成0矩阵，weight的数据类型是array
        b = 0
        number = 0  # 记录训练次数
        mistake = True  # mistake是变量用来说明分类是否有错误
        while mistake is True:  # 当有错时
            mistake = False  # 开始下一轮纠错前需要将mistake变为true，一来判断这一轮是否有错误
            for index in range(self.X.shape[0]):  # 循环开始
                tmp = 0
                for j in range(self.X.shape[0]):
                    tmp += a[j]*self.Y[j]*self.G[index,j]
                if self.Y[index] * (tmp + b) <= 0:  # 错误判断条件 这里@表示的是矩阵运算的乘法
                    a[index] += self.eta   # 进行更新weight，b
                    b += self.eta * self.Y[index]
                    number += 1
                    mistake = True  # 此轮检查出错误，表明mistake为true，进行下列一轮
                    break  # 找出第一个错误后调出循环
        return a, b  # 返回值

# 测试验证函数

def test(weight,b,X,Y):
    num = 0 # 错误分类个数
    for index in range(X.shape[0]):  # 循环开始
        if Y[index] * (weight @ X[index] + b) <= 0:  # 错误判断条件 这里@表示的是矩阵运算的乘法
            num += 1
    return 1- num/(X.shape[0])

# 只使用训练集的两个维度

X_train_2 = X_train[:,0:2]
X_test_2 = X_test[:,0:2]

# 训练

PER = PerceptionMethod(X_train_2, Y_train, 1) # 类初始化
a,b = PER.ini_Per()
weight = 0
for i in range(X_train_2.shape[0]):  # 循环开始
    weight += a[i]*X_train_2[i]*Y_train[i]

# 训练集可视化

plt.scatter(X[:50, 0], X [:50, 1], label='Iris-setosa') # 前50个数据点为1类
plt.scatter(X[50:, 0], X [50:, 1], label='Iris-versicolor') # 后50个数据点为1类
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()

# 可视化分类平面
x = np.linspace(3, 8, 100)
y = -(weight[0]*x + b)/weight[1]
plt.plot(x, y)

请添加图片描述

2.2.3 测试集验证

acc = test(weight,b,X_test_2,Y_test)
print('Test accuracy is', acc)

Test accuracy is 1.0

2.3 使用感知机原始形式解决四维分类问题

2.3.1 Iris数据提取、抽取、分割和可视化

在上文已经完成

2.3.2 训练

# 感知机学习类（原始形式）

class PerceptionMethod(object):  # 定义 感知机学习类
    def __init__(self, X, Y, eta):  # 类中参数是 X,Y（X,Y)均为numpy数组,eta,eta是学习率
        if X.shape[0] != Y.shape[0]:  # 要求X,Y中的数目一样，即一个x对应一个y,否则返回错误
            raise ValueError('Error,X and Y must be same when axis=0 ')
        else:  # 在类中储存参数
            self.X = X
            self.Y = Y
            self.eta = eta

    def ini_Per(self):  # 感知机的原始形式
        weight = np.zeros(self.X.shape[1])  # 初始化weight,b,np.zeros(size)表示生成0矩阵，weight的数据类型是array
        b = 0
        number = 0  # 记录训练次数
        mistake = True  # mistake是变量用来说明分类是否有错误
        while mistake is True:  # 当有错时
            mistake = False  # 开始下一轮纠错前需要将mistake变为true，一来判断这一轮是否有错误
            for index in range(self.X.shape[0]):  # 循环开始
                if self.Y[index] * (weight @ self.X[index] + b) <= 0:  # 错误判断条件 这里@表示的是矩阵运算的乘法
                    weight += self.eta * self.Y[index] * self.X[index]  # 进行更新weight，b
                    b += self.eta * self.Y[index]
                    number += 1
                    mistake = True  # 此轮检查出错误，表明mistake为true，进行下列一轮
                    break  # 找出第一个错误后调出循环
        return weight, b  # 返回值

# 测试验证函数

def test(weight,b,X,Y):
    num = 0 # 错误分类个数
    for index in range(X.shape[0]):  # 循环开始
        if Y[index] * (weight @ X[index] + b) <= 0:  # 错误判断条件 这里@表示的是矩阵运算的乘法
            num += 1
    return 1- num/(X.shape[0])

# 使用训练集的四个维度

# 训练

PER = PerceptionMethod(X_train, Y_train, 1) # 类初始化
weight,b = PER.ini_Per()

2.3.3 测试

acc = test(weight,b,X_test,Y_test)
print('Test accuracy is', acc)

Test accuracy is 1.0

2.4 使用感知机对偶形式解决四维分类问题

2.4.1 Iris数据提取、抽取、分割和可视化

在上文已经完成

2.4.2 训练

# 感知机学习类（对偶形式）

import numpy as np
from matplotlib import pyplot as plt
class PerceptionMethod(object):  # 定义 感知机学习类
    def __init__(self, X, Y, eta):  # 类中参数是 X,Y（X,Y)均为numpy数组,eta,eta是学习率
        if X.shape[0] != Y.shape[0]:  # 要求X,Y中的数目一样，即一个x对应一个y,否则返回错误
            raise ValueError('Error,X and Y must be same when axis=0 ')
        else:  # 在类中储存参数
            self.X = X
            self.Y = Y
            self.eta = eta
            G = np.zeros((X.shape[0],X.shape[0]))
            for i in range(X.shape[0]):
                for j in range(X.shape[0]):
                    G[i,j] = X[i] @ X[j]
            self.G = G
    def ini_Per(self):  # 感知机的原始形式
        a = np.zeros(self.X.shape[0])  # 初始化weight,b,np.zeros(size)表示生成0矩阵，weight的数据类型是array
        b = 0
        number = 0  # 记录训练次数
        mistake = True  # mistake是变量用来说明分类是否有错误
        while mistake is True:  # 当有错时
            mistake = False  # 开始下一轮纠错前需要将mistake变为true，一来判断这一轮是否有错误
            for index in range(self.X.shape[0]):  # 循环开始
                tmp = 0
                for j in range(self.X.shape[0]):
                    tmp += a[j]*self.Y[j]*self.G[index,j]
                if self.Y[index] * (tmp + b) <= 0:  # 错误判断条件 这里@表示的是矩阵运算的乘法
                    a[index] += self.eta   # 进行更新weight，b
                    b += self.eta * self.Y[index]
                    number += 1
                    mistake = True  # 此轮检查出错误，表明mistake为true，进行下列一轮
                    break  # 找出第一个错误后调出循环
        return a, b  # 返回值

# 测试验证函数

def test(weight,b,X,Y):
    num = 0 # 错误分类个数
    for index in range(X.shape[0]):  # 循环开始
        if Y[index] * (weight @ X[index] + b) <= 0:  # 错误判断条件 这里@表示的是矩阵运算的乘法
            num += 1
    return 1- num/(X.shape[0])

# 使用训练集的四个维度

# 训练

PER = PerceptionMethod(X_train, Y_train, 1) # 类初始化
a,b = PER.ini_Per()
weight = 0
for i in range(X_train.shape[0]):  # 循环开始
    weight += a[i]*X_train[i]*Y_train[i]
print(weight)

[-1.3999987 -5.1000004  8.         4.1000004]

2.4.3 测试

acc = test(weight,b,X_test,Y_test)
print('Test accuracy is', acc)

Test accuracy is 1.0

明·煜

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
7
评论
作业一 ·感知机实现二分类

对于每个实例点，如果其使得参数更新的次数越多，意味着其离超平面越近，即其越难被分类。当训练数据集线性可分时，感知机学习算法存在无穷多个解，其解由于不同的初值或不同的迭代顺序而可能有所不同。当训练数据集线性可分时，感知机学习算法是收敛的。感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法，有原始形式和对偶形式。感知机学习算法是误分类驱动的，具体是采用随机梯度下降法。中所有的误分类点的梯度下降，而是一次随机选取一个误分类点进行梯度下降。M为误分类点的集合，损失函数对应于误分类点到分离超平面的总距离。
复制链接

扫一扫