pytorch softmax回归【从零实现+简洁实现】

什么都干的派森

已于 2022-07-16 22:33:08 修改

阅读量1.8k

点赞数 8

分类专栏： Python CV 文章标签： pytorch 回归深度学习

于 2022-07-16 20:50:46 首次发布

本文链接：https://blog.csdn.net/weixin_43721000/article/details/125824759

版权

Python 同时被 2 个专栏收录

122 篇文章 26 订阅

订阅专栏

27 篇文章 8 订阅

订阅专栏

文章目录

一、前言
二、实现

一、前言

从零实现

构造数据集迭代器
实现模型
初始化超参数
定义 softmax 操作
定义损失函数【交叉熵 CrossEntropyLoss 】
定义优化算法SGD
定义评估准确率的方法及训练时的辅助动画
训练

简洁实现

构造数据集迭代器
使用 pytorch 模块实现模型
使用 pytorch 的方式初始化超参数
使用 pytorch 的损失函数【交叉熵 CrossEntropyLoss 】【pytorch 的 CrossEntropyLoss 自带 softmax 操作】
使用 pytorch 的优化算法SGD
定义评估准确率的方法及训练时的辅助动画
训练

在这里插入图片描述

ps：感谢李沐老师，虽然他不认识我（旺柴）

二、实现

1.加载并测试数据集

import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l


# 用svg来显示图片，清晰度高一些
d2l.use_svg_display()


# 数据集测试 -----------------------------------------------------
# 下载数据,查看数据总量
# 通过ToTensor实例将图像数从PIL类型变换成32位浮点数格式
# 并除以255使得所有图像的数值都在0到1之间
trans = transforms.ToTensor()
mnist_train = torchvision.datasets.FashionMNIST(
    root=r'./data',
    train=True,
    transform=trans,
    download=True
)
mnist_test = torchvision.datasets.FashionMNIST(
    root=r'./data',
    train=False,
    transform=trans,
    download=True
)

print(len(mnist_train))
print(len(mnist_test))


# 数据展示
# 根据分类索引查询标签
def get_fashion_mnist_labels(labels):
    """ 返回fashion-MNIST数据集的文本标签 """
    text_labels = [
        't-shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'sweater', 'sneaker', 'bag', 'ankle boot'
    ]
    return [text_labels[int(i)] for i in labels]

def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):
    """
    展示一组图片
    :return:
    """
    figsize = (num_cols * scale, num_rows * scale)
    _, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)
    axes = axes.flatten()
    for i, (ax, img) in enumerate(zip(axes, imgs)):
        if torch.is_tensor(img):
            # 图片张量
            ax.imshow(img.numpy())
        else:
            # PIL图片
            ax.imshow(img)
        ax.set_title(titles[i])

x, y = next(iter(data.DataLoader(mnist_train, batch_size=18)))
# print(x.shape)
# print(y.shape)
# print(get_fashion_mnist_labels(y))
show_images(x.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y))

# show img
d2l.plt.show()


# 图片加载速度测试【控制图片加载批次，使得训练速度>图片加载速度】
batch_size = 256        # 每批次加载到内存中的图片数
loader_workers = 4      # 加载图片使用的进程数

train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True, num_workers=loader_workers)

timer = d2l.Timer()
for x, y in train_iter:
    continue
print("加载一个批次的图片用时：{} s".format(timer.stop()))

2.从零实现

import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l


# 用svg来显示图片，清晰度高一些
d2l.use_svg_display()


# 构造数据集迭代器 -----------------------------------------
def load_data_fashion_mnist(batch_size, resize=None):
    """
    下载mnist数据集到指定目录，按批次加载到内存并返回迭代器
    :param batch_size:  # 每批次加载的数据量
    :param resize:      # 放大或缩小图片
    :return:
    """
    # 图片预处理方法定义
    trans = [transforms.ToTensor()]
    if resize:
        trans.insert(0, transforms.Resize(resize))
    # # transforms.Compose([
    #   transforms.Resize(resize),  # 改变图像大小
    #   transforms.ToTensor()       # 转为tensor张量，通过ToTensor实例将图像数从PIL类型变换成32位浮点数格式，并除以255使得所有图像的数值都在0到1之间
    # ])
    trans = transforms.Compose(trans)

    # 加载数据
    # root=r'./data', download=True 下载数据并缓存在./data目录
    # train=True  加载训练集
    # train=False 加载测试集
    mnist_train = torchvision.datasets.FashionMNIST(
        root=r'./data',
        train=True,
        transform=trans,
        download=True
    )
    mnist_test = torchvision.datasets.FashionMNIST(
        root=r'./data',
        train=False,
        transform=trans,
        download=True
    )

    # 返回训练集和测试集的迭代器
    # shuffle 是否乱序
    # num_workers 多进程提高图片从硬盘加载的速度
    train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True, num_workers=4)
    test_iter = data.DataLoader(mnist_test, batch_size, shuffle=False, num_workers=4)
    return (train_iter, test_iter)

batch_size = 256                                                # 每批次返回256张图
train_iter, test_iter = load_data_fashion_mnist(batch_size)     # 获得数据迭代器


# 实现模型 -------------------------------------------------------------
def net(X):
    # X 输入是一个四维矩阵 (256*1*28*28)，在这里通过reshape转成二维 (自适应*768) 也就是 (256*768)
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)


# 初始化超参数 -----------------------------------------------------------------
# 简单的将图片维度拉直
num_inputs = 784    # 输入维度 28*28
num_outputs = 10    # 输出维度 10

W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
b = torch.zeros(num_outputs, requires_grad=True)


# 定义 softmax 操作 -------------------------
def softmax(X):                                 # 举例：X = torch.tensor([[2, 2, 2], [2, 2, 2], [2, 2, 2]])
    # torch.exp e为底的指数函数 yi = e**xi
    X_exp = torch.exp(X)                        # 举例：X_exp = tensor([[2.7183, 2.7183, 2.7183], [2.7183, 2.7183, 2.7183], [2.7183, 2.7183, 2.7183]])
    # 矩阵每行求和，keepdim 保持维度
    partition = X_exp.sum(1, keepdim=True)      # 举例：partition = tensor([[22.1672], [22.1672], [22.1672]])
    # 利用广播机制求概率，partition矩阵将会被展开成与X_exp矩阵相同的维度，然后再进行对位相除
    return X_exp / partition                    # 举例：X_exp / partition = tensor([[0.3333, 0.3333, 0.3333], [0.3333, 0.3333, 0.3333], [0.3333, 0.3333, 0.3333]])
    # 输出前 [[2, 2, 2], [2, 2, 2], [2, 2, 2]]
    # 输出后 [[0.3333, 0.3333, 0.3333], [0.3333, 0.3333, 0.3333], [0.3333, 0.3333, 0.3333]]
    # 输出后的矩阵形状不变，值为非负，且每行的和为1


# 定义损失函数【交叉熵】 -----------------------------
def cross_entropy(y_hat, y):
    return -torch.log(y_hat[range(len(y_hat)), y])
# 假设有一个三分类问题，现在有两个真实数据y和两个预测数据y_hat
# 假设 y = torch.tensor([1, 0])
#     y_hat = torch.tensor([[0.1, 0.2, 0.7], [0.8, 0.1, 0.1]])
# 执行交叉熵
# 取 y_hat 中第一维中的第1个元素 和 y_hat 中第二维中的第0个元素
# 也就是 0.2 和 0.8，torch.tensor([0.2, 0.8])
# 求e为底 torch.tensor([0.2, 0.8]) 的对数，得 tensor([-1.6094, -0.2231])
# 求负数，得出两吗个分类的预测损失值 tensor([1.6094, 0.2231])


# 定义优化算法SGD -------------------------------------
# 小批量随机梯度下降法
lr = 0.1
def updater(batch_size):
    """ 小批量随机梯度下降 """
    with torch.no_grad():                           # 更新参数时不计算梯度
        for param in [W, b]:
            param -= lr * param.grad / batch_size   # w1 = w0 - 学习率 * 损失函数关于w0的梯度，除以 batch_size 求平均损失，如果在损失函数中除以了batch_size，这里就不要除了
            param.grad.zero_()                      # 梯度归0
           

# 评估准确率的方法 ----------------------------------------
# 定义预测准确率函数
def accuracy(y_hat, y):
    '''
    :param y_hat: 接收二维张量，例如 torch.tensor([[1], [0]...])
    :param y: 接收二维张量，例如 torch.tensor([[0.1, 0.2, 0.7], [0.8, 0.1, 0.1]...]) 三分类问题
    :return:
    '''
    # if len(y_hat.shape) > 1 and len(y.shape) > 1:
    y_hat = y_hat.argmax(axis=1)
    cmp = y_hat.type(y.dtype) == y
    return float(cmp.type(y.dtype).sum())

class Accumulator():
    ''' 对评估的正确数量和总数进行累加 '''
    def __init__(self, n):
        self.data = [0.0] * n

    def add(self, *args):
        self.data = [a + float(b) for a, b in zip(self.data, args)]

    def reset(self):
        self.data = [0.0] * len(self.data)

    def __getitem__(self, item):
        return self.data[item]

# 对任意模型评估准确率的方法
def evaluate_accuracy(net, data_iter):
    ''' 计算在指定数据集上的模型精度 '''
    if isinstance(net, torch.nn.Module):
        net.eval()      # 将模型设置为评估模式
    metric = Accumulator(2)
    for X, y in data_iter:
        metric.add(accuracy(net(X), y), y.numel())
    return metric[0] / metric[1]

print(evaluate_accuracy(net, test_iter))
# 使用随机初始化的net预测十分类测试，正确率刚好在10%左右
# 0.1349

# 定义训练时的辅助动画
from IPython import display
class Animator():  #@save
    """在动画中绘制数据"""
    def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
                 ylim=None, xscale='linear', yscale='linear',
                 fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
                 figsize=(3.5, 2.5)):
        # 增量地绘制多条线
        if legend is None:
            legend = []
        d2l.use_svg_display()
        self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
        if nrows * ncols == 1:
            self.axes = [self.axes, ]
        # 使用lambda函数捕获参数
        self.config_axes = lambda: d2l.set_axes(
            self.axes[0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
        self.X, self.Y, self.fmts = None, None, fmts

    def add(self, x, y):
        # 向图表中添加多个数据点
        if not hasattr(y, "__len__"):
            y = [y]
        n = len(y)
        if not hasattr(x, "__len__"):
            x = [x] * n
        if not self.X:
            self.X = [[] for _ in range(n)]
        if not self.Y:
            self.Y = [[] for _ in range(n)]
        for i, (a, b) in enumerate(zip(x, y)):
            if a is not None and b is not None:
                self.X[i].append(a)
                self.Y[i].append(b)
        self.axes[0].cla()
        for x, y, fmt in zip(self.X, self.Y, self.fmts):
            self.axes[0].plot(x, y, fmt)
        self.config_axes()
        display.display(self.fig)
        d2l.plt.draw()
        d2l.plt.pause(0.001)
        display.clear_output(wait=True)


# 训练 -------------------------------------------------
# 定义每批次训练函数
def train_epoch_ch3(net, train_iter, loss, updater):
    # 判断是不是pytorch的model，如果是，就打开训练模式，pytorch的训练模式默认开启梯度更新
    if isinstance(net, torch.nn.Module):
        net.train()
    # 创建样本累加器【累加每批次的损失值、样本预测正确的个数、样本总数】
    metric = Accumulator(3)
    for X, y in train_iter:
        # 前向传播获得预测结果
        y_hat = net(X)
        # 计算损失值
        l = loss(y_hat, y)
        # 判断是pytorch自带的方法还是我们手写的方法【根据不同的方法有不同的处理方式】
        if isinstance(updater, torch.optim.Optimizer):
            # 梯度清零
            updater.zero_grad()
            # 损失值求和，反向传播【pytorch自动进行了损失值求和】
            l.backward()
            # 更新梯度
            updater.step()
            # 累加各参数
            metric.add(
                float(l)*len(y),        # 损失值总数
                accuracy(y_hat, y),     # 样本预测正确的总数
                y.size().numel()        # 样本总数
            )
        else:
            # 损失值求和，反向传播
            l.sum().backward()
            # 梯度更新
            updater(X.shape[0])
            # 累加各参数
            metric.add(float(l.sum()), accuracy(y_hat, y), y.size().numel())
    # 返回 平均损失值 和 预测正确的概率
    # print("metric[0]: {}".format(metric[0]))
    # print("metric[1]: {}".format(metric[1]))
    # print("metric[2]: {}".format(metric[2]))
    return metric[0]/metric[2], metric[1]/metric[2]

# 定义训练方法
def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):
    """训练模型 """
    # 初始化训练动画
    animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],
                        legend=['train loss', 'train acc', 'test acc'])
    # 训练 num_epochs 代
    for epoch in range(num_epochs):
        # 调用训练方法
        # 返回  平均损失值 和 预测正确的概率
        train_metrics = train_epoch_ch3(net, train_iter, loss, updater)
        # 测试集上的准确率
        test_acc = evaluate_accuracy(net, test_iter)
        # 绘制【训练代数，平均损失值、前向传播时的预测正确率、测试集预测正确率】
        animator.add(epoch + 1, train_metrics + (test_acc,))
    # train_loss, train_acc = train_metrics
    # assert train_loss < 0.5, train_loss
    # assert train_acc <= 1 and train_acc > 0.7, train_acc
    # assert test_acc <= 1 and test_acc > 0.7, test_acc

# 开始训练 
num_epochs = 10
train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, updater)

2.简洁实现

import torch
from torch import nn
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l


# 用svg来显示图片，清晰度高一些
d2l.use_svg_display()


# 构造数据集迭代器 -----------------------------------------
def load_data_fashion_mnist(batch_size, resize=None):
    """
    下载mnist数据集到指定目录，按批次加载到内存并返回迭代器
    :param batch_size:  # 每批次加载的数据量
    :param resize:      # 放大或缩小图片
    :return:
    """
    # 图片预处理方法定义
    trans = [transforms.ToTensor()]
    if resize:
        trans.insert(0, transforms.Resize(resize))
    # # transforms.Compose([
    #   transforms.Resize(resize),  # 改变图像大小
    #   transforms.ToTensor()       # 转为tensor张量，通过ToTensor实例将图像数从PIL类型变换成32位浮点数格式，并除以255使得所有图像的数值都在0到1之间
    # ])
    trans = transforms.Compose(trans)

    # 加载数据
    # root=r'./data', download=True 下载数据并缓存在./data目录
    # train=True  加载训练集
    # train=False 加载测试集
    mnist_train = torchvision.datasets.FashionMNIST(
        root=r'./data',
        train=True,
        transform=trans,
        download=True
    )
    mnist_test = torchvision.datasets.FashionMNIST(
        root=r'./data',
        train=False,
        transform=trans,
        download=True
    )

    # 返回训练集和测试集的迭代器
    # shuffle 是否乱序
    # num_workers 多进程提高图片从硬盘加载的速度
    train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True, num_workers=4)
    test_iter = data.DataLoader(mnist_test, batch_size, shuffle=False, num_workers=4)
    return (train_iter, test_iter)

batch_size = 256                                                # 每批次返回256张图
train_iter, test_iter = load_data_fashion_mnist(batch_size)     # 获得数据迭代器


# 实现模型 ----------------------------------------------
# pytorch不会隐式的调整输入情况
# 因此，我们定义了展平层 Flatten ，在线性层前调整网络输入的形状
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))


# 初始化超参数 ---------------------------------
def init_weights(m):
	# 遍历 Sequential 如果发现 Linear 层,就把该层所有超参数初始化为均值0方差0.01的值
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)
# 模型加入初始化参数的方法
net.apply(init_weights)


# 定义损失函数 ----------------
loss = nn.CrossEntropyLoss()


# 定义优化算法【SGD】----------------------------------
updater = torch.optim.SGD(net.parameters(), lr=0.1)


# 评估准确率的方法 ----------------------------------------
# 定义预测准确率函数
def accuracy(y_hat, y):
    '''
    :param y_hat: 接收二维张量，例如 torch.tensor([[1], [0]...])
    :param y: 接收二维张量，例如 torch.tensor([[0.1, 0.2, 0.7], [0.8, 0.1, 0.1]...]) 三分类问题
    :return:
    '''
    # if len(y_hat.shape) > 1 and len(y.shape) > 1:
    y_hat = y_hat.argmax(axis=1)
    cmp = y_hat.type(y.dtype) == y
    return float(cmp.type(y.dtype).sum())

class Accumulator():
    ''' 对评估的正确数量和总数进行累加 '''
    def __init__(self, n):
        self.data = [0.0] * n

    def add(self, *args):
        self.data = [a + float(b) for a, b in zip(self.data, args)]

    def reset(self):
        self.data = [0.0] * len(self.data)

    def __getitem__(self, item):
        return self.data[item]

# 对任意模型评估准确率的方法
def evaluate_accuracy(net, data_iter):
    ''' 计算在指定数据集上的模型精度 '''
    if isinstance(net, torch.nn.Module):
        net.eval()      # 将模型设置为评估模式
    metric = Accumulator(2)
    for X, y in data_iter:
        metric.add(accuracy(net(X), y), y.numel())
    return metric[0] / metric[1]

print(evaluate_accuracy(net, test_iter))
# 使用随机初始化的net预测十分类测试，正确率刚好在10%左右
# 0.1349

# 定义训练时的辅助动画
from IPython import display
class Animator():  #@save
    """在动画中绘制数据"""
    def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
                 ylim=None, xscale='linear', yscale='linear',
                 fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
                 figsize=(3.5, 2.5)):
        # 增量地绘制多条线
        if legend is None:
            legend = []
        d2l.use_svg_display()
        self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
        if nrows * ncols == 1:
            self.axes = [self.axes, ]
        # 使用lambda函数捕获参数
        self.config_axes = lambda: d2l.set_axes(
            self.axes[0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
        self.X, self.Y, self.fmts = None, None, fmts

    def add(self, x, y):
        # 向图表中添加多个数据点
        if not hasattr(y, "__len__"):
            y = [y]
        n = len(y)
        if not hasattr(x, "__len__"):
            x = [x] * n
        if not self.X:
            self.X = [[] for _ in range(n)]
        if not self.Y:
            self.Y = [[] for _ in range(n)]
        for i, (a, b) in enumerate(zip(x, y)):
            if a is not None and b is not None:
                self.X[i].append(a)
                self.Y[i].append(b)
        self.axes[0].cla()
        for x, y, fmt in zip(self.X, self.Y, self.fmts):
            self.axes[0].plot(x, y, fmt)
        self.config_axes()
        display.display(self.fig)
        d2l.plt.draw()
        d2l.plt.pause(0.001)
        display.clear_output(wait=True)


# 训练 -------------------------------------------------
# 定义每批次训练函数
def train_epoch_ch3(net, train_iter, loss, updater):
    # 判断是不是pytorch的model，如果是，就打开训练模式，pytorch的训练模式默认开启梯度更新
    if isinstance(net, torch.nn.Module):
        net.train()
    # 创建样本累加器【累加每批次的损失值、样本预测正确的个数、样本总数】
    metric = Accumulator(3)
    for X, y in train_iter:
        # 前向传播获得预测结果
        y_hat = net(X)
        # 计算损失值
        l = loss(y_hat, y)
        # 判断是pytorch自带的方法还是我们手写的方法【根据不同的方法有不同的处理方式】
        if isinstance(updater, torch.optim.Optimizer):
            # 梯度清零
            updater.zero_grad()
            # 损失值求和，反向传播【pytorch自动进行了损失值求和】
            l.backward()
            # 更新梯度
            updater.step()
            # 累加各参数
            metric.add(
                float(l)*len(y),        # 损失值总数
                accuracy(y_hat, y),     # 样本预测正确的总数
                y.size().numel()        # 样本总数
            )
        else:
            # 损失值求和，反向传播
            l.sum().backward()
            # 梯度更新
            updater(X.shape[0])
            # 累加各参数
            metric.add(float(l.sum()), accuracy(y_hat, y), y.size().numel())
    # 返回 平均损失值 和 预测正确的概率
    # print("metric[0]: {}".format(metric[0]))
    # print("metric[1]: {}".format(metric[1]))
    # print("metric[2]: {}".format(metric[2]))
    return metric[0]/metric[2], metric[1]/metric[2]

# 定义训练方法
def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):
    """训练模型 """
    # 初始化训练动画
    animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],
                        legend=['train loss', 'train acc', 'test acc'])
    # 训练 num_epochs 代
    for epoch in range(num_epochs):
        # 调用训练方法
        # 返回  平均损失值 和 预测正确的概率
        train_metrics = train_epoch_ch3(net, train_iter, loss, updater)
        # 测试集上的准确率
        test_acc = evaluate_accuracy(net, test_iter)
        # 绘制【训练代数，平均损失值、前向传播时的预测正确率、测试集预测正确率】
        animator.add(epoch + 1, train_metrics + (test_acc,))
    # train_loss, train_acc = train_metrics
    # assert train_loss < 0.5, train_loss
    # assert train_acc <= 1 and train_acc > 0.7, train_acc
    # assert test_acc <= 1 and test_acc > 0.7, test_acc

# 开始训练
num_epochs = 10
train_ch3(net, train_iter, test_iter, loss, num_epochs, updater)

什么都干的派森

关注

8
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
4
评论
pytorch softmax回归【从零实现+简洁实现】

文章目录一、前言二、实现1.加载并测试数据集2.从零实现2.简洁实现一、前言实现步骤构造数据集迭代器初始化超参数定义 softmax 操作定义损失函数【交叉熵】定义优化算法SGD实现模型定义评估准确率的方法及训练时的辅助动画训练...............
复制链接

扫一扫