《动手学深度学习》-小白笔记一

最新推荐文章于 2024-05-05 15:28:37 发布

蜀笑笑

最新推荐文章于 2024-05-05 15:28:37 发布

阅读量269

点赞数 1

文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/zxs_and_xj/article/details/104287799

版权

小白知识点

损失函数中的解分为两类：

解析解：误差最小化问题的解可以直接用公式表达出来
数值解：通过优化算法有限次迭代模型参数来尽可能降低损失函数的值

优化函数的两个步骤：

初始化模型参数，一般来说使用随机初始化。
我们在数据上迭代多次，通过在负梯度方向移动参数来更新每个参数.

两个向量相加的两种方法：

向量相加的一种方法是，将这两个向量按元素逐一做标量加法。

timer = Timer()
c = torch.zeros(n)
for i in range(n):
    c[i] = a[i] + b[i]
'%.5f sec' % timer.stop()

向量相加的另一种方法是，将这两个向量直接做矢量加法。
```
timer.start()
d = a + b
'%.5f sec' % timer.stop()
 
```
后者比前者运算速度更快。因此，我们应该尽可能采用矢量计算

softmax与线性回归的区别与联系：

softmax处理离散问题，线性回归处理连续问题，所以softmax主要处理分类问题。
softmax与线性回归的输入差不多，但是它的输出个数是标签的类别数。输出值表示该类别的预测概率。
softmax回归同线性回归一样，也是一个单层神经网络。由于每个输出o1,o2,o3的计算都要依赖于所有的输入x1,x2,x3,x4，softmax回归的输出层也是一个全连接层。

分类问题直接使用输出层的输出会产生两个问题：

输出层的输出值的范围不确定，我们难以直观上判断这些值的意义
真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。
softmax运算符解决了以上两个问题。它利用下式将输出值变换成值为正且和为1的概率分布

多层感知机神经网络为什么要引入非线性变换？

我们先来看一种含单隐藏层的多层感知机的设计。
其输出O的计算为在这里插入图片描述

也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来可以得到在这里插入图片描述

从联立后的式子可以看出，虽然神经网络引入了隐藏层，却依然等价于一个单层神经网络：其中输出层权重参数为WhWo，偏差参数为bhWo+bo。不难发现，即便再添加更多的隐藏层，以上设计依然只能与仅含输出层的单层神经网络等价。

几类激活函数

ReLU函数

ReLU（rectified linear unit）函数提供了一个很简单的非线性变换。给定元素xx，该函数定义为

可以看出，ReLU函数只保留正数元素，并将负数元素清零。
Sigmoid函数

sigmoid函数可以将元素的值变换到0和1之间：
tanh函数

tanh（双曲正切）函数可以将元素的值变换到-1和1之间：

利用pytorch生成多层网络的三种方法：

ways to init a multilayer network
# method one
net = nn.Sequential(
    nn.Linear(num_inputs, 1)
    # other layers can be added here
    )

# method two
net = nn.Sequential()
net.add_module('linear', nn.Linear(num_inputs, 1))
# net.add_module ......

# method three
from collections import OrderedDict
net = nn.Sequential(OrderedDict([
          ('linear', nn.Linear(num_inputs, 1))
          # ......
        ]))

摘抄

最后上一个摘抄了其他同学写的一个关于pytorch内部函数的小笔记：

torch.ones()/torch.zeros()，与MATLAB的ones/zeros很接近。初始化生成均匀分布
torch.rand(*sizes, out=None) → Tensor
返回一个张量，包含了从区间[0,1)的均匀分布中抽取的一组随机数。张量的形状由参数sizes定义。
标准正态分布torch.randn(*sizes, out=None) →Tensor
返回一个张量，包含了从标准正态分布（均值为0，方差为1，即高斯白噪声）中抽取的一组随机数。张量的形状由参数sizes定义。
torch.mul(a, b)是矩阵a和b对应位相乘，a和b的维度必须相等，比如a的维度是(1, 2)，b的维度是(1,2)，返回的仍是(1, 2)的矩阵
torch.mm(a, b)是矩阵a和b矩阵相乘，比如a的维度是(1, 2)，b的维度是(2, 3)，返回的就是(1, 3)的矩阵
torch.Tensor是一种包含单一数据类型元素的多维矩阵，定义了7种CPU tensor和8种GPU tensor类型。
random.shuffle(a)：用于将一个列表中的元素打乱。shuffle() 是不能直接访问的，需要导入 random模块，然后通过random 静态对象调用该方法。
backward()是pytorch中提供的函数，配套有require_grad。所有的tensor都有.requires_grad这个属性,可以设置这个属性。 x=tensor.ones(2,4,requires_grad=True)
如果想改变这个属性，就调用tensor.requires_grad_()方法： x.requires_grad_(False)

存疑

广播机制？
view()？
sys?
num_work？

等我搞清楚了回来更新，哈哈哈。

蜀笑笑

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《动手学深度学习》-小白笔记一

线性回归损失函数中的解分为两类：解析解：误差最小化问题的解可以直接用公式表达出来数值解：通过优化算法有限次迭代模型参数来尽可能降低损失函数的值优化函数的两个步骤：初始化模型参数，一般来说使用随机初始化。我们在数据上迭代多次，通过在负梯度方向移动参数来更新每个参数。...
复制链接

扫一扫