神经网络基础

cxf的笔记

已于 2022-08-02 20:38:51 修改

阅读量1.4k

点赞数 2

分类专栏：深度学习基础知识文章标签： python 机器学习深度学习

于 2022-02-04 10:28:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54144634/article/details/122781472

版权

深度学习基础知识专栏收录该内容

8 篇文章 0 订阅

订阅专栏

课程：吴恩达深度学习

神经网络基础（p1-p47）

二元分类
- 一些规定：
  - 训练集矩阵X：有nx行，m列，nx为输入数据维度，m为输入数据个数¹
- 逻辑回归：用于二元分类的算法
  - 逻辑回归参数：w，b
  - 一种对预测值的猜想 $\hat{y} = w^{T}x+b$ ，这是一个对输入x的线性函数，但对二元分类并不是很好，y是0或1，我们想让 $\hat{y}$ 也在0~1之间。所以将上述的 $\hat{y}$ 式子作为自变量放入sigmoid函数中： $\sigma(z) = \frac{1}{1+e^{-z}}$
  - Logistic 回归损失函数 $L(\hat{y},y)$ :一般用预测值和实际值的平方差或者它们平方差的一半，但是通常在学习逻辑回归参数的时候，会发现优化目标不是凸优化，只能找到多个局部最优值，梯度下降法很可能找不到全局最优值.
    在逻辑回归模型中定义另外一个损失函数: ²
    $L(\hat{y},y) = -ylog(\hat{y})-(1-y)log(1-\hat{y})$
  - 上述损失函数理解：
    - $y=1,L=-log(\hat{y})$ , $L$ 欲小则 $\hat{y}$ 欲大，一直趋近于1。
    - $y=0,L=-log(1-\hat{y})$ , $L$ 欲小则 $\hat{y}$ 欲小，一直趋近于0。
  - 衡量算法在全部训练样本上的表现如何，定义算法的代价函数：对m个样本的损失函数求和然后除以m
    $J(\omega,b) = \frac{1}{m} \sum_{i=1}^{m} L(\hat{y}^{(i)},y^{(i)}) = \frac{1}{m} \sum_{i=1}^{m}( -y^{(i)} log(\hat{y}^{(i)})-(1-y^{(i)}) log(1-\hat{y}^{(i)}) )$

梯度下降：
- $\omega := \omega - \alpha \frac{\partial J(\omega)}{\partial \omega}$
- $\alpha$ 表示学习率用以控制步长

向量化与numpy：
- z = np.dot(w.T,x)+b
- 维度不同的向量不能直接相乘, 维度相同则计算结果为对应数字相乘，但同时要注意numpy的广播机制：(m,n)对(1,n)或(m,1)进行四则运算，(1,n)或(m,1)会自动补全。
- 尽量避免使用明确的for循环
- A.sum(axis = 0, keepdims = True)中的axis用来指明将要进行的运算是沿着哪个轴执行，在numpy中，0轴是垂直的(某列所有数相加)，而1轴是水平的(行相加), keepdims表示保持矩阵的二维特性。
- numpy构造向量良好的规定：
```
a = np.random.randn(5)  # a的shape是一个 ( 5 , )的结构:一维数组。既不是一个行向量也不是一个列向量,如果输出一个转置阵，最终结果它会和a看起来一样
a = np.random.randn(5,1)    #这是5行1列向量 

# 不完全确定一个向量的维度(dimension)时使用断言语句(assertion statement)
assert(a.shape == (5,1))
```

进一步理解Logistic损失函数：
- 算法的输出 $\hat{y}$ 是给定训练样本x条件下y等于1的概率:
  if $\hat{y}$
  if $\hat{y}$
  $\hat{y}^{y}(1-\hat{y})^{1-y}$
- 最大化 $l o g (p (y ∣ x))$ 等价于最大化 $p (y ∣ x)$ ，对数化简有： $ylog\hat{y}+(1-y)log(1-\hat{y})$
- 这就是我们前面提到的损失函数的负数,前面有一个负号的原因是当你训练学习算法时需要算法输出值的概率是最大的（以最大的概率预测这个值），然而在逻辑回归中我们需要最小化损失函数。
- 对m个训练样本的训练集:
  - 所有样本联合概率： $\prod_{i = 1}^{m} P(y^{(i)}|x^{(i)})$
  - 进行最大似然估计：上述等式两边取对数得到 $-\sum_{i=1}^{m}L(\hat{y}^{(i)}, y^{(i)})$
  - 训练模型时，目标让成本函数最小化，所以去掉最大似然概率的负号，最后为方便对成本函数进行适当的缩放:加一个额外的常数因子 $\frac{1}{m}$

激活函数：
- $\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$
  - 在隐藏层上使用tanh效果优于sigmoid，其均值更接近0，使下一层学习简单些
- 二分类问题输出层使用sigmoid
- sigmoid和tanh共同缺点：在z特别大或者特别小的情况，导数的梯度会变得特别小接近于0，降低梯度下降的速度。
- $R e LU ： a = ma x (0, z)$
- $L e ak y R e LU : a = ma x (0.01 z, z)$

随机初始化：
注意random.randn操作后乘以个小的数(比如0.01)

python中X.shape用以显示矩阵规模。 ↩︎
python中,以10为底:np.log10(x); 以e为底:np.log(x)。 ↩︎

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
神经网络基础

课程：吴恩达深度学习神经网络基础（p1-p47）标题二元分类一些规定：训练集矩阵X：有nx行，m列，nx为输入数据维度，m为输入数据个数1逻辑回归：用于二元分类的算法逻辑回归参数：w，b一种对预测值的猜想y^=wTx+b\hat{y} = w^{T}x+by^=wTx+b，这是一个对输入x的线性函数，但对二元分类并不是很好，y是0或1，我们想让y^\hat{y}y^也在0~1之间。所以将上述的y^\hat{y}y^式子作为自变量放入sigmoid函数中：σ(z)=1
复制链接

扫一扫

专栏目录

cxf的笔记 CSDN认证博客专家 CSDN认证企业博客

码龄4年

30: 原创

4万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

408: 积分

1028: 粉丝

75: 获赞

11: 评论

84: 收藏

私信

关注

热门文章

分类专栏

最新评论

随机森林搜索，Z order curve，3D高斯，KAN，mamba，蒸馏网络，小波变换
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
python import 解决由于目录结构问题导致的ModuleNotFoundError
cxf的笔记: 方便给个完整的报错截图吗
python import 解决由于目录结构问题导致的ModuleNotFoundError
neveah1314: 我是在STCFormer跑demo的时候报错：KeyError:'pose_emb.weight'，这个应该怎么解决啊
耶鲁大学博弈论笔记(二)
CSDN-Ada助手: 恭喜你写完了第19篇博客！你的耶鲁大学博弈论系列文章真是令人期待。通过这些笔记，我感受到了你对博弈论的深入理解和对学术的热情。在下一步的创作中，我希望你能继续深入探讨博弈论的实际应用和案例分析，这将为读者提供更多有趣的内容。期待你的下一篇博客！
3D Human Pose Estimation with Spatial and Temporal Transformers
CSDN-Ada助手: 恭喜您撰写第18篇博客！标题“3D Human Pose Estimation with Spatial and Temporal Transformers”引人入胜。您对3D人体姿势估计的空间和时间变换器的研究令人印象深刻。不仅仅是标题吸引人，内容也一定充满了实用的洞见和深入的研究。在这个领域里，您的文章无疑为我们提供了宝贵的知识和启发。希望您能继续保持创作的热情，并继续分享您的研究成果。我期待着您下一步的创作，也希望您能继续以谦虚的态度面对自己的成功。

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。