吴恩达深度学习deeplearning.ai学习笔记（一）2.11 2.12 2.13 2.15 2.16 2.17

fanfan401

已于 2024-08-03 23:05:45 修改

阅读量891

点赞数 8

文章标签：人工智能深度学习学习

于 2024-08-01 17:30:44 首次发布

本文链接：https://blog.csdn.net/weixin_66188523/article/details/140847134

版权

2.11 向量化

什么是向量化？通过两个例子说明：

例1：计算 $z=w^Tx+b,w\in \mathbb{R}^{n_x},x\in \mathbb{R}^{n_x}$

$Non-Vectorized:$

$z=0$

$for\ i\ in\ range(n_x):$

$z+=w[i]\ast x[i]$

$z+=b$

$Vectorized:$

$z=np.dot(w,x)+b$

注意： $np.dot$ 指令对两个一维数组而言，求的是它们的内积；

例2：举一个例子说明向量化使计算速度提升

$import\ numpy\ as\ np$

$a=np.array([1,2,3,4])$

$print(a)$

#按下Shift和enter可执行上述代码，屏幕显示[1,2,3,4]；

$import\ time$

$a=np.random.rand(1000000)$

$b=np.random.rand(1000000)$

$tic=time.time()$

$c=np.dot(a,b)$

$toc=time.time()$

$print(\text{"}Vectorized\ version:\text{"}+str(1000\times (toc-tic))+\text{"}ms\text{"})$

#生成两个百万维度的数组，直接计算内积，耗时约1.5ms；

$c=0$

$tic=time.time()$

$for\ i\ in\ range(1000000):$

$c+=a[i]\ast b[i]$

$toc=time.time()$

$print(\text{"}For\ loop:\text{"}+str(1000\times (toc-tic))+\text{"}ms\text{"})$

#结果for loop 耗时约450ms，用了接近300倍的时间。

2.12 向量化的更多例子

例3： $A$ 是一个 $m\times n$ 矩阵， $v$ 是一个 $n\times 1$ 向量，试求 $u=Av$

$Non-Vectorized:$

$u=np.zeros((m,1))$

$for\ i=1\ to\ m:$

$for\ j=1\ to\ n:$

$u[i]+=A[i][j]\ast v[j]$

$Vectorized:$

$u=np.dot(A, v)$

注意 $np.dot$ 指令对两矩阵而言求的是矩阵乘法；

例4：假设内存中已有一个向量 $v=\begin{bmatrix} v_1\\ v_2\\ \cdots\\ v_n \end{bmatrix}$ ，求 $u=\begin{bmatrix} e^{v_1}\\ e^{v_2}\\ \cdots\\ e^{v_n} \end{bmatrix}$

$Non-Vectorized:$

$u=np.zeros((n,1))$

$for\ i\ in\ range(n):$

$u[i]=math.exp(v[i])$

$Vectorized:$

$import\ numpy\ as\ np$

$u=np.exp(v)$

例5：修改版本2的程序

对于（1）处，由于可以令 $dw=\begin{bmatrix} dw_1\\ dw_2\\ \cdots\\ dw_{n_x} \end{bmatrix}$ ，因此直接让 $dw$ 初始化为0矩阵，就相当于初始化了 $dw_1=0;dw_2=0;\cdots;dw_{n_x}=0$ ，即：

$dw=np.zeros((n_x,1))$

（2）处则是要实现 $dw_1+=x_1^{(i)}dz^{(i)};dw_2+=x_2^{(i)}dz^{(i)};\cdots;dw_{n_x}+=x_{n_x}^{(1)}dz^{(i)}$ 这 $n_x$ 个式子，现在已经定义了 $dw$ ，于是：

$dw+=x^{(i)}dz^{(i)}$

这一个式子就等效代替了上面 $n_x$ 个式子，因为：

$dw=\begin{bmatrix} dw_1\\ dw_2\\ \cdots\\ dw_{n_x} \end{bmatrix}+=\begin{bmatrix} x_1^{(i)}dz^{(i)}\\ x_2^{(i)}dz^{(i)}\\ \cdots\\ x_{n_x}^{(i)}dz^{(i)} \end{bmatrix}=\begin{bmatrix} x_1^{(i)}\\ x_2^{(i)}\\ \cdots\\ x_{n_x}^{(i)} \end{bmatrix}dz^{(i)}=x^{(i)}dz^{(i)}$

（3）处直接改为 $dw/=m$ ；

（4）处直接改为 $w:=w-\alpha dw$

版本3：

$dw=np.zeros((n_x,1));db=0$

$For\ i=1\ to\ m:$

$z^{(i)}=w^Tx^{(i)}+b\rightarrow (1)$

$a^{(i)}=\sigma(z^{(i)})\rightarrow (2)$

$dz^{(i)}=a^{(i)}-y^{(i)}\rightarrow (3)$

$dw+=x^{(i)}dz^{(i)}\rightarrow (4)$

$db+=dz^{(i)}\rightarrow (5)$

$dw/=m;db/=m$

$w:=w-\alpha dw$

$b:=b-\alpha db$

2.13 向量化logistic回归

版本3的（1）处要做 $z^{(1)}=w^Tx^{(1)}+b;z^{(2)}=w^Tx^{(2)}+b;\cdots;z^{(m)}=w^Tx^{(m)}+b$ 共 $m$ 次操作，因此先定义：

$Z=\begin{bmatrix} z^{(1)} &z^{(2)} &\cdots & z^{(m)} \end{bmatrix}$

$X=\begin{bmatrix} x^{(1)} &x^{(2)} &\cdots & x^{(m)} \end{bmatrix}$

（1）处的这m次操作可以由一行代码代替：

$Z=np.dot(w.T,X)+b$

原因如下：

首先： $w^TX=w^T\begin{bmatrix} x^{(1)} &x^{(2)} &\cdots & x^{(m)} \end{bmatrix}$

$\because w^T$ 是一个 $n_x$ 维行向量， $x^{(1)},x^{(2)} ,\cdots , x^{(m)}$ 都是 $n_x$ 维列向量，由矩阵乘法可知 $w^T$ 和任何一个 $x^{(i)},i=1,2,\cdots,m$ 相乘都将是一个数，且 $w^TX$ 矩阵相乘出来是一个 $1\times m$ 的矩阵

$\therefore w^TX=\begin{bmatrix} w^Tx^{(1)} &w^Tx^{(2)} &\cdots & w^Tx^{(m)} \end{bmatrix}$

更加详细、严谨的证明是：

$w^TX=\begin{bmatrix} w_1 &w_2 &\cdots & w_{n_x} \end{bmatrix}\begin{bmatrix} x_1^{(1)} & x_1^{(2)} & \cdots & x_1^{(m)}\\ x_2^{(1)}& x_2^{(2)} & \cdots & x_2^{(m)}\\ \vdots & \vdots & & \vdots\\ x_{n_x}^{(1)}&x_{n_x}^{(2)} & \cdots & x_{n_x}^{(m)} \end{bmatrix}$

$=\begin{bmatrix} w_1x_1^{(1)}+w_2x_2^{(1)}+\cdots+w_{n_x}x_{n_x}^{(1)} &\cdots & w_1x_1^{(m)}+w_2x_2^{(m)}+\cdots+w_{n_x}x_{n_x}^{(m)} \end{bmatrix}$

$w^Tx^{(1)}=\begin{bmatrix} w_1 &w_2 &\cdots & w_{n_x} \end{bmatrix}\begin{bmatrix} x_1^{(1)}\\ x_2^{(1)}\\ \vdots\\ x_{n_x}^{(1)} \end{bmatrix}=w_1x_1^{(1)}+w_2x_2^{(1)}+\cdots+w_{n_x}x_{n_x}^{(1)}$

$\cdots$

$w^Tx^{(m)}=\begin{bmatrix} w_1 &w_2 &\cdots & w_{n_x} \end{bmatrix}\begin{bmatrix} x_1^{(m)}\\ x_2^{(m)}\\ \vdots\\ x_{n_x}^{(m)} \end{bmatrix}=w_1x_1^{(m)}+\cdots+w_{n_x}x_{n_x}^{(m)}$

$\therefore w^TX=\begin{bmatrix} w^Tx^{(1)} &w^Tx^{(2)} &\cdots & w^Tx^{(m)} \end{bmatrix}$

其次：

$w^TX+b$ 在Python中会通过广播自动地将实数 $b$ 扩展为 $1\times m$ 矩阵 $\begin{bmatrix} b & \cdots & b \end{bmatrix}$ ，即：

$w^TX+b=\begin{bmatrix} w^Tx^{(1)}+b &w^Tx^{(2)}+b &\cdots & w^Tx^{(m)} +b\end{bmatrix}$

最后：

$Z=\begin{bmatrix} z^{(1)} &z^{(2)} &\cdots & z^{(m)} \end{bmatrix}=\begin{bmatrix} w^Tx^{(1)}+b &w^Tx^{(2)}+b &\cdots & w^Tx^{(m)} +b\end{bmatrix}\\=w^TX+b$

就相当于完成了所需的 $m$ 次操作；

$w^TX$ 编程时，用 $w.T$ 表示 $w$ 转置后的矩阵，用 $np.dot(w.T,X)$ 表示两矩阵相乘；

（2）处定义 $A=\begin{bmatrix} a^{(1)} &a^{(2)} &\cdots & a^{(m)} \end{bmatrix}$ ，即可用一行式子代替：

$A=\sigma(Z)$

因为：

$A=\begin{bmatrix} a^{(1)} &a^{(2)} &\cdots & a^{(m)} \end{bmatrix}=\begin{bmatrix} \sigma(z^{(1)}) &\sigma(z^{(2)}) &\cdots & \sigma(z^{(m)}) \end{bmatrix}\\=\sigma(\begin{bmatrix} z^{(1)} &z^{(2)} &\cdots & z^{(m)} \end{bmatrix})=\sigma(Z)$

（3）处要做 $dz^{(1)}=a^{(1)}-y^{(1)};dz^{(2)}=a^{(2)}-y^{(2)};\cdots;dz^{(m)}=a^{(m)}-y^{(m)}$ 共 $m$ 次操作，定义矩阵：

$dZ=\begin{bmatrix} dz^{(1)} &dz^{(2)} &\cdots & dz^{(m)} \end{bmatrix}$

$Y=\begin{bmatrix} y^{(1)} &y^{(2)} &\cdots & y^{(m)} \end{bmatrix}$

于是用一行代码就可以代替上面 $m$ 次操作：

$dZ=A-Y$

因为：

$dZ=\begin{bmatrix} dz^{(1)} &dz^{(2)} &\cdots & dz^{(m)} \end{bmatrix}\\=\begin{bmatrix} a^{(1)}-y^{(1)} & a^{(2)}-y^{(2)} & \cdots & a^{(m)}-y^{(m)} \end{bmatrix}\\ =\begin{bmatrix} a^{(1)} &a^{(2)} &\cdots & a^{(m)} \end{bmatrix}-\begin{bmatrix} y^{(1)} &y^{(2)} &\cdots & y^{(m)} \end{bmatrix}=A-Y$

（4）处要做 $dw+=x^{(1)}dz^{(1)};dw+=x^{(2)}dz^{(2)};\cdots;dw+=x^{(m)}dz^{(m)}$ 共m次相加操作，且考虑后面要进行 $dw/=m$ ，可用一行式子代替：

$dw=\frac{1}{m}XdZ^T$

因为：

$dw=x^{(1)}dz^{(1)}+x^{(2)}dz^{(2)}+\cdots+x^{(m)}dz^{(m)}$

并且 $dz^{(1)},dz^{(2)},\cdots,dz^{(m)}$ 都是数；

$\because x^{(1)}dz^{(1)}=\begin{bmatrix} x_1^{(1)}\\ x_2^{(1)}\\ \vdots\\ x_{n_x}^{(1)} \end{bmatrix}dz^{(1)}=\begin{bmatrix} x_1^{(1)}dz^{(1)}\\ x_2^{(1)}dz^{(1)}\\ \vdots\\ x_{n_x}^{(1)}dz^{(1)} \end{bmatrix}$

$\cdots$

$x^{(m)}dz^{(m)}=\begin{bmatrix} x_1^{(m)}dz^{(m)}\\ x_2^{(m)}dz^{(m)}\\ \vdots\\ x_{n_x}^{(m)}dz^{(m)} \end{bmatrix}$

$\therefore dw=\begin{bmatrix} x_1^{(1)}dz^{(1)}+x_1^{(2)}dz^{(2)}+\cdots+x_1^{(m)}dz^{(m)}\\ x_2^{(1)}dz^{(1)}+x_2^{(2)}dz^{(2)}+\cdots+x_2^{(m)}dz^{(m)}\\ \vdots \\ x_{n_x}^{(1)}dz^{(1)}+x_{n_x}^{(2)}dz^{(2)}+\cdots+x_{n_x}^{(m)}dz^{(m)} \end{bmatrix}$

$\because XdZ^T=\begin{bmatrix} x_1^{(1)} & x_1^{(2)} & \cdots & x_1^{(m)}\\ x_2^{(1)}& x_2^{(2)} & \cdots & x_2^{(m)}\\ \vdots & \vdots & & \vdots\\ x_{n_x}^{(1)}&x_{n_x}^{(2)} & \cdots & x_{n_x}^{(m)} \end{bmatrix}\begin{bmatrix} dz^{(1)}\\ dz^{(2)}\\ \vdots\\ dz^{(m)} \end{bmatrix}\\=\begin{bmatrix} x_1^{(1)}dz^{(1)}+x_1^{(2)}dz^{(2)}+\cdots+x_1^{(m)}dz^{(m)}\\ x_2^{(1)}dz^{(1)}+x_2^{(2)}dz^{(2)}+\cdots+x_2^{(m)}dz^{(m)}\\ \vdots \\ x_{n_x}^{(1)}dz^{(1)}+x_{n_x}^{(2)}dz^{(2)}+\cdots+x_{n_x}^{(m)}dz^{(m)} \end{bmatrix}$

$\therefore dw=XdZ^T$

最后结合上 $dw/=m$ 就变为 $dw=\frac{1}{m}XdZ^T$ 。

（5）处要做 $db+=dz^{(1)},db+=dz^{(2)},\cdots,db+=dz^{(m)}$ 共m次相加，即：

$db=dz^{(1)}+dz^{(2)}+\cdots+dz^{(m)}=\sum_{i=1}^{m}dz^{(i)}$

实际上，对于矩阵 $dZ=\begin{bmatrix} dz^{(1)} &dz^{(2)} &\cdots & dz^{(m)} \end{bmatrix}$ 而言，使用元素求和指令 $np.sum(dZ)$ 就可以实现对这 $m$ 个数求和，结合 $db/=m$ ，用一行代码就可以替代：

$db=\frac{1}{m}np.sum(dZ)$

版本4：（一次梯度下降的最终版本）

$dW=np.zeros((n_x,1));db=0$

$Z=np.dot(w.T,X)+b$

$A=\sigma(Z)$

$dZ=A-Y$

$dw=\frac{1}{m}XdZ^T$

$db=\frac{1}{m}np.sum(dZ)$

$w:=w-\alpha dw$

$b:=b-\alpha db$

这仅仅完成了一次梯度下降，要实现多次梯度下降应该在最外层加上一个不可省略的for loop来进行一定次数的梯度下降：

$for\ inter\ in\ range(1000)$

$\cdots$

就是执行1000次这样的梯度下降。

2.15 Python中的广播

Python对两个矩阵（也可以是实数）做加减乘除时，遇到尺寸不一样的情况，会自动成行成列copy形成一样尺寸的矩阵，然后再逐元素进行加减乘除。

$\begin{bmatrix} 1\\ 2\\ 3\\ 4 \end{bmatrix}+100=\begin{bmatrix} 1\\ 2\\ 3\\ 4 \end{bmatrix}+\begin{bmatrix} 100\\ 100\\ 100\\ 100\end{bmatrix}$

$\begin{bmatrix} 1 &2 & 3 & 4 \end{bmatrix}+100=\begin{bmatrix} 1 &2 & 3 & 4 \end{bmatrix}+\begin{bmatrix} 100 &100 & 100 & 100 \end{bmatrix}$

$\begin{bmatrix} 1 & 2 & 3\\ 4 & 5& 6 \end{bmatrix}+\begin{bmatrix} 100 &200 &300 \end{bmatrix}=\begin{bmatrix} 1 & 2 & 3\\ 4 & 5& 6 \end{bmatrix}+\begin{bmatrix} 100 & 200 & 300\\ 100 & 200 & 300 \end{bmatrix}$

$\begin{bmatrix} 1 & 2 & 3\\ 4 & 5& 6 \end{bmatrix}+\begin{bmatrix} 100\\ 200\end{bmatrix}=\begin{bmatrix} 1 & 2 & 3\\ 4 & 5& 6 \end{bmatrix}+\begin{bmatrix} 100 & 100& 100\\ 200& 200 & 200\end{bmatrix}$

2.16 关于Python_numpy向量的说明

不要使用 $a=np.random.randn(5)$ 去生成一个向量，因为当你用 $a.shape$ 查看它时会发现：

$a.shape=(5,)$

这就是说它是一个秩为1的数组，既不是行向量，也不是列向量，无法准确地对它进行转置、求外积、求内积……

应该使用以下两种：

用 $a=np.random.randn(5,1)$ 生成一个5维的列向量；

用 $a=np.random.randn(1,5)$ 生成一个5维的行向量；

如果不确定一个向量的维度，可以用assert函数，运行很快，多用就好：

$assert(a.shape==(5,1))$

它会计算表达式，如果其值为假（即0），那么它会先向stderr打印出一条出错信息，然后调用abort来终止程序的运行；

如果不可避免地得到一个数组，可以用 $a=a.reshape((5,1))$ 来把它转为5维列向量，行向量的转法也是类似的。

2.17 logistic损失函数的解释

对于损失函数如何解释？

$\because \hat{y}=P\{y=1|x\}$

$1-\hat{y}=P\{y=0|x\}$

$If\ y=1:P\{y|x\}=\hat{y}$

$If\ y=0:P\{y|x\}=1-\hat{y}$

$\therefore P\{y|x\}=\hat{y}^y \cdot(1-\hat{y})^{(1-y)}$

$\therefore lnP\{y|x\}=yln\hat{y}+(1-y)ln(1-\hat{y})$

希望 $P\{y|x\}$ 尽量大且能最小化 $L(\hat{y},y)$ ，故定义：

$L(\hat{y},y)=-lnP\{y|x\}=-[yln\hat{y}+(1-y)ln(1-\hat{y})]$

而对于成本函数如何解释？

$\because P(labels\ in\ training\ set)= ^{iid}=\prod_{i=1}^{m}P\{y^{(i)}|x^{(i)}\}$

$\therefore lnP(labels\ in\ training\ set)= \sum_{i=1}^{m}P\{y^{(i)}|x^{(i)}\}\\=-\sum_{i=1}^{m}L(\hat{y}^{(i)},y^{(i)})$

要使 $P(labels\ in\ training\ set)$ 最大且能最小化 $J(w,b)$ ，故定义：

$J(w,b)=-\frac{1}{m}lnP(labels\ in\ training\ set)=\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)},y^{(i)})$

fanfan401

关注

8
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

吴恩达深度学习deeplearning.ai学习笔记（一）2.11 2.12 2.13 2.15 2.16 2.17

2.11 向量化

例1：计算

例2：举一个例子说明向量化使计算速度提升

2.12 向量化的更多例子

例3：是一个矩阵，是一个向量，试求

例4：假设内存中已有一个向量，求

例5：修改版本2的程序

版本3：

2.13 向量化logistic回归

（1）处的这m次操作可以由一行代码代替：

原因如下：

首先：

其次：

最后：

（2）处定义，即可用一行式子代替：

因为：

（3）处要做共次操作，定义矩阵：

因为：

（4）处要做共m次相加操作，且考虑后面要进行，可用一行式子代替：

因为：

（5）处要做共m次相加，即：

版本4：（一次梯度下降的最终版本）

2.15 Python中的广播

2.16 关于Python_numpy向量的说明

2.17 logistic损失函数的解释

对于损失函数如何解释？

而对于成本函数如何解释？

例1：计算 $z=w^Tx+b,w\in \mathbb{R}^{n_x},x\in \mathbb{R}^{n_x}$

例3： $A$ 是一个 $m\times n$ 矩阵， $v$ 是一个 $n\times 1$ 向量，试求 $u=Av$

例4：假设内存中已有一个向量 $v=\begin{bmatrix} v_1\\ v_2\\ \cdots\\ v_n \end{bmatrix}$ ，求 $u=\begin{bmatrix} e^{v_1}\\ e^{v_2}\\ \cdots\\ e^{v_n} \end{bmatrix}$

首先： $w^TX=w^T\begin{bmatrix} x^{(1)} &x^{(2)} &\cdots & x^{(m)} \end{bmatrix}$

（2）处定义 $A=\begin{bmatrix} a^{(1)} &a^{(2)} &\cdots & a^{(m)} \end{bmatrix}$ ，即可用一行式子代替：

（3）处要做 $dz^{(1)}=a^{(1)}-y^{(1)};dz^{(2)}=a^{(2)}-y^{(2)};\cdots;dz^{(m)}=a^{(m)}-y^{(m)}$ 共 $m$ 次操作，定义矩阵：

（4）处要做 $dw+=x^{(1)}dz^{(1)};dw+=x^{(2)}dz^{(2)};\cdots;dw+=x^{(m)}dz^{(m)}$ 共m次相加操作，且考虑后面要进行 $dw/=m$ ，可用一行式子代替：

（5）处要做 $db+=dz^{(1)},db+=dz^{(2)},\cdots,db+=dz^{(m)}$ 共m次相加，即：