NNDL作业2:第三章课后题

习题3-2:在线性空间中,证明一个点x到平面f(x,w)=w^{T}x+b=0的距离为|f(x;w)|/||w||.

对于任一点x_{0}=(x_{1}^{0},x_{2}^{0},....,x_{n}^{0})^{T},设其在超平面w^{T}+b=0上的投影点为x1,则w^{T}x_{1}+b=0,且向量\vec{x_{1}x_{0}}与超平面的法向量平行

\left | w*\vec{x_{1}x_{0}} \right |=|||w||*cos\pi ||\vec{x_{1}x_{0}}|||=|||w||*||x_{1}x_{0}|||

||x_{1}x_{0}||正是要求的,将其记为 r,则上式变为

\left | w*\vec{x_{1}x_{0}} \right |=||w||*||\vec{x_{1}x_{0}}||=||w||*r

我们可以利用向量的方式求w*\vec{x_{1}x_{0}},可得w*\vec{x_{1}x_{0}}=w^{T}x_{0}+b

将上面两个式子导入第一个可求

r=\frac{|w^{T}x_{0}+b|}{||w||}

r=|f(x;w)|/||w||.

习题3-5:在Logistic回归中,是否可以用\hat{y}=\sigma (w^{T}x)去逼近正确的标签y ,并用平方损失(y-\hat{y})^{2}最小化来优化参数w? 

在Logistic回归中可以用sigmoid函数去逼近正确的标签y ,但用平方损失(y-\hat{y})^{2}最小化来优化参数w不可行。

E=\frac{1}{2}\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}

其中: 

\hat{y}=\sigma (w^{T}x)

\frac{\partial E}{\partial w}=\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}\hat{y}_{n}(1-\hat{y}_{n})x_{n}

因此,更新公式为:

w=w-\mu \frac{\partial E}{\partial w}=w-\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}\hat{y}_{n}(1-\hat{y}_{n})

 因为sigmoid函数值域为[0,1],所以\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}\hat{y}_{n}(1-\hat{y}_{n})的函数值很小,更新速率特别慢,因此不太合适。

习题3-6:在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响? 

当我们加入正则化后:R(w) = -\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda W^{T}W

\frac{\partial R(W)}{\partial W} = -\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} + 2\lambda W

更新参数时:W = W + \alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} - 2\lambda W

加入正则化后,在更新参数时每次需要减去2\lambda W,使得参数不会过大,不会造成溢出之类的错误,同时也防止过拟合。

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值