文章目录
Logistic回归
在Logistic回归的二分类问题中,我们需要得到的是y=1的概率 y ^ = p ( y = 1 ∣ x ) \hat{y}=p(y=1|x) y^=p(y=1∣x),所以我们需要对线性回归拟合出的结果加一个激活函数(active function)-sigma function,来使得 y ^ \hat{y} y^ 的取值范围位于[0,1]之间.
sigma
Logistic回归
另一种表示法
Logistic回归的损失函数(cost function)
notation:
用i来关联每一个样本的数据
为什么convex function 被译作凸函数?
凹凸函数本质是描述函数斜率增减的。
语义上凸为正,代表斜率在增加(单调不减)。凹为负,代表斜率在减少。
Loss function(用于单个训练样本 ( x i , y i x^i,y^i xi,yi))
用平方误差函数会是一个比较普遍的操作,但对于Logistic回归,用平方误差函数会造成损失函数不是凸函数的问题,所以对其使用梯度下降算法难以得到全局最优解,所以我们采用一种新的更够得到凸函数的loss function.
为什么Loss function是这样?
log函数是严格单调递增的函数,所以加上它并无影响
-是因为对于损失函数我们想要最小化它,而目前的函数我们需要最大化它
所以就得到了我们的loss function:
− [ y ( i ) l o g y ^ ( i ) + ( 1 − y ( i ) l o g ( 1 − y ^ ( i ) ) ] -[y^{(i)}log\hat{y}^{(i)}+(1-y^{(i)}log(1-\hat{y}^{(i)})] −[y(i)logy^(i)+(1−y(i)log(1−y^(i))]
cost function(衡量的在整个训练集上的表现)
cost function:
J
(
w
,
b
)
=
−
1
m
∑
i
=
1
m
[
y
(
i
)
l
o
g
y
^
(
i
)
+
(
1
−
y
(
i
)
l
o
g
(
1
−
y
^
(
i
)
)
]
J(w,b)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log\hat{y}^{(i)}+(1-y^{(i)}log(1-\hat{y}^{(i)})]
J(w,b)=−m1i=1∑m[y(i)logy^(i)+(1−y(i)log(1−y^(i))]
训练就是为了得到能够使得其最小化的参数W和b
为什么cost function是这样?
训练样本都是IID(独立同分布的)
什么是独立同分布?
独立同分布independent and identically distributed (i.i.d.)
在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。
在西瓜书中解释是:输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。
每一个特征都是一个 χ \chi χ随机变量
在不少问题中要求样本数据采样自同一个分布,是因为希望用训练数据集得到的模型可以合理的用于测试数据集,使用独立同分布假设能够解释得通
使用独立同分布我目前的理解较为浅显的含义就是每个特征的采样都是独立同分布的
p(labels in traning set)= ∏ p ( y ( i ) ∣ x ( i ) ) \prod{p(y^{(i)}|x^{(i)})} ∏p(y(i)∣x(i))
我们使用最大似然估计的角度,得到一组参数使得给定样本的观测值概率最大
所以两边同取对数