目录
1.logistic function/ sigmoid function
2. multinomial distribution/Softmax regression
1.logistic function/ sigmoid function
介绍引入:第一讲中回归问题与分类问题的差别在于,分类问题的y是离散的(比如说是1或0)。假设继续用回归方法h(x)来接近,我们知道,h(x)在小于0和大于1的拟合是无效的,那么我们转换拟合函数。 拟合函数:g(z)的值在0~1之间,g'=g(1-g)。 |
思考:给定逻辑回归模型,如何拟合theta,回想在线性回归中,我们先假设了误差的概率函数,接着计算输出y与输入x,theta的概率关系,再转换到theta视角的似然函数,通过最大似然函数求解theta。同理,这里1.先作概率假设2.假设n个训练样本独立产生,可以写出似然函数3.最大log似然函数 |
1.概率假设 注:逻辑回归假设y|x是伯努利分布 2.似然函数和log似然函数和求导
计算theta: 用梯度下降法【也可以用牛顿法】 注:这边的推导用到了g'=g(1-g);这里还要加上segama1~m的和 3.迭代公式 注:①这里用加,因为我们要最大化似然函数~等同于最大化梯度的解,在第一讲中最大化似然函数~等同于求最小化梯度的解②形式相似,与第一讲不同在于 第一讲中的h(x)是x的线性函数,但是这里的h(x)是x的非线性函数。之后GLM模型会分析为啥有相似形式。 |
补充:感知器学习算法the perceptron learning algorithn
感知器学习算法:考虑对g稍作改动,使得输出值为精确的0或1;函数和迭代都不变 |
这里插入一节第三讲的内容 指数分布族和广义线性模型,再来看softmax regression
2. multinomial distribution/Softmax regression
引入:当分类变量不止两类而有多类时,比如y不只是等于垃圾邮件/非垃圾邮件,而是个人邮件、生活邮件、工作邮件等多种分类。softmax regression是逻辑回归的推广。用GLM来推导多项式,先将多项式表示为指数族分布 |
注:indicator function 1{·},当括号内是正确的取1否则取0 ①先假设概率分布 ②写成指数分布族的样式 得到link function 和response function 用ηi与x线性相关,得到ηi = θTi x,定义θk=0,使得ηk=θTk x=0
得到:
|
参数拟合:与最小二乘法和逻辑回归类似,我们有n个例子组成的训练集(x(i),y(i))并想要学习这个模型的参数θi。将先写下对数似然函数,然后求解最大似然估计,用梯度下降/牛顿法迭代。
|