task05_DW机器学习_petal length和petal width预测准确率-CSDN博客

本文链接：https://blog.csdn.net/weixin_46121800/article/details/115256025

该博客探讨了鸢尾花数据集的分类问题，涉及特征选择、模型性能评估和模型训练。重点介绍了以ROC曲线为评估标准的逻辑回归模型，并提及了线性判别分析、朴素贝叶斯、决策树、支持向量机等其他分类算法。

摘要由CSDN通过智能技术生成

本次学习以鸢尾花数据为例，相关特征为：

分类问题因为因变量是离散的，所以评价指标和回归问题不太一样：

本次案例采用ROC为指标进行

logistic regression
- logistic函数
  $p(x)=\frac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}}$
  
  直接推导公式： $\hat{\omega}=argmax_\omega logP(Y|X)=argmax_\omega log\prod_{i=1}^{N}P(y_i|x_i)=argmax_\omega \sum_{i=1}^{N}logP(y_i|x_i)\\ =argmax_\omega \sum_{i=1}^Nlog(p_1^y(1-p_1)^{(1-y)}=argmax_\omega\sum_{i=1}^N(y_ilogp_1+(1-y_i)log(1-p_1))\\ 记:L(\omega)=\sum_{i=1}^N(y_ilogp_1+(1-y_i)log(1-p_1))\\ \frac{\partial L}{\partial \omega_k}=\sum_{i=1}^Ny_i\frac{1}{p_1}\frac{\partial p_1}{\partial z}\frac{\partial z}{\omega_k}+(1-y_i)\frac{1}{1-p_1}(-\frac{\partial p_1}{\partial z}\frac{\partial z}{\partial \omega_k})\\ =\sum_{i=1}^Ny_i\frac{1}{\sigma(z)}(\sigma(z_i)-\sigma(z_i)^2)x_i+(1-y_i)\frac{1}{1-\sigma(z_i)}[-(\sigma(z_i)-\sigma(z_i)^2x_i]\\ =\sum_{i=1}^N[(y_i-y_i\sigma(z_i))x_i+(1-y_i)(-\sigma(z_i))x_i]\\ =\sum_{i=1}^Ny_ix_i-\sigma(z_i)x_i=\sum_{i=1}^N(y_i-\sigma(z_i))x_i$