Datawhale-机器学习打卡1

最新推荐文章于 2024-10-19 11:04:31 发布

肉bot

最新推荐文章于 2024-10-19 11:04:31 发布

阅读量298

点赞数

分类专栏： Pandas 文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_46723764/article/details/108105438

版权

Pandas 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Datawhale机器学习

逻辑回归
逻辑回归主要解决分类问题，分类问题函数是不连续的阶跃函数，且函数边界[0,1].
sigmoid函数曲线与阶跃函数曲线很相似，z>0, sigmoid(z)>0.5, z<0 sigmoid(z)<0.5，其本身具有分类属性，函数在0到1之间。
而且sigmoid函数求导方便，而且cost function可以用log函数表达，log函数具有convex属性，易于求解。sigmoid函数连续可以借用方程θX表示z, 假设θX>0,y=1, θX<0,y=0完成分类。这样就把未知的分类问题转换成了已经熟悉的线性回归问题，易于理解。
但sigmoid函数给出的结果是数据是否属于某类别的概率，而不是确定的y/n，需要进行二次转换。在神经网络中，因为sigmoid函数对x偏导数<1，所以在进行back propogation过程中梯度会逐渐降低并消失

实现流程
代码导入及预处理-数据分析-选择features-导入模型训练-测试模型能力

重要代码的理解
lr_clf.predict_proba()得出输入实例分类结果为不同label的不同概率值所以元素都在[0,1]之间
分类线是后面的plt.contour 函数中的变量[0.5]决定的，等高线会随着此变量同步变化绘制分界线，所以此变量的取值也是在0-1之间

z_proba = lr_clf.predict_proba(np.c_[x_grid.ravel(), y_grid.ravel()])

# print(z_proba.shape)  #20000x2
z_proba = z_proba[:, 1].reshape(x_grid.shape)
print('所给实例分类结果为1的概率矩阵尺寸为：{}， 第一行的值为{}.'.format(z_proba.shape,z_proba[0,:]))

plt.contour(x_grid, y_grid, z_proba, [0.5], linewidths=2., colors='blue')  

#contour(X,Y,Z)*X*, *Y* specify the (x, y) coordinates of the surface 使其和上图相对应，Z设置等高线的分类值