机器学习算法基础day10

CHEN的小喵

已于 2022-03-03 23:09:24 修改

阅读量287

点赞数

分类专栏：笔记文章标签：机器学习算法 p2p

于 2022-03-03 23:08:34 首次发布

本文链接：https://blog.csdn.net/weixin_58975360/article/details/123264645

版权

笔记专栏收录该内容

36 篇文章 3 订阅

订阅专栏

本文介绍了逻辑回归在二分类问题中的应用，如广告点击率预测，强调其在得到分类概率上的优势及面临的大特征空间挑战。同时，阐述了K-Means聚类算法的步骤、优缺点，并提及在女装品牌直播数据分类中的应用，以及聚类效果的评估指标——轮廓系数。

摘要由CSDN通过智能技术生成

1 逻辑回归——解决二分类问题的利器

逻辑回归公式

逻辑回归与线性回归原理相同,但由于是分类问题，损失函数不一样，只能通过梯度下降求解

sklearn逻辑回归API

•sklearn.linear_model.LogisticRegression

构造列标签的名字：

column = ['列标签名1','列标签名2', '列标签名3','列标签名4']
# 读取数据
data = pd.read_csv('读取文件网址',names=column）

良／恶性乳腺癌肿分类实例

LogisticRegression总结

应用：广告点击率预测、电商购物搭配推荐

优点：适合需要得到一个分类概率的场景

缺点：当特征空间很大时，逻辑回归的性能不是很好

2 非监督学习——k-means

k-means步骤：

（1）随机设置K个特征空间内的点作为初始的聚类中心

（2）对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类

中心点作为标记类别

（3）接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平

均值）

（4）如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行

第二步过程

k-means API

sklearn.cluster.KMeans

Kmeans性能评估指标

轮廓系数：

Kmeans性能评估指标API

sklearn.metrics.silhouette_score

Kmeans总结

特点分析：

采用迭代式算法，直观易懂并且非常实用

缺点：容易收敛到局部最优解(多次聚类)

需要预先设定簇的数量(k-means++解决)

对30个女装品牌直播数据进行分类

输出：

CHEN的小喵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法基础day10

1 逻辑回归——解决二分类问题的利器逻辑回归公式逻辑回归与线性回归原理相同,但由于是分类问题，损失函数不一样，只能通过梯度下降求解sklearn逻辑回归API•sklearn.linear_model.LogisticRegression构造列标签的名字：column = ['列标签名1','列标签名2', '列标签名3','列标签名4']# 读取数据data = pd.read_csv('网址',names=column良／恶性乳腺癌肿分类实例.
复制链接

扫一扫