python学习_day21---机器学习算法总结

最新推荐文章于 2023-08-27 03:26:00 发布

带你飞(｀⌒´メ)

最新推荐文章于 2023-08-27 03:26:00 发布

阅读量347

点赞数

分类专栏： python 文章标签：机器学习算法 python

本文链接：https://blog.csdn.net/weixin_45800653/article/details/121733933

版权

python 专栏收录该内容

40 篇文章 6 订阅

订阅专栏

一、算法总结

1、KNN算法

1>算法类型

分类和回归算法

2>算法原理

在这里插入图片描述

3>算法参数

def init(self, n_neighbors=5, *,
weights=‘uniform’, algorithm=‘auto’, leaf_size=30,
p=2, metric=‘minkowski’, metric_params=None, n_jobs=None,
**kwargs):

n_neighbors：表示K值，K个近邻
weights：表示权重的计算方式{‘uniform’, ‘distance’} 默认是uniform
uniform：近邻的点的权重都一样，所以主要看点的个数
distance：距离的倒数表示权重
algorithm：算法{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}
auto：自动选择最优算法
ball_tree：建立球树
kd_tree：建立k维的平衡二叉树
brute：穷举法，暴力搜索
brute：在测试样本寻找最近的k个邻居时，需要较长时间
ball_tree和kd_tree：可以在搜索k近邻时，降低搜索时间；
是以空间换时间(提前需要构建、存储一个树)
leaf_size：叶子节点，针对ball_tree和kd_tree
p和metric：决定了距离的计算方式
metric_params
n_jobs：并行

4>算法特点

1、惰性学习算法（边测试边训练）
2、需要自定义K值（K<=20） K值也叫超参数(超参数：是需要提前指定好的参数)
3、计算复杂度高（每个测试样本需要和所有训练样本进行距离计算排序）
4、优势：简单

5>如何选择最优K值

通俗说：指定一系列K值，测试不同K值对应的准确率，选择准确率最高的K值
简单说：交叉验证(详细可以去官网学习)

2、k-means算法

1>算法类型

聚类算法属于无监督学习算法
k-means 属于聚类算法
聚类目的：将一组数据分为K个小组，使每个小组内的样本尽可能相似，不同小组内样本尽可能相异
在这里插入图片描述聚类算法应用场景

2>算法原理

在这里插入图片描述

3>算法参数

def init(self, n_clusters=8, *, init=‘k-means++’, n_init=10,
max_iter=300, tol=1e-4, precompute_distances=‘deprecated’,
verbose=0, random_state=None, copy_x=True,
n_jobs=‘deprecated’, algorithm=‘auto’):

n_clusters：聚类中心
max_iter：执行一次k-means算法所进行的最大迭代数
n_init：用不同的质心初始化值运行算法的次数，最终解是在inertia意义下选出的最优结果。
init：指定初始化方法，默认值为 ‘k-means++’
三个可选值：’k-means++’， ‘random’，或者传递一个ndarray向量。

precompute_distances：预计算距离，计算速度更快但占用更多内存
三个可选值，‘auto’，True 或者 False。

tol：默认值= 1e-4　与inertia结合来确定收敛条件。
n_jobs：指定计算所用的进程数
random_state：用于初始化质心的生成器（generator）