机器学习起步--鸢尾花分类2

最新推荐文章于 2024-08-11 22:50:26 发布

Kiiato

最新推荐文章于 2024-08-11 22:50:26 发布

阅读量241

点赞数

分类专栏：机器学习入门文章标签：算法 python 机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43897389/article/details/107154189

版权

本文介绍了使用KNN算法进行机器学习的步骤，包括训练数据和测试数据的划分、数据可视化、模型建立及预测，并展示了模型评估的方法。通过对鸢尾花数据集的应用，阐述了K近邻算法的基本思想。

摘要由CSDN通过智能技术生成

*最近时间比较宽裕了，闲暇之余多学习一下项目的流程吧。
虽然主要目标是random forest，但作为掉包侠，肯定是用学习使用多种模型的

Training data和Testing data的分类

科学的理论方法，简而言之就是有放回的抽取，在统计学的意义下尽可能减少随机性对训练结果的影响。
实现分类的代码块如下：

from sklearn.datasets import load_iris
iris_datasets = load_iris()
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(iris_datasets['data'],iris_datasets['target'],random_state=0)

这段代码的作用一目了然，这里说明一些细节：

注意到约定：数据用X表示，标签用y表示。这是受到了y=f(x)的启发，但之所以有大小写的区别，是因为这里的输入是二维矩阵，而输出是一维向量。
每次运行都是一次随机过程，得到的结果理论上必然是不一样的。但参数random-state的意义便是指定随机数生成器的种子，结果就是使每次的输出结果固定。
这里生成的四个子集，X_train,y_train,X_test和y_test本质上都是NumPy数组，我们访问一下它们的一些属性。

print('X_train 秩:{}'.format(X_train.ndim))
print('y_train 秩:{}'.format(y_train.ndim))
print</

最低0.47元/天解锁文章

Kiiato

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录