练习：手工实现一个简单的水果识别器

最新推荐文章于 2022-12-06 22:11:56 发布

Bryan Ding

最新推荐文章于 2022-12-06 22:11:56 发布

阅读量505

点赞数

文章标签： python 机器学习 sklearn

本文链接：https://blog.csdn.net/zzjlhlcd/article/details/127558410

版权

* 题目描述：创建一个水果识别器，根据水果的属性，判断该水果的种类。

* 题目要求:

* 模仿课堂的讲解内容，根据“近朱者赤”的原则，手工实现一个简单的分类器

* 选取1/5的数据作为测试集

* 数据文件：

* 数据源下载地址：https://video.mugglecode.com/fruit_data.csv

* fruit_data.csv，包含了59个水果的的数据样本。

* 共5列数据

* fruit_name：水果类别

* mass: 水果质量

* width: 水果的宽度

* height: 水果的高度

* color_score: 水果的颜色数值，范围0-1。

* 0.85 - 1.00：红色

* 0.75 - 0.85: 橙色

* 0.65 - 0.75: 黄色

* 0.45 - 0.65: 绿色

* 如图所示:https://video.mugglecode.com/color_score.jpg

# 数据源下载地址：https://video.mugglecode.com/fruit_data.csv

查看提示

* 问题拆解提示：
1. 如何分割数据集，用于训练和验证模型？
2. 如何计算样本的距离？
3. 如何找到最近的样本？
4. 如何验证模型？
* 问题解决提示：
1. 利用scikit-learn模块中的train_test_split()(http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)方法进行数据集的划分，其中
* test_size','：用于指定测试集的大小，这里test_size=1/5；
* random_state：用于指定随机状态，通常设定一个固定的数字用于重复实验，这里random_state=20；
2. 利用SciPy模块中的欧式距离euclidean()(https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.spatial.distance.euclidean.html)计算空间中两个点的距离，及样本间的距离；
3. 利用NumPy模块中的argmin()(https://docs.scipy.org/doc/numpy/reference/generated/numpy.argmin.html)找到距离值最小的样本，即最近的样本
4. 使用“准确率”进行模型的验证，即识别对的样本数目除以总的测试样本数目。