Python-sklearn 机器学习的第一个样例（1）

番番要吃肉

于 2017-05-19 10:16:26 发布

阅读量3.9k

点赞数

分类专栏：机器学习 Python 文章标签：机器学习 Python

Python 同时被 2 个专栏收录

18 篇文章 4 订阅

订阅专栏

9 篇文章 1 订阅

订阅专栏

本文翻译自Randal S. Olson的文章《An example machine learning notebook》，原文：点击打开链接

这篇文章可以作为机器学习的第一个学习案例，通过这个案例，基本上可以把机器学习的整个过程接触一遍，对机器学习有了初步的了解。整个过程包括：业务问题、数据探索、数据整理和清洗、建模、模型调优、评估等步骤。下面就开始吧。

业务问题

根据鸢尾花(iris)的四个尺寸：花瓣长度(petal_length)、花瓣宽度(petal_width)、花萼长度(sepal_length)、花萼宽度(sepal_width)，判断出花的种类。我们已经采集到一批测量数据，需要根据这些数据通过机器学习建立数据模型，用于判断鸢尾花的种类。

花瓣与花萼的示意图：

数据集下载地址：dataset。

本文用到的数据集（测量数据）包括了三个种类的鸢尾花，分布如图所示：

Iris setosa

Iris versicolor

Iris virginica

本文将用到Python的数据处理、机器学习和可视化等技术，开发环境的搭建可参考本人前一篇博文《Python机器学习开发环境安装配置》。

Step 1：几个问题

好了，下面可以开始我们的工作。但是先别着急，处理任何数据分析项目，首先需要明确需要解决的问题，并且定义成功的标准。先来看看需要数据分析师回答的几个问题：

在接触数据之前，你是否明确问题的类别？是数据探索，还是关联分析？答：我们要根据花的四项尺寸，对花进行分类

你是否定义了成功的衡量方法？答：用“准确度”来衡量数据模型的优劣，目标是90%
你是否理解这个科学或商业问题的背景和意义？答：背景和意义前面已经简要描述了
你是否记录了数据？答：见数据集
目前的数据是否足够支持解决问题？答：我们有150条左右的测量数据，对三个种类的花进行分类，初步来看是足够的。当然还要仔细看看数据的质量。如果要更通用的模型，则还需要更多的数据支持。

考虑这几个问题并不是浪费时间，对于任何一个机器学习和数据分析的工作来说，都是很有必要且不可或缺的步骤。下面可以开始数据探索了。

番番要吃肉

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Python-sklearn 机器学习的第一个样例（1）

这篇文章可以作为机器学习的第一个学习案例，通过这个案例，基本上可以把机器学习的整个过程接触一遍，对机器学习有了初步的了解。整个过程包括：业务问题、数据探索、数据整理和清洗、建模、模型调优、评估等步骤。下面就开始吧。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。