Python-sklearn 机器学习的第一个样例(1)

本文翻译自Randal S. Olson的文章《An example machine learning notebook》,原文:点击打开链接

这篇文章可以作为机器学习的第一个学习案例,通过这个案例,基本上可以把机器学习的整个过程接触一遍,对机器学习有了初步的了解。整个过程包括:业务问题、数据探索、数据整理和清洗、建模、模型调优、评估等步骤。下面就开始吧。


业务问题

根据鸢尾花(iris)的四个尺寸:花瓣长度(petal_length)、花瓣宽度(petal_width)、花萼长度(sepal_length)、花萼宽度(sepal_width),判断出花的种类。我们已经采集到一批测量数据,需要根据这些数据通过机器学习建立数据模型,用于判断鸢尾花的种类。

花瓣与花萼的示意图:



数据集下载地址:dataset


本文用到的数据集(测量数据)包括了三个种类的鸢尾花,分布如图所示:

Iris setosa



Iris versicolor



Iris virginica



本文将用到Python的数据处理、机器学习和可视化等技术,开发环境的搭建可参考本人前一篇博文《Python机器学习开发环境安装配置》。


Step 1:几个问题

好了,下面可以开始我们的工作。但是先别着急,处理任何数据分析项目,首先需要明确需要解决的问题,并且定义成功的标准。 先来看看需要数据分析师回答的几个问题: 

  • 在接触数据之前,你是否明确问题的类别?是数据探索,还是关联分析? 答:我们要根据花的四项尺寸,对花进行分类

  • 你是否定义了成功的衡量方法? 答:用“准确度”来衡量数据模型的优劣,目标是90%

  • 你是否理解这个科学或商业问题的背景和意义?答:背景和意义前面已经简要描述了

  • 你是否记录了数据?答:见数据集

  • 目前的数据是否足够支持解决问题?答:我们有150条左右的测量数据,对三个种类的花进行分类,初步来看是足够的。当然还要仔细看看数据的质量。如果要更通用的模型,则还需要更多的数据支持。 

考虑这几个问题并不是浪费时间,对于任何一个机器学习和数据分析的工作来说,都是很有必要且不可或缺的步骤。下面可以开始数据探索了。






  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值