Kaggle翻译,第九天:机器学习 2/7

基本的数据探索 机器学习2/7

加载并理解你的数据

使用Pandas熟悉你的数据

  • 任何一个机器学习项目都是从熟悉数据开始的。你将使用Pandas库来实现。Pandas是一个数据科学家探索和控制数据的初级工具。大多数人在代码中将pandas缩写为pd。我们通过下面的命令实现:
import pandas as pd
  • Pandas中最重要的部分就是数据框架(DataFrame)。数据框架是一种类似于表格的类型。和Excel中的表单,SQL数据库中的表格类似。
  • Pandas有强大的方法库可以满足你对数据的大多数操作。
  • 例如,我们来看看澳大利亚墨尔本的房价数据
  • 该例子的数据放在../input/melbourne-housing-snapshot/melb_data.csv目录下
  • 我们用以下命令加载并探索数据:
# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

数据描述的解读:

  • 输出结果返回一张表格,包括你原表格的8列。第一行数字count表示有多少行未缺失的值。
  • 缺失数据会引起许多问题。例如,第二个我是就不会在检索第一个卧室时被采集到。我们稍后会回到缺失数据的问题上。
  • 第二个数字mean,代表着均值。下一个数字为std表示标准差,计量了数字有多分散。
  • 下面解释min, 25%, 50%, 75%, max。想象我们将每一列按照从小到大排列。第一个就是最小值(min)。如果你横跨1/4的表格,你将会找到比表格中25%的数据都大的值(也是比表格中75%的数据都要小的值),这就是表中的25%的含义。50%和75%的含义与其类似,max就是最大的数值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值