基本的数据探索 机器学习2/7
加载并理解你的数据
使用Pandas熟悉你的数据
- 任何一个机器学习项目都是从熟悉数据开始的。你将使用Pandas库来实现。Pandas是一个数据科学家探索和控制数据的初级工具。大多数人在代码中将pandas缩写为
pd
。我们通过下面的命令实现:
import pandas as pd
- Pandas中最重要的部分就是数据框架(DataFrame)。数据框架是一种类似于表格的类型。和Excel中的表单,SQL数据库中的表格类似。
- Pandas有强大的方法库可以满足你对数据的大多数操作。
- 例如,我们来看看澳大利亚墨尔本的房价数据。
- 该例子的数据放在
../input/melbourne-housing-snapshot/melb_data.csv
目录下 - 我们用以下命令加载并探索数据:
# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path)
# print a summary of the data in Melbourne data
melbourne_data.describe()
数据描述的解读:
- 输出结果返回一张表格,包括你原表格的8列。第一行数字count表示有多少行未缺失的值。
- 缺失数据会引起许多问题。例如,第二个我是就不会在检索第一个卧室时被采集到。我们稍后会回到缺失数据的问题上。
- 第二个数字mean,代表着均值。下一个数字为std表示标准差,计量了数字有多分散。
- 下面解释min, 25%, 50%, 75%, max。想象我们将每一列按照从小到大排列。第一个就是最小值(min)。如果你横跨1/4的表格,你将会找到比表格中25%的数据都大的值(也是比表格中75%的数据都要小的值),这就是表中的25%的含义。50%和75%的含义与其类似,max就是最大的数值。