Kaggle翻译，第九天：机器学习 2/7

最新推荐文章于 2024-10-04 22:36:54 发布

King Stars

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量143

点赞数

分类专栏： Kaggle与人工智能文章标签：人工智能机器学习 python

原文链接：https://www.kaggle.com/code/dansbecker/basic-data-exploration

版权

Kaggle与人工智能专栏收录该内容

25 篇文章 5 订阅

订阅专栏

基本的数据探索机器学习2/7

加载并理解你的数据

使用Pandas熟悉你的数据

任何一个机器学习项目都是从熟悉数据开始的。你将使用Pandas库来实现。Pandas是一个数据科学家探索和控制数据的初级工具。大多数人在代码中将pandas缩写为pd。我们通过下面的命令实现：

import pandas as pd

Pandas中最重要的部分就是数据框架（DataFrame）。数据框架是一种类似于表格的类型。和Excel中的表单，SQL数据库中的表格类似。
Pandas有强大的方法库可以满足你对数据的大多数操作。
例如，我们来看看澳大利亚墨尔本的房价数据。
该例子的数据放在../input/melbourne-housing-snapshot/melb_data.csv目录下
我们用以下命令加载并探索数据：

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

数据描述的解读：

输出结果返回一张表格，包括你原表格的8列。第一行数字count表示有多少行未缺失的值。
缺失数据会引起许多问题。例如，第二个我是就不会在检索第一个卧室时被采集到。我们稍后会回到缺失数据的问题上。
第二个数字mean，代表着均值。下一个数字为std表示标准差，计量了数字有多分散。
下面解释min, 25%, 50%, 75%, max。想象我们将每一列按照从小到大排列。第一个就是最小值（min）。如果你横跨1/4的表格，你将会找到比表格中25%的数据都大的值（也是比表格中75%的数据都要小的值），这就是表中的25%的含义。50%和75%的含义与其类似，max就是最大的数值。