TensorFlow学习(4)——Pandas的基本用法

最新推荐文章于 2025-03-25 20:14:31 发布

神兽乌鸦

最新推荐文章于 2025-03-25 20:14:31 发布

阅读量3k

点赞数

分类专栏： TensorFlow

本文链接：https://blog.csdn.net/zhangdongren/article/details/82771279

版权

TensorFlow 专栏收录该内容

20 篇文章

订阅专栏

Pandas 简介

Pandas是对数据进行处理的工具，通过该工具可以对数据进行快速的建模，机器学习中需要大量的对数据进行处理，因此在真正学习TensorFlow之前，我们先来了解一下Pandas。具体使用方法如下：

下载安装

安装方法很容易，只要 cd 到Python的安装目录下的Scripts，我这里安装在E盘下，所以cd E:\Python\Python35\Scripts

然后执行pip install pandas就可以下载安装Pandas了，如下图：
在这里插入图片描述

基本使用

引入Pandas并输出版本号

from __future__ import print_function

import pandas as pd
pd.__version__

结构

pandas 中的主要数据结构被实现为以下两类：

DataFrame，您可以将它想象成一个关系型数据表格，其中包含多个行和已命名的列
Series，它是单一列。DataFrame 中包含一个或多个 Series，每个 Series 均有一个名称

创建Series

pd.Series(['San Francisco', 'San Jose', 'Sacramento'])

创建DataFrame

city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])
#创建DataFrame
pd.DataFrame({ 'City name': city_names, 'Population': population })

通常情况下数据量会很多，所以我们不会手动创建DataFrame，这时候我们会导入数据文件，下面的代码是导入一个住房数据文件：

california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")
#显示DataFrame 有趣的统计信息
california_housing_dataframe.describe()

上面的代码执行结果是（需要翻墙）：
在这里插入图片描述

除此之外您还可以输入一下代码来显示DataFrame的前几条数据：

california_housing_dataframe.head()

绘制图标：

california_housing_dataframe.hist('housing_median_age')

在绘图之前你需要安装matplotlib，步骤如图：
在这里插入图片描述

但一般情况下命令行是无法绘制出图标的，你会看到命令行执行的结果如下：
在这里插入图片描述

访问数据

输出所有的城市名：

cities = pd.DataFrame({ 'City name': city_names, 'Population': population })
print(type(cities['City name']))
cities['City name']

输出第一个：

print(type(cities['City name'][1]))
cities['City name'][1]

输出第一个到第三个：

print(type(cities[0:2]))
cities[0:2]

操控数据

对整列进行运算，例如可以将所有的population都除以1000：

population / 1000

向现有 DataFrame 添加 Series：

#增加列
cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
#修改列的值
cities['Population density'] = cities['Population'] / cities['Area square miles']

本节到此结束/

欢迎大家加入Q群讨论：463255841

本节到此结束/