在python中pandas是基于numpy数组构建得,是数据的预处理、分析等变得更加简单。pandas是专门为处理表格和混杂数据设计的,而numpy适合处理统一的数组数据。导入pandas包:import pandas as pd
pd.read_csv()的使用:
初始文件内容
先贴出一种读取方法,代码如下
import pandas as pd
path = 'test.txt'
data = pd.read_csv(path, header=None, skip_blank_lines=False) # header=None 为原始文件添加列和行索引,送o开始
data.head(7)
其中,先导入pandas包,然后定义文件路径。
pd.read_csv()中的参数:path为文件路径,也可以删除第一行定义,直接把文件名加单引号写入。header=None是为原始数据添加列跟行索引,默认从0开始。skip_blank_lines=False是指不忽略空行和注释行。这行不写默认True即默认忽略。
data.head()默认显示5行数据。
上述结果如下
0 1
0 6.1101 17.5920
1 5.5277 9.1302
2 NaN NaN
3 8.5186 13.6620
4 NaN NaN
下面做点改变
import pandas as pd
data = pd.read_csv('test.txt', header=0, names=['population', 'profit']) # header=None 为原始文件添加列和行索引,送o开始
data.head()
结果为
population profit
0 5.5277 9.1302
1 8.5186 13.6620
2 7.0032 11.8540
3 5.8598 6.8233
4 8.3829 11.8860
header=0指数据的第一行为行索引,可通过names=[’…’]改变内容。如names=range(2,6)
将行索引改成(2,3,4,5)
数值统计:
data.describe()
结果如下:
Population Profit
count 97.000000 97.000000 数量
mean 8.159800 5.839135 均值
std 3.869884 5.510262 标准差
min 5.026900 -2.680700 最小值
25% 5.707700 1.986900 下四分位数
50% 6.589400 4.562300 中位数
75% 8.578100 7.046700 上四分位数
max 22.203000 24.147000 最大值
下面做数据可视化,画出散点图,以population为x轴,profit为y轴。
首先要导入模块
import matplotlib.pyplot as plt
然后
data.plot(kind='scatter', x='Population', y='Profit', figsize=(12,8))
plt.show()
结果如下