数据基本处理:Numpy和Pandas
1.csv文件处理
数据导入:pd.read_csv()
df=pd.read_csv(“文件名”,sep=“分隔符”,header=0,index_col=None,encoding=“字符编码”)
数据导出:pd.to_csv()
df.to_csv(“文件名”,index=False,header=Ture)
2.txt文件处理
数据加载:np.loadtxt()
df=pd.DataFrame(np.loadtxt(‘文件名’,delimiter=‘分割符’))
注意:txt文本文件中的每一行必须含又相同数量的数据
3.excel格式数据导入与导出
数据导入:pd.read_excel()
df=read_excel(“文件名”,sheetname=‘工作簿名称’,header=0)
数据导出:pd.to_excel()
df.to_excel(目标路径,sheet_name=‘sheetname’,index=False)
数据可视化:matplotlib,plotnine,Seaborn
matplotlib常见二维图的绘制函数
函数 | 图表类型 |
---|---|
plot() | 折现图 |
scatter() | 散点图、气泡图 |
bar() | 柱形图、堆积柱形图 |
barh | 条形图、堆积条形图 |
fill_between | 面积图 |
stackplot() | 堆积面积图、量化波形图 |
pie() | 饼图 |
errorbar() | 误差棒 |
hist() | 统计直方图 |
boxplot() | 箱形图 |
axhline() | 垂直于X轴直线 |
axvline() | 垂直于Y轴直线 |
axhspan() | 垂直于X轴矩形方形 |
axvspan() | 垂直于Y轴矩形方形 |
text() | 在指定位置放置文件 |
annotate() | 在指定的数据点上添加带连接线的文本标注 |
matplotlib三维图表绘制函数
函数 | 图表类型 |
---|---|
plot() | 三维曲线图 |
scatter3D() | 三维散点图、气泡图 |
bar3d() | 三维柱形图 |
contour() | 三维等高线图 |
contourf() | 三维等高面图 |
plot_surface() | 三维曲面图 |
plot_wireframe() | 三维网面图 |
voxels() | 三维块状图 |
Seaborn常见图标类型参数说明
函数 | 图标类型 |
---|---|
lineplot() | 折线图,带数据标记的折线图 |
scatterplot() | 散点图,气泡图 |
stripplot() | 抖动散点图 |
swarmplot() | 蜂巢图 |
pointplot() | 带误差棒的散点图 |
barplot() | 带误差棒的柱形图 |
countplot() | 用于分类统计展示的柱形图 |
boxplot() | 箱形图 |
violinplot() | 小提琴图 |
boxenplot() | 用于高纬数据展示的箱形图 |
regplot() | 用于数据拟合展示的散点图 |
distplot() | 统计直方与核密度估计的组合图 |
heatmap() | 热力图 |
Pandas:表格处理
3种数据类型:Series,DataFrame,Panel
1.Series:本质上是一个含有索引的一维数组,是带有索引的的列表
2.DataFrame:数据框,类似于Excel电子表格
- 使用list或者ndarray对象创建DataFrame
df=pd.DataFrame([[‘a’,1,2],[‘b’,2,5],[‘c’,3,3]],columns=[‘x’,‘y’,‘z’]) - 使用字典创建DataFrame
df=pd.DataFrame({‘x’:[‘a’,‘b’,‘c’],‘y’:range(1,4),‘z’:[2,5,3]})
注意:数据框的行索引默认是从0开始
获取数据框相关信息:
- 行数或列数:df.shape / len(df)
- 列名或行名:df.columns / df.index
- 更改某列名:df.rename(columns={‘x’:‘X’},inplace=True),ps:如果缺少inplace选项,则不会更改,而是增加新列
- 查看属性信息:df.info()
- 查看前5行数据信息:df.head()
- 查看最后5行数据信息:df.tail()