Python学习笔记（15）

最新推荐文章于 2024-09-04 20:23:24 发布

HzF301

最新推荐文章于 2024-09-04 20:23:24 发布

阅读量57

点赞数

文章标签：学习笔记

本文链接：https://blog.csdn.net/weixin_48589728/article/details/133915240

版权

本文介绍了如何使用Pandas进行数据筛选、绘图（包括Barh、Hist和Scatter图）、文件读写、处理缺失值、数据离散化、Onehot编码，以及数据合并、重命名和分组聚合等操作，以实际的星巴克案例为例，展示了数据处理的各个环节。

摘要由CSDN通过智能技术生成

运算

筛选出大于23且小于24的值

Pandas画图

Barh是横向的bar

Hist直方图 scatter散点图

读取保存文件

Index=False

mode默认是w

保存和读取时一定要指定一个键，不然会报错

Orient=”records”, lines=True

如果缺失值是“？”

数据离散化

和value_counts搭配使用

P_counts.value_counts()

Onehot编码

合并数据

按行索引直接合并到右边

默认是内连接

按照共同的值来进行拼接，如left和right中key1、key2中相同的值来拼接

左连接

以left表为基准，合并的表中包含所有left的值，再填上right表的值，不存在的值就是NaN

右连接也是一样

外连接

全部值都有，不存在用NaN

重命名行、列索引

Rename

交叉表

透视表

分组聚合

有两种方法：对dataframe或是对series

星巴克案例

按国家分

starbucks = pd.read_csv("./资料-边学边练超系统掌握人工智能机器学习算法/day03-资料/2.code/data/starbucks/directory.csv")
count = starbucks.groupby(["Country"]).count()
count["Brand"].plot(kind="bar", figsize=(20, 8))
plt.show()

加入省市

count2 = starbucks.groupby(["Country", "State/Province"]).count()

HzF301

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python学习笔记（15）

以left表为基准，合并的表中包含所有left的值，再填上right表的值，不存在的值就是NaN。按照共同的值来进行拼接，如left和right中key1、key2中相同的值来拼接。有两种方法：对dataframe或是对series。保存和读取时一定要指定一个键，不然会报错。Hist直方图 scatter散点图。和value_counts搭配使用。筛选出大于23且小于24的值。全部值都有，不存在用NaN。Barh是横向的bar。按行索引直接合并到右边。
复制链接

扫一扫