Python入门与进阶：手把手教你掌握Pandas三大利器

最新推荐文章于 2022-10-23 15:53:37 发布

weixin_44386638

最新推荐文章于 2022-10-23 15:53:37 发布

阅读量528

点赞数 2

分类专栏： python 文章标签： Python 大数据机器学习 Python入门编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44386638/article/details/87262647

版权

回顾一下，2018 年中国的电影票房可以说是再创了一个新纪录，实现了总票房突破 600 亿的成绩。作为一个影迷，当然还是需要认真盘点一下啦！今天我们使用 Python 的 Pandas 库，对猫眼专业电影排行榜的 2018 年电影票房 Top50 的数据来进行一次简单的数据分析。

Part one：Index

Pandas 库是用于提供高性能易用数据类型和分析工具的 python 第三方库，而要对Series、Dataframe类型的数据进行运算、提取数据特征、进行数据间的关联等操作，离不开对 index 的使用。下面，我们就用猫眼电影数据为例子，解锁数据分析的新姿势。

更多干货分享加python编程语言学习QQ群 515267276

数据读取与观察

因为 pandas 是基于 numpy 实现的，我们需要导入 numpy 与 pandas 库和数据存储路径，并使用 read_csv 函数读取数据，用head函数展示数据的前几行（默认为5行）：

remark：排片是按照票房数据进行的排名

基于index的数据排序与筛选

接下来，我们可以对这些电影按照上映时间排序，再对排序后的电影进行提取、筛选、汇总的操作。这里我们想要提取每个月份的电影数据，并汇总。

第一步，是对上映时间转换格式，我们采用 datatime 的时间格式。然后，以上映时间作为排序变量，对电影数据进行重新排序：

当当当～成功按照上映时间进行展示：

可这还不够，我们要做的是将上映时间作为我们的行索引（index），方便我们进行数据处理。所以我们进行第二步，指定该列作为我们的行索引：

最后，我们就可以对这Top50的电影数据按月度进行加总，终于得到每个月度Top50票房电影的票房总额：

It's amazing！

使用index对数据直接索引筛选

Pandas 的 index 功能提供了对低维数据和高维数据的索引和筛选功能，既可以采用行列索引的方式提取某个元素值，也可以通过切片的方式提取部分行列的元素值。

举两个栗子来说明方法。

第一个，我们想提取出在去年正月初一新春第一天，也就是2018年2月16日上映的所有电影的类型，我们可以这样操作：

我们先将这些数据放入一个 DataFrame 中，并检查对应的列索引。

有了行列索引，我们就可以根据对应的索引来找到相应的数据值，然后使用 loc 函数分别指定行索引和列索引：

最低0.47元/天解锁文章

weixin_44386638

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python入门与进阶：手把手教你掌握Pandas三大利器

回顾一下，2018 年中国的电影票房可以说是再创了一个新纪录，实现了总票房突破 600 亿的成绩。作为一个影迷，当然还是需要认真盘点一下啦！今天我们使用 Python 的 Pandas 库，对猫眼专业电影排行榜的 2018 年电影票房 Top50 的数据来进行一次简单的数据分析。 Part one：IndexPandas 库是用于提供高性能易用数据类型和分析工具的 python 第三方...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。