《Python数据分析与应用》第4章Pandas统计分析(1) 实训部分

《Python数据分析与应用》第4章Pandas统计分析(1) 实训部分(源于大学课程python数据分析)

实训1 读取并查看P2P网络贷款数据主表的基本信息

1.利用read_csv读取P2P网络贷款数据主表在这里插入图片描述
在这里插入图片描述
2.利用ndim属性查看主表维度、利用shape属性查看主表形状、利用memory_usage属性查看主表占用内存信息
在这里插入图片描述
3.利用describe方法对主表进行描述性统计分析
在这里插入图片描述
4.利用自定义函数剔除值相同或全为空的列,标准差表示的是样本数据的离散程度,标准差为0就是数组为空值,所以求全为空的列就是求标准差为0的列在这里插入图片描述

实训2 提取用户信息更新表和登录信息表的时间信息

1.利用read_csv读取用户信息更新表和登录信息表
在这里插入图片描述
2.利用to_datetime函数转换用户信息更新表和登录信息表的时间字符串
在这里插入图片描述
在这里插入图片描述
3.利用year、month、week等方法提取用户信息更新表和登录信息表中的时间信息

3.1提取用户信息更新表字段为’ListingInfo1’、‘UserupdateInfo2’中的时间信息
在这里插入图片描述
在这里插入图片描述
3.2提取登录信息表字段为’Listinginfo1’、'LogInfo3’中的时间信息
在这里插入图片描述
在这里插入图片描述
4.计算用户信息更新表和登录信息表中两时间的差,分别以日、小时、分钟计算
4.1计算用户信息更新表的两时间差
4.1.1以日计算
在这里插入图片描述
4.1.2以小时计算

在这里插入图片描述

4.1.3以分钟计算
在这里插入图片描述
4.2计算用户登录信息表的两时间差
4.2.1以日计算
在这里插入图片描述
4.2.2以小时计算
在这里插入图片描述
4.2.3以分钟计算
在这里插入图片描述

  • 13
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2) 实训练习:练习使用pandas 包中的dataframe和方法。 1将数据读取为dataframe类型,命名为df 2查看数据的形状[了解数据有多少行、多少列] 3查看数据的最开始的7条数据和尾部的3条数据 4查看数据的各字段的类型 5查看数据是否有缺失值 6如果有缺失值,进行补0操作 7从df中按字段取出‘ date’’dist’和‘ flight’形成新的df1 8从df中按位置选取行为3和4,列为0,1的数据形成新的df2 9在df中添加一列‘ low_dest’,内容是‘ dest’这列的字符串的小写形式 10从df中选取‘ dist’大于1000并且小于1200的数据作为一个新的df3 11从df中选取‘ time’大于100的数据做为新的df4 12将df3和df4合并为一个dataframe,命名为df5 13取出df3中的‘ time’,‘dist’ 这两列做为df6, 求出df6中每列中最大值与最小值的差值(运用lambda函数的方式进行求解 ) 14将df根据“ dest”分组,统计各目的地,都有多少条数据,命名为“ dest_count”,然后将“ dest”和“ dest_count”组成新的dataframe命名为df7 15根据dep_delay不为0,统计df中有多少次航班起飞延误 16利用plane字段,统计df中不同航班的飞行次数,以plane和plane_cout格式保存为df8 17利用carrier字段,计算df中carrier字段不同属性数据的数据量的比值(如:XE的数据量与MQ的数据量的比值) 18分别将df7和 df8保存到本地文件,文件名分别为df7.csv和df8.csv
Pandas 中进行数据统计和分析可以帮助我们更加深入地了解数据的特征和规律。以下是一个简单的实验,展示如何使用 Pandas 进行数据统计和分析。 假设我们有一份包含学生成绩的数据集,包含以下字段: - 学生姓名 - 学号 - 成绩 首先,我们需要导入 Pandas 并读取数据集: ```python import pandas as pd df = pd.read_csv('student_scores.csv') ``` 接着,我们可以使用 `describe()` 方法来查看数据的基本统计信息: ```python print(df.describe()) ``` 输出结果可能类似于: ``` 成绩 count 100.000000 mean 75.000000 std 13.638181 min 50.000000 25% 63.750000 50% 75.000000 75% 86.250000 max 100.000000 ``` 从这些统计信息中,我们可以了解到以下几个方面的信息: - 数据集中共有 100 条记录。 - 学生成绩的平均值为 75 分。 - 学生成绩的标准差为 13.64 分,表示成绩的分布比较分散。 - 最低分为 50 分,最高分为 100 分。 - 中位数为 75 分,表示一半的学生成绩在 75 分及以下,一半的学生成绩在 75 分及以上。 - 25% 的学生成绩在 63.75 分及以下,75% 的学生成绩在 86.25 分及以下。 接下来,我们可以使用 `groupby()` 方法对数据进行分组,统计每个学生的平均分数: ```python grouped = df.groupby('学生姓名') result = grouped.mean() print(result) ``` 输出结果可能类似于: ``` 成绩 学生姓名 张三 76.666667 李四 73.333333 王五 78.333333 ``` 从这个结果中,我们可以了解到每个学生的平均分数,以及不同学生之间成绩的差异。 最后,我们可以使用 `plot()` 方法来绘制成绩分布的直方图: ```python df['成绩'].plot(kind='hist', bins=10) ``` 这会生成一个直方图,用于展示成绩分布的情况。 通过这些简单的数据统计和分析,我们可以更好地了解数据的特征和规律,从而为后续的决策和分析提供参考。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

freetozn

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值