本篇文章给大家谈谈利用python进行数据分析案例,以及python能进行数据分析的案例,希望对各位有所帮助,不要忘了收藏本站喔。
Python+大数据-数据分析与处理(六)-综合案例
案例一:Appstore数据分析
-
学习目标
-
掌握描述性数据分析流程
-
能够使用pandas、seaborn进行数据分析和可视化
1.案例介绍
案例背景:
- 对 App 下载和评分数据分析,帮助 App 开发者获取和留存用户
- 通过对应用商店的数据分析为开发人员提供可操作的意见
分析需求:
- 免费和收费的 App 都集中在哪些类别
- 收费 App 的价格是如何分布的,不同类别的价格分布怎样
- App文件的大小和价格以及用户评分之间是否有关
分析流程:
1)数据概况分析
- 数据行/列数量
- 缺失值分布
2)单变量分析
- 数字型变量的描述指标(平均值,最小值,最大值,标准差等)
- 类别型变量(多少个分类,各自占比)
3)多变量分析
- 按类别交叉对比
- 变量之间的相关性分析
4)可视化分析
- 分布趋势(直方图)
- 不同组差异(柱状图)
- 相关性(散点图/热力图)
数据集说明:
本案例使用 applestore.csv
数据集,其数据字段如下:
字段 | 说明 |
---|---|
id |
App ID:每个 App 唯一标识 |
track_name |
App 的名称 |
size_bytes |
以 bytes 为单位的 App 大小 |
price |
定价(美元) |
rating_count_tot |
App 所有版本的用户评分数量 |
rating_count_ver |
App 当前版本的用户评分数量 |
prime_genre |
App 的类别 |
user_rating |
App 所有版本的用户评分 |
sup_devices.num |
支持的 iOS 设备数量 |
ipadSc_urls.num |
App 提供的截屏展示数量 |
lang.num |
支持的语言数量 |
2. 数据清洗
# 加载数据
import pandas as pd
app = pd.read_csv('./data/applestore.csv',index_col=0)
app
# 查看数据集的字段信息
app.info()
# 查看数据集的各个字段统计值
app.describe()
# 查看是否有缺失值
app.shape
(7197, 10)
# 将sizebytes 大小变成mb ,新增size_mb列
app['size_mb'] = app['size_bytes']/(1024*1024)
app
# 查看size_mb 列的统计值
app.size_mb.describe()
# 根据价格新增是否免费paid列 判断免费为0 不免费为1
app['paid'