Appstore数据集中的主要字段:
id:APP的编号id
track_name:App名称
size_bytes:App的大小(单位:byte)
price:价格(单位:美元)
rating_count_tot:该App所有版本的用户评分数量
rating_count_ver:该App当前版本的用户评分数量
primae_genre:App类别
user_rating:该App所有版本的用户评分
user_rating_ver:该App当前版本的用户评分
sup_devices:支持的ios设备数量
ipadSc_urls:App提供的截屏展示数量
lang:支持的语言数量
要分析的业务问题:
1,免费或者收费的APP集中在哪些类别?
2,免费和收费的app在不同评分区间的分布情况如何?
3,app的大小和用户评分是否有关系?
打开python,开始敲代码
首先导入要用到的模块和打开数据集
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
get_ipython().run_line_magic('matplotlib', 'inline')
df=pd.read_csv(r'applestore.csv') #打开数据
了解数据总体概括
df.head() #读取前5行的数据
df.describe()
df.info()
开始数据预处理
Unnamed: 0 为自动生成的记录ID,为无关变量,删除
df.drop(['Unnamed: 0'],axis=1,inplace=True)
#drop(),axis=1代表在列中寻找,0则在行中寻找。inplace=True为在原表格进行删除,Fasle为创建副本,在副本里进行删除
size_bytes为App大小,单位为byte。为了计算方便,将其转化为MB单位。
df['size_mb']=df['size_bytes']/(1024*1024)
根据price价格新增标签,将app分为0(免费)和1(付费)
df['paid']=df['price'].apply