1. 简介
背景信息
今天的苹果应用商店拥有上百万款手机软件,该数据集所含数据是找到以及分析最流行软件相关信息的关键。该数据集包含超过7000个苹果IOS系统手机软件的详细信息。数据从苹果公司官网的iTunes Search API中所提取
分析目的
App主要由哪些种类构成?
什么样的App是成功的?需要具备什么因素?
当下什么app最流行
2. 数据理解
数据来源
https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps
数据信息
app数量: 7917
数据元素数量: 15
数据取得时间: 2017年7月
数据样式
元素信息
- “id” : App ID
- “track_name”: App Name
- “size_bytes”: Size (in Bytes)
- “currency”: Currency Type
- “price”: Price amount
- “ratingcounttot”: User Rating counts (for all version)
- “ratingcountver”: User Rating counts (for current version)
- “user_rating” : Average User Rating value (for all version)
- “userratingver”: Average User Rating value (for current version)
- “ver” : Latest version code
- “cont_rating”: Content Rating
- “prime_genre”: Primary Genre
- “sup_devices.num”: Number of supporting devices
- “ipadSc_urls.num”: Number of screenshots showed for display
- “lang.num”: Number of supported languages
数据清理
1. 处理缺失值
select *
from applestore
where id is null
or track_name is null
or size_bytes is null
or price is null
or rating_count_tot is null
or rating_count_ver is null
or user_rating is null
or user_rating_ver is null
or ver is null
通过SQL查找发现数据集中无缺失值,若有缺失值将直接对其删除
2. 寻找异常值
通常可以使用Interquartile Range(IQR) 方法去寻找异常值。然而在该项目中无需去寻找处理异常值因为该项目中的异常值是对应用商店软件分析的关键。具体来说,一个软件若拥有异常大或异常小的点击率意味着这个软件非常的受欢迎或者过时已久。因此,理应花费更多的时间分析这些拥有异常值的软件成功或失败的原因。
基于该项目的特殊性,在此只对Genre一列中的数值变量进行了清理,因为其本身应该是文字而不是数字。
select count(prime_genre),prime_genre
FROM appstore
GROUP BY prime_genre
/*The code provides our information about the numeric values */
DELETE FROM appstore
WHERE prime_genre IN ('0','1','5','4','3','2')
/*Now I cleared all numeric values into prime_gen*/
3. 建模分析
- 总览
首先了解应用商店中app的类别构成
SELECT RANK