【项目介绍】
本项目是Kaggle网站上一个较为经典的题目,由http://vgchartz.com的一个刮版生成的,有一份综合的游戏行业销售数据,本人希望依靠该数据产生一份综合的游戏行业报告。
日本在世界电子游戏公司三巨头中独占两席,几乎每年都有值得期待的游戏佳作问世,作为电子游戏开发大国,其电游市场发展如何很令我好奇,因此我们今天进来通过Kaggle的vgsales数据来对日本游戏市场发展做一次实战分析。
【数据来源】
Video Game Sales Analyze sales data from more than 16,500 games.www.kaggle.com
【使用工具】
Excel、MYSQL、Power BI
【字段理解】
RANK-总销售额的排名
Name-游戏的名字
Platform-游戏发布平台(即PC,PS4等)
Year-游戏发行的年份
Genre-游戏的类型
Publisher-游戏的出版者
NA_Sales -北美销售额(百万)
EU_Sales -欧洲销售额(百万)
JP_Sales -日本销售额(百万)
Other_Sales—世界其他地区销售额(百万)
Global_Sales—全球销售总额。
PS.总数据1.66W条
【定义问题】
依据上图的思维导图,我对主问题做了如下分解:
- 日本市场各年度游戏总销量有何变化,和全球总销量趋势变化是否一致
- 日本市场各年度游戏销量全球占比有何变化
- 日本市场各年度各发行商产品销量有何变化
- 日本市场各年度各平台产品销量有何变化
- 日本市场各年度各类型游戏销量有何变化
【数据清洗】
使用工具:Excel
我们按照如下步骤来做:
1、选择子集、字段重命名:
根据我们定义的问题,表中的每个字段都会需要,而本数据集字段名也是OK的,所以这两步不做处理。
2、删除重复值
本数据集中完全相同的一款游戏才是重复值,考