自选数据集对之进行相应处理
一、题目要求
数据分析与挖掘要求
(1)按照后续分析需求,对数据进行预处理。
(2)描述性统计:选择合适的方法对数据进行统计分析。包括对数值型和类别型属性的统计,并对分析结果进行图形化的展示。
(3)推断性统计:选择合适的假设检验方法,分析属性间的相关性、两组数据间是否具有显著性差异,并得出结论。
(4)数据挖掘
分别利用分类、聚类以及时间序列方法挖掘蕴含在数据中的模式。
注意,对聚类结果分析聚簇特征,必要时可画图分析。
对分类结果计算准确性。
使用时间序列分析方法可判断数据是否存在趋势、周期性等特征,或对数据进行预测。
(5)附加题:除了上述要求,自由选择方法,分析数据特征或挖掘蕴涵模式,并展示结果,如地理热图等
数据分析与挖掘要求
(1)按照后续分析需求,对数据进行预处理。
(2)描述性统计:选择合适的方法对数据进行统计分析。包括对数值型和类别型属性的统计,并对分析结果进行图形化的展示。
(3)推断性统计:选择合适的假设检验方法,分析属性间的相关性、两组数据间是否具有显著性差异,并得出结论。
(4)数据挖掘
分别利用分类、聚类以及时间序列方法挖掘蕴含在数据中的模式。
注意,对聚类结果分析聚簇特征,必要时可画图分析。
对分类结果计算准确性。
使用时间序列分析方法可判断数据是否存在趋势、周期性等特征,或对数据进行预测。
(5)附加题:除了上述要求,自由选择方法,分析数据特征或挖掘蕴涵模式,并展示结果,如地理热图等
二具体
一.大作业目的
针对视频游戏的销量分析,当前各大游戏平台,游戏发售情况各不相同,具体分析各大厂商发售的游戏以及在市场中的流行因素就具有极大的现实意义,通过对其的分析能让厂商抓住市场动向从而推出受玩家欢迎的游戏。
二.大作业内容
数据说明:
三.实现步骤
-
打开R编辑器。
-
导入数据,编写代码。
-
调试代码。
-
撰写报告。
四.实验结果
第一步:导入对应的包,并通读入需要分析的CSV文档
第二步:通过head和summary,和str语句查看当前的数据量和各列数据的情况。
由上图可知一共有16列即16个字段,16720行数据
第三步:进行数据预处理
最终目的探究影响游戏销量的主要因素是什么?我们先对数据进行预处理。
(1)#将发布年份和用户得分从字符串改为数字
game_df$Year_of_Release
= suppressWarnings(as.numeric(as.character(game_df$Year_of_Release)))
game_df$User_Score
= suppressWarnings(as.numeric(as.character(game_df$User_Score)))
2)#过滤发布时间小于2018年的
game_df
<- game_df %>% filter(game_df$Year_of_Release<=2018)
game_df
<- game_df %>% arrange(desc(Year_of_Release))
3)#再次查看数据集
summary(game_df)
第四步:进行描述性统计
(1)统计全球销量大于2000万的顶级游戏
我们首先对表格中游戏销量划分统计,通过ggplot绘制直方图分析。通过下图我们当前数据中可以看到全球游戏流行情况。
图5 全球顶级游戏销售情况
(2)修改数据集中的评分变量为新的等级便于分析对比
#在评分变量中,我们有tbd和k-a,我将它们分别改为na和e
df_2$Rating[df_2$Rating
== 'K-A' & !is.na(df_2$Rating) ] <- 'E'
df_2$Rating[df_2$Rating
== 'RP' & !is.na(df_2$Rating) ] <- NA
#将[RP,EC,E,E10+,T,M,AO]改为[NA,1,2,3,4,5,6]作为因子,
##并分配给新的RatingN变量
df_2$Ratingn
<- as.numeric(as.character(factor(df_2$Rating,
levels
=c("RP", "EC", "E" ,"E10+",
"T", "M","AO"),
labels =
c(NA,1,2,3,4,5,6))))
(3)
#根据图表,最热门的游戏是:WII运动,超级马里奥。
#但这在地区上可能有所不同。让我们检查一下
#哪些游戏在哪个地区销售;日本、北美、欧洲和其他国家(非洲、亚洲等)
#每个地区对最高销售额有不同的限制(前5名游戏)
#在不同地区销售的前5款游戏,根据这张图,可得出结论;
#日本:在DS和GB:平台模拟益智类游戏
#北美:WII和NES:体育平台类游戏
#欧洲:WII和DS:运动杂项平台类游戏
#其他:在PS2和WII中:动作体育比赛类游戏
(3)#每一年发布的游戏数量是多少?
#如我们所见,大约在2008年和2009年,是销售不同类型游戏的高峰期。
#最近,游戏变得越来越耗时,需要更长的开发时间
#时间和更高的成本,所以发布的数量减少了。
(4)将游戏平台进行分类处理
#分类变量
#我们有31个不同的平台。当然,其中一些属于同一类(电脑、索尼、任天堂)
#10个内部平台
nintendoplatforms
=
c("3DS","DS","GB","GBA","N64","GC",
"NES","SNES","Wii","WiiU")
#
索尼平台
sonyplatforms
=
c("PS","PS2","PSP","PS3","PS4","PSV")
#世嘉平台
segaplatforms
= c("GEN","SCD","DC","GG")
#微软平台
msplatforms
= c("XB","X360", "XOne")
#其他平台
otherplatforms
=
c("2600","3DO","NG","PCFX","TG16")
#把个人电脑单独放在电脑里
df_2$Platformvendor[df_2$Platform
%in% nintendoplatforms] <- "nintendo"
df_2$Platformvendor[df_2$Platform
%in% sonyplatforms] <- "sony"
df_2$Platformvendor[df_2$Platform
%in% msplatforms] <- "microsoft"
df_2$Platformvendor[df_2$Platform
%in% segaplatforms] <- "sega"
df_2$Platformvendor[df_2$Platform
== "PC"] <- "computer" #
for computer
df_2$Platformvendor[is.na(df_2$Platformvendor)]
<- "other"
绘图展现