R语言期末大作业

最新推荐文章于 2024-04-02 00:10:40 发布

敲代码去

最新推荐文章于 2024-04-02 00:10:40 发布

阅读量3.5w

点赞数 58

分类专栏：课程设计 R语言文章标签： R语言课程设计

本文链接：https://blog.csdn.net/whj707216853/article/details/96117246

版权

该博客详细介绍了使用R语言进行游戏销量分析的过程，包括数据预处理、描述性统计、推断性统计、数据挖掘和预测分析。通过分析发现，北美与日本销量相关性不强，且不同地区游戏偏好各异。支持向量机在预测模型中表现出最佳性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自选数据集对之进行相应处理

一、题目要求

数据分析与挖掘要求

(1）按照后续分析需求，对数据进行预处理。

（2）描述性统计：选择合适的方法对数据进行统计分析。包括对数值型和类别型属性的统计，并对分析结果进行图形化的展示。

（3）推断性统计：选择合适的假设检验方法，分析属性间的相关性、两组数据间是否具有显著性差异，并得出结论。

（4）数据挖掘

分别利用分类、聚类以及时间序列方法挖掘蕴含在数据中的模式。

注意，对聚类结果分析聚簇特征，必要时可画图分析。

对分类结果计算准确性。

使用时间序列分析方法可判断数据是否存在趋势、周期性等特征，或对数据进行预测。

（5）附加题：除了上述要求，自由选择方法，分析数据特征或挖掘蕴涵模式，并展示结果，如地理热图等

数据分析与挖掘要求

(1）按照后续分析需求，对数据进行预处理。

（2）描述性统计：选择合适的方法对数据进行统计分析。包括对数值型和类别型属性的统计，并对分析结果进行图形化的展示。

（3）推断性统计：选择合适的假设检验方法，分析属性间的相关性、两组数据间是否具有显著性差异，并得出结论。

（4）数据挖掘

分别利用分类、聚类以及时间序列方法挖掘蕴含在数据中的模式。

注意，对聚类结果分析聚簇特征，必要时可画图分析。

对分类结果计算准确性。

使用时间序列分析方法可判断数据是否存在趋势、周期性等特征，或对数据进行预测。

（5）附加题：除了上述要求，自由选择方法，分析数据特征或挖掘蕴涵模式，并展示结果，如地理热图等

二具体

一．大作业目的

针对视频游戏的销量分析，当前各大游戏平台，游戏发售情况各不相同，具体分析各大厂商发售的游戏以及在市场中的流行因素就具有极大的现实意义，通过对其的分析能让厂商抓住市场动向从而推出受玩家欢迎的游戏。
二．大作业内容
数据说明：
在这里插入图片描述
三．实现步骤

```
 打开R编辑器。
```
```
 导入数据，编写代码。
```
```
 调试代码。
```
```
 撰写报告。
```

四．实验结果
第一步：导入对应的包，并通读入需要分析的CSV文档

在这里插入图片描述

第二步：通过head和summary,和str语句查看当前的数据量和各列数据的情况。

在这里插入图片描述

由上图可知一共有16列即16个字段，16720行数据

第三步：进行数据预处理

最终目的探究影响游戏销量的主要因素是什么？我们先对数据进行预处理。

(1)#将发布年份和用户得分从字符串改为数字

game_df$Year_of_Release
= suppressWarnings(as.numeric(as.character(game_df$Year_of_Release)))

game_df$User_Score
= suppressWarnings(as.numeric(as.character(game_df$User_Score)))

2)#过滤发布时间小于2018年的

game_df
<- game_df %>% filter(game_df$Year_of_Release<=2018)

game_df
<- game_df %>% arrange(desc(Year_of_Release))

3)#再次查看数据集

summary(game_df)

在这里插入图片描述

第四步：进行描述性统计

（1）统计全球销量大于2000万的顶级游戏

我们首先对表格中游戏销量划分统计，通过ggplot绘制直方图分析。通过下图我们当前数据中可以看到全球游戏流行情况。
在这里插入图片描述

			图5 全球顶级游戏销售情况

（2）修改数据集中的评分变量为新的等级便于分析对比

#在评分变量中，我们有tbd和k-a，我将它们分别改为na和e

df_2$Rating[df_2$Rating
== 'K-A' & !is.na(df_2$Rating) ] <- 'E'

df_2$Rating[df_2$Rating
== 'RP' & !is.na(df_2$Rating) ] <- NA

#将[RP，EC，E，E10+，T，M，AO]改为[NA，1，2，3，4，5，6]作为因子，

##并分配给新的RatingN变量

df_2$Ratingn
<- as.numeric(as.character(factor(df_2$Rating, 

                        levels
=c("RP", "EC", "E" ,"E10+",
"T", "M","AO"),

                        labels =
c(NA,1,2,3,4,5,6))))

(3)
#根据图表，最热门的游戏是：WII运动，超级马里奥。

#但这在地区上可能有所不同。让我们检查一下

#哪些游戏在哪个地区销售；日本、北美、欧洲和其他国家（非洲、亚洲等）

#每个地区对最高销售额有不同的限制（前5名游戏）

在这里插入图片描述

#在不同地区销售的前5款游戏,根据这张图,可得出结论；

#日本：在DS和GB:平台模拟益智类游戏

#北美：WII和NES:体育平台类游戏

#欧洲：WII和DS:运动杂项平台类游戏

#其他：在PS2和WII中:动作体育比赛类游戏
（3）#每一年发布的游戏数量是多少？

在这里插入图片描述

#如我们所见，大约在2008年和2009年，是销售不同类型游戏的高峰期。

#最近，游戏变得越来越耗时，需要更长的开发时间

#时间和更高的成本，所以发布的数量减少了。

（4）将游戏平台进行分类处理

#分类变量

#我们有31个不同的平台。当然，其中一些属于同一类（电脑、索尼、任天堂）

#10个内部平台

nintendoplatforms
=
c("3DS","DS","GB","GBA","N64","GC",
"NES","SNES","Wii","WiiU")

#

索尼平台

sonyplatforms
=
c("PS","PS2","PSP","PS3","PS4","PSV")

#世嘉平台

segaplatforms
= c("GEN","SCD","DC","GG")

#微软平台

msplatforms
= c("XB","X360", "XOne")

#其他平台

otherplatforms
=
c("2600","3DO","NG","PCFX","TG16")

#把个人电脑单独放在电脑里

df_2$Platformvendor[df_2$Platform
%in% nintendoplatforms] <- "nintendo"

df_2$Platformvendor[df_2$Platform
%in% sonyplatforms] <- "sony"

df_2$Platformvendor[df_2$Platform
%in% msplatforms] <- "microsoft"

df_2$Platformvendor[df_2$Platform
%in% segaplatforms] <- "sega"

df_2$Platformvendor[df_2$Platform
== "PC"] <- "computer"     # 
for computer

df_2$Platformvendor[is.na(df_2$Platformvendor)]
<- "other"

绘图展现

最低0.47元/天解锁文章