R语言——googleplaystore数据和googleplaystore_user_reviews数据描述性统计分析

使用R语言对Googleplaystore数据进行描述性统计分析,发现评分集中在4-5,平均分为4.17。游戏、家庭、工具、商业和生产类应用占据市场份额前五。评论数与下载量呈正相关,高分付费app多为轻量级,内存2~40MB。评论分析显示,好评与正面词汇相关,差评与问题、广告相关。
摘要由CSDN通过智能技术生成

一、Googleplaystore数据:

这组数据集提供了13个变量——App的名称、Category(分类)、Rating(评分)、Reviews(评论数)、Size(大小)、Installs(下载量)、Type(免费还是付费)、Price(价格)、Content.Rating(内容评级)、Genres(风格)、Last.updated(最近一次更新的时间)、Current.Ver(目前的版本)、Android.Ver(安卓的版本)

其中定类变量为:Category、Type、Content.Rating、Genres。
定序变量为:Rating、Reviews、Size、Installs、Price。

数据预处理

data<-read.csv("C://Users//Administrator//Desktop//2.csv",na.strings=c("NA","","NAN","NaN"))
#仅保留type中free和paid的数据
a<-which(data$Type!="Free" & data$Type!="Paid")
data=data[-a,]
#判别数据中哪些变量存在缺失值
which(is.na(data$Android.Ver)==TRUE)
#发现Rating、Type、Content Rating、Current Ver、Android Ver含有缺失值
#去除App重复数据
data=data[!duplicated(data[,1]),]
#去除缺失数据
data=na.omit(data)
#将installs中的+,去除
Installs<-gsub("[^[:alnum:]///' ]", "", data[,6])
data=data[,-6]
#将szie中存在'Varies with device',‘M’去除;k在excel中去除并已单位统一
Size<-gsub("[M]", "", data[,5])
Size<-gsub("[Varies with device]", "", Size)
data=data[,-5]
#‘Price'中存在'$',需要去除
Price=gsub("[$]","",data[,6])
data=data[,-6]
#整合数据
da=cbind(data,Installs,Size,Price)

描述性统计并绘图
其中定类变量为:Category、Type、Content.Rating、Genres。
定序变量为:Rating、Reviews、Size、Installs、Price。
【注:游戏版本根据各游戏发布时间有差异,因此不做分析】

(1)先将所有的定序变量做交互分析,寻找数据可能存在的关系

#将变量转换为数值型
Rating=as.numeric(as.character(da$Rating))
Size=as.numeric(as.character(da$Size))
Price=as.numeric(as.character(da$Price))
Reviews=as.numeric(as.character(da$Reviews))
Installs=as.numeric(as.character(da$Installs))
da2=cbind(Rating,Size,Price,Reviews,Installs)
library(corrplot)
da2_cor<-cor(da2) 
col3 <- colorRampPalette(c("blue"
  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值