预测NBA全明星

最新推荐文章于 2022-05-16 21:44:01 发布

zhenglit

最新推荐文章于 2022-05-16 21:44:01 发布

阅读量811

点赞数

分类专栏：数据分析文章标签：数据分析 r语言逻辑回归

本文链接：https://blog.csdn.net/zhenglit/article/details/104882158

版权

数据分析专栏收录该内容

31 篇文章

订阅专栏

以下内容为zhenglit原创，供大家学习研究，转载请声明来源。

一、背景和数据
NBA每年都会举办一次全明星赛，用于回馈球迷和社会。每一个篮球明星都是经过一定的票选选出来的，虽然选法不尽相同，但总体上一个原则：越优秀的运动员越可能被选上。怎么定义优秀？一般从运动员的得分、防守、球队胜利等方面来评价（当然还有可能基于运动员当年的市场火热程度/是不是招黑等），每个投票者（球迷或教练）心里都会有一个标准。因此可以根据运动员赛季的表现来预测谁可以被选上NBA全明星。以下数据给出了12-13、13-14、14-15、15-16、16-17五个赛季的球员的所有赛场相关数据，用前四个赛季作为训练集，第五个赛季作为测试集，来建立一个NBA全明星候选人预测模型。

#下表：数据集字段名，名称含义可根据英文字母识别。

id	player_name	season	team	appearances	starter_apearances	appearances_time
field_goal_percentage	shots_made	shots_try	three_pointer_percentage	three_shots_made	three_shots_try	free_throws_percentage
free_throw_made	free_throws_try	rebounds	offensive_rebounds	defensive_rebounds	assists	steals
blocks	turnovers	fouls	scores	wins	loses	is_allstar

数据：https://pan.baidu.com/s/1PfHl3o-PlBMgzblSv3wrHw 提取码: 16cg

二、相关代码

1、数据预处理

data <- read.csv("nba_playerdata.csv") #读取数据
data_clean <- na.omit(data) #删除NA行
data_train <- data_clean[which(data_clean$season != "16-17"),] #构造训练集
length(data_train$id) #1643行
data_test <- data_clean[which(data_clean$season == "16-17"),]#构造测试集
length(data_test$id) #439行
data_train <- subset(data_train,select = -c(id,player_name,season,team)) #剔除训练集非特征属性
length(data_train) #24个特征
data_test <- subset(data_test,select = -c(id,player_name,season,team)) #剔除测试集非特征属性
length(data_test) #24个特征

2、模型建立与预测

pre=glm(is_allstar~.,data=data_train,family=binomial(link="logit")) #进行模型训练，用的是逻辑回归模型
summary(pre)
predict=predict.glm(pre,type="response",newdata=data_test) #用训练好的模型进行预测，得出每一个case的概率
pre_allstar <- ifelse(predict > 0.8,1,0) #以0.5为门槛进行0-1变换
sum(pre_allstar) #0.8的门槛能预测出17个全明星，但每年两只球队共有24个全明星
pre_allstar <- ifelse(predict > 0.6,1,0) #不断尝试圈出24个全明星
sum(pre_allstar) #0.6的门槛圈出24个明星
pre_result <- data_clean[which(data_clean$season == "16-17"),]
pre_result$predict <- predict
pre_result$pre_allstar <- pre_allstar
write.csv(pre_result,"pre_result.csv") #读出预测结果
pre_allstar_case <- pre_result[which(pre_result$pre_allstar == 1),]
pre_allstar_case$player_name # 打印出预测的全明星名单
real_allstar_case <- pre_result[which(pre_result$is_allstar == 1),]
real_allstar_case$player_name #打印出实际的全明星名单

3、模型评估

accuracy <- 1-sum(abs(pre_result$pre_allstar-pre_result$is_allstar))/length(pre_result$is_allstar)
accuracy #模型准确度为0.968
recall <- sum(real_allstar_case$pre_allstar)/sum(real_allstar_case$is_allstar)
recall <- #模型召回率为0.708
library(pROC)
modelroc <- roc(data_test$is_allstar,predict)
plot(modelroc, print.auc=TRUE, auc.polygon=TRUE, grid=c(0.1, 0.2),grid.col=c("green", "red"), max.auc.polygon=TRUE,auc.polygon.col="skyblue", print.thres=TRUE)
# 画出ROC曲线，AUC=0.988

三、结果与评价

我比较了一下实际名单和预测名单，如果纯粹按照模型结果来看，16-17赛季肯巴-沃克、卡梅罗-安东尼、凯尔-洛瑞、马克-加索尔、保罗-米尔萨普、德安德鲁-乔丹、德雷蒙德-格林这7位不应该入选全明星，能进全明星可能是由于当时的舆论及个人魅力（当然这一点是入选全明星的重要参考），比如格林借助勇士风光入选，小乔丹社交平台拉票，安东尼过往明星效应延续等等。如果纯从技术和球队战绩角度（这也是模型的视角）来看，取代这7个人的应该是：达米安-利拉德、卡尔-安东尼-唐斯、C.J.麦科勒姆、布雷克-格里芬、凯文-乐福、克里斯-保罗、拉马库斯-阿尔德里奇，利拉德、麦科勒姆、阿尔德里奇都是我非常喜欢的球员（我觉得至少这三个应该入选），这一年利拉德没进全明星也引起了很大的争议。