基于关联规则的足球比赛数据分析

本文通过对中超联赛数据的收集和处理,使用Apriori算法进行关联规则分析,揭示了射门次数、控球率、传球成功率等关键指标与比赛胜负的紧密联系。结果显示,控球率50%、传球成功率达到79%和过人12次,赢球概率达76.92%,而射门14次、传球成功率79%、失误8次则可能导致输球,输球概率高达83.33%。
摘要由CSDN通过智能技术生成

1、明确分析的目的和思路

目的:目前,足球比赛作为大众娱乐项目的一种,越来越受到大家的喜爱,其中不乏一些球队死忠、球星铁粉以及“赌球狗”,而希望自己支持的球队获胜也是足球比赛中的一大关注点。针对这种情况,本文通过足球比赛中产生的数据,比如射门次数、控球率、传球成功率等,运用关联规则算法进行建模、分析,探索足球比赛的胜负与哪些关键指标的关系密切。

思路:以本赛季的中超联赛(目前进行到第18轮)为分析对象,爬取体育网站上的各场比赛数据和胜负结果,经过数据处理后,采用Apriori算法,挖掘各数据指标与比赛结果之间的关系。

2、数据收集

对tzuqiu网站(http://www.tzuqiu.cc/)上的每场中超比赛的数据进行爬取,包括:1、射门次数,2、控球率,3、传球成功率,4、过人次数,5、抢断次数,6、角球次数,7、失误次数,以及比赛结果(胜、平、负)。如图1所示:

图1 指标爬取示意图

最终结果共288条记录(18轮*每轮8场比赛*每场2支球队),结果如图2所示:

图2 爬取结果

3、数据处理

使用Rstudio工具进行处理。

(1)数据清洗

首先导入数据,然后处理缺失值。

考虑到含有缺失值的记录较少(只有2条,第13轮上海上港与广州恒大的比赛因为天气原因延期进行),决定把源数据中含有缺失值的记录删除。

data = read.csv(file="csl_data.csv",header = TRUE) #导入数据

h
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值