Python 中的最小二乘和最小均方

本文介绍了如何使用Python实现最小二乘法和最小均方误差来创建分类器,该分类器针对足球比赛预测数据进行训练和测试。通过10折验证,发现最小二乘法的成功率为55%,而最小均方误差的成功率为45%,作者对于算法的理论理解和实现感到困惑,寻求反馈和改进意见。
摘要由CSDN通过智能技术生成

我有一个足球比赛数据库,对于每场比赛,我都有各种博彩公司对比赛结果的预测作为特征。对于每家公司,我有三个预测,一个是“主队”获胜,一个是平局,一个是“客队”获胜。我还提供了每场比赛的实际结果,用作训练标签。任务是使用最小二乘法和最小均方法创建分类器,可以使用来自每个公司的一些训练数据进行训练,然后使用一些测试数据来确定每个公司的预测的准确程度。因此,分类器必须将三个特征(单个公司的预测)作为输入,并给出三个类别之一作为输出,主队获胜、平局或客队获胜(在代码中用 H 表示,分别为 A 和 D)。分类器还必须使用 10 折验证。对于这个问题的范围,我将专注于算法的实现。经过在互联网上的大量研究,阅读各种文章,大学的演讲,观看教程并尝试理解其他人的代码,我想出了下面提供的代码。

以下代码段是使用最小二乘分类器计算公司预测准确性的函数。创业使用最小二乘法的线性代数公式,即 w = (X^T * X ) ^ (-1) * X^T * y ,其中 X 是训练数据矩阵,y 是训练标签矩阵,w 是将在测试数据分类期间生成和使用的权重向量。该函数从 sqlite 数据库中提取数据,并将其中大约 60% 的数据用作训练数据,而将其余数据用作测试数据。

<span style="background-color:var(--highlight-bg)"><span style="color:var(--highlight-color)"><code class="language-python"><span style="color:var(--highlight-keyword)">import</span> sqlite3
<span style="color:var(--highlight-keyword)">import</span> math
<span style="color:var(--highlight-keyword)">import</span> numpy <span style="color:var(--highlight-keyword)">as</span> np
<span style="color:var(--highlight-keyword)">import</span> pandas <span style="color:var(--highlight-keyword)">as</span> pd

<span style="color:var(--highlight-keyword)">def</span> <span style="color:var(--highlight-literal)">calculate_accuracy_ls</span>(company, k_fold_val = <span style="color:var(--highlight-literal)">False</span>, train_set = <span style="color:var(--highlight-literal)">None</span>, test_set = <span style="color:var(--highlight-literal)">None</span>):

    <span style="color:var(--highlight-keyword)">if</span> k_fold_val <span style="color:var(--highlight-keyword)">is</span> <span style="color:var(--highlight-literal)">False</span>:
        <span style="color:var(--highlight-keyword)">if</span> company <span style="color:var(--highlight-keyword)">is</span> <span style="color:var(--highlight-literal)">None</span>:
            <span style="color:var(--highlight-literal)">print</span> (<span style="color:var(--highlight-variable)">"\nNo company name supplied. Exiting."</span>)
            quit()   
       
        <span style="color:var(--highlight-literal)">print</span> (<span style="color:var(--highlight-variable)">'\nUsing the Least Squares algorithm.'</span>)

        <span style="color:var(--highlight-literal)">print</span>(<span style="color:var(--highlight-variable)">'\nCompany: '</span>, company)   
        
        conn = sqlite3.connect(<span style="color:var(--highlight-variable)">'database.sqlite'</span>)
    
        query = <span style="color:var(--highlight-variable)">'SELECT CASE WHEN (home_team_goal - away_team_goal) > 0 THEN "H" WHEN (home_team_goal - away_team_goal) < 0 THEN "A" ELSE "D" END AS result, '</span> + company + <span style="color:var(--highlight-variable)">'H, '</span> + company + <span style="color:var(--highlight-variable)">'A, '</span> + company + <span style="color:var(--highlight-variable)">'D FROM Match WHERE NOT (B365H IS NULL OR B365A IS NULL OR B365D IS NULL OR BWH IS NULL OR BWA IS NULL OR BWD IS NULL OR IWH IS NULL OR IWA IS NULL OR IWD IS NULL OR LBH IS NULL OR LBA IS NULL OR LBD IS NULL)'</span>
        df = pd.read_sql_query(query, conn)
        conn.close()
        df = fix_outliers(df)
        df_shuffled=df.sample(frac=<span style="color:var(--highlight-namespace)">1</span>).reset_index(drop=<span style="color:var(--highlight-literal)">True</span>)  

        rowcount = math.floor(<span style="color:var(--highlight-literal)">len</span>(df) * <span style="color:var(--highlight-namespace)">0.6</span>)
        train_set = df_shuffled.iloc[:rowcount, :]
        test_set = df_shuffled.iloc[(rowcount + <span style="color:var(--highlight-namespace)">1</span> ):,:]

    x = np.matrix(np.zeros((<span style="color:var(--highlight-literal)">len</span>(train_set),<span style="color:var(--highlight-namespace)">4</span>)))
    y = np.matrix(np.zeros((<span style="color:var(--highlight-literal)">len</span>(train_set),<span style="color:var(--highlight-namespace)">3</span>)))

    <span style="color:var(--highlight-keyword)">for</span> i, row <span style="color:var(--highlight-keyword)">in</span> train_set.iterrows():
        x[i] = [row[<span style="color:var(--highlight-namespace)">1</span>], row[<span style="color:var(--highlight-namespace)">2</span>], row[<span style="color:var(--highlight-namespace)">3</span>],
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

pxr007

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值