Python 中的最小二乘和最小均方

最新推荐文章于 2022-02-22 01:37:31 发布

pxr007

最新推荐文章于 2022-02-22 01:37:31 发布

阅读量277

点赞数

文章标签： python 算法

本文链接：https://blog.csdn.net/weixin_47967031/article/details/119985101

版权

本文介绍了如何使用Python实现最小二乘法和最小均方误差来创建分类器，该分类器针对足球比赛预测数据进行训练和测试。通过10折验证，发现最小二乘法的成功率为55%，而最小均方误差的成功率为45%，作者对于算法的理论理解和实现感到困惑，寻求反馈和改进意见。

摘要由CSDN通过智能技术生成

我有一个足球比赛数据库，对于每场比赛，我都有各种博彩公司对比赛结果的预测作为特征。对于每家公司，我有三个预测，一个是“主队”获胜，一个是平局，一个是“客队”获胜。我还提供了每场比赛的实际结果，用作训练标签。任务是使用最小二乘法和最小均方法创建分类器，可以使用来自每个公司的一些训练数据进行训练，然后使用一些测试数据来确定每个公司的预测的准确程度。因此，分类器必须将三个特征（单个公司的预测）作为输入，并给出三个类别之一作为输出，主队获胜、平局或客队获胜（在代码中用 H 表示，分别为 A 和 D）。分类器还必须使用 10 折验证。对于这个问题的范围，我将专注于算法的实现。经过在互联网上的大量研究，阅读各种文章，大学的演讲，观看教程并尝试理解其他人的代码，我想出了下面提供的代码。

以下代码段是使用最小二乘分类器计算公司预测准确性的函数。创业使用最小二乘法的线性代数公式，即 w = (X^T * X ) ^ (-1) * X^T * y ，其中 X 是训练数据矩阵，y 是训练标签矩阵，w 是将在测试数据分类期间生成和使用的权重向量。该函数从 sqlite 数据库中提取数据，并将其中大约 60% 的数据用作训练数据，而将其余数据用作测试数据。

<span style="background-color:var(--highlight-bg)"><span style="color:var(--highlight-color)"><code class="language-python"><span style="color:var(--highlight-keyword)">import</span> sqlite3
<span style="color:var(--highlight-keyword)">import</span> math
<span style="color:var(--highlight-keyword)">import</span> numpy <span style="color:var(--highlight-keyword)">as</span> np
<span style="color:var(--highlight-keyword)">import</span> pandas <span style="color:var(--highlight-keyword)">as</span> pd

<span style="color:var(--highlight-keyword)">def</span> <span style="color:var(--highlight-literal)">calculate_accuracy_ls</span>(company, k_fold_val = <span style="color:var(--highlight-literal)">False</span>, train_set = <span style="color:var(--highlight-literal)">None</span>, test_set = <span style="color:var(--highlight-literal)">None</span>):

    <span style="color:var(--highlight-keyword)">if</span> k_fold_val <span style="color:var(--highlight-keyword)">is</span> <span style="color:var(--highlight-literal)">False</span>:
        <span style="color:var(--highlight-keyword)">if</span> company <span style="color:var(--highlight-keyword)">is</span> <span style="color:var(--highlight-literal)">None</span>:
            <span style="color:var(--highlight-literal)">print</span> (<span style="color:var(--highlight-variable)">"\nNo company name supplied. Exiting."</span>)
            quit()   
       
        <span style="color:var(--highlight-literal)">print</span> (<span style="color:var(--highlight-variable)">'\nUsing the Least Squares algorithm.'</span>)

        <span style="color:var(--highlight-literal)">print</span>(<span style="color:var(--highlight-variable)">'\nCompany: '</span>, company)   
        
        conn = sqlite3.connect(<span style="color:var(--highlight-variable)">'database.sqlite'</span>)
    
        query = <span style="color:var(--highlight-variable)">'SELECT CASE WHEN (home_team_goal - away_team_goal) > 0 THEN "H" WHEN (home_team_goal - away_team_goal) < 0 THEN "A" ELSE "D" END AS result, '</span> + company + <span style="color:var(--highlight-variable)">'H, '</span> + company + <span style="color:var(--highlight-variable)">'A, '</span> + company + <span style="color:var(--highlight-variable)">'D FROM Match WHERE NOT (B365H IS NULL OR B365A IS NULL OR B365D IS NULL OR BWH IS NULL OR BWA IS NULL OR BWD IS NULL OR IWH IS NULL OR IWA IS NULL OR IWD IS NULL OR LBH IS NULL OR LBA IS NULL OR LBD IS NULL)'</span>
        df = pd.read_sql_query(query, conn)
        conn.close()
        df = fix_outliers(df)
        df_shuffled=df.sample(frac=<span style="color:var(--highlight-namespace)">1</span>).reset_index(drop=<span style="color:var(--highlight-literal)">True</span>)  

        rowcount = math.floor(<span style="color:var(--highlight-literal)">len</span>(df) * <span style="color:var(--highlight-namespace)">0.6</span>)
        train_set = df_shuffled.iloc[:rowcount, :]
        test_set = df_shuffled.iloc[(rowcount + <span style="color:var(--highlight-namespace)">1</span> ):,:]

    x = np.matrix(np.zeros((<span style="color:var(--highlight-literal)">len</span>(train_set),<span style="color:var(--highlight-namespace)">4</span>)))
    y = np.matrix(np.zeros((<span style="color:var(--highlight-literal)">len</span>(train_set),<span style="color:var(--highlight-namespace)">3</span>)))

    <span style="color:var(--highlight-keyword)">for</span> i, row <span style="color:var(--highlight-keyword)">in</span> train_set.iterrows():
        x[i] = [row[<span style="color:var(--highlight-namespace)">1</span>], row[<span style="color:var(--highlight-namespace)">2</span>], row[<span style="color:var(--highlight-namespace)">3</span>],

最低0.47元/天解锁文章

pxr007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python 中的最小二乘和最小均方

我有一个足球比赛数据库，对于每场比赛，我都有各种博彩公司对比赛结果的预测作为特征。对于每家公司，我有三个预测，一个是“主队”获胜，一个是平局，一个是“客队”获胜。我还提供了每场比赛的实际结果，用作训练标签。任务是使用最小二乘法和最小均方法创建分类器，可以使用来自每个公司的一些训练数据进行训练，然后使用一些测试数据来确定每个公司的预测的准确程度。因此，分类器必须将三个特征（单个公司的预测）作为输入，并给出三个类别之一作为输出，主队获胜、平局或客队获胜（在代码中用 H 表示，分别为 A 和 D）。分类器还必须.
复制链接

扫一扫