TowardsDataScience 博客中文翻译 2020（三百四十四）

最新推荐文章于 2025-03-09 08:41:56 发布

绝不原创的飞龙

最新推荐文章于 2025-03-09 08:41:56 发布

阅读量1.1k

点赞数 29

分类专栏： MLM 文章标签： MLM

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

本文链接：https://blog.csdn.net/wizardforcel/article/details/142698336

版权

MLM 专栏收录该内容

3744 篇文章

订阅专栏

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

NER 任务的实体级评估

原文：https://towardsdatascience.com/entity-level-evaluation-for-ner-task-c21fb3a8edf?source=collection_archive---------7-----------------------

如何计算 NER 任务的混淆矩阵(TP，TN，FP，FN)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

亚历山大·安德鲁斯在 Unsplash 上拍摄的照片

当我们评估 NER(命名实体识别)任务时，有两种方法，令牌级方法和实体级方法。比如我们下面预测的这句话:“外交部发言人沈国放告诉路透社”。如果用令牌级评价，令牌“申”是对的，令牌“国芳”是错的。但是如果我们使用实体级评估，“沈国放”是一个完整的命名实体，因此对“沈”和“国放”的预测必须是“PER”和“PER”。否则，这是错误的预测实体，甚至令牌“申”被预测为“每”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

NER 预测的例子

实体级与令牌级

那么我们应该用哪种方法呢？

答案是实体级评测。正如任务名“命名实体”所表明的，我们真正关心的是我们的模型如何预测整个实体，而不是单独的标记。

我一般用sk learn-CRF suite来实现 CRF 模型，这个库很棒。但是它的一个缺点是使用的评估方法是令牌级评估。

precision    recall  f1-score   support

      B-LOC      0.775     0.757     0.766      1084
      I-LOC      0.601     0.631     0.616       325
     B-MISC      0.698     0.499     0.582       339
     I-MISC      0.644     0.567     0.603       557
      B-ORG      0.795     0.801     0.798      1400
      I-ORG      0.831     0.773     0.801      1104
      B-PER      0.812     0.876     0.843       735
      I-PER      0.873     0.931     0.901       634

avg / total      0.779     0.764     0.770      6178

我们希望对这些进行更改，以产生如下所示的实体级评估:

precision    recall  f1-score   support

      LOC      0.775     0.757     0.766      1084
     MISC      0.698     0.499     0.582       339
      ORG      0.795     0.801     0.798      1400
      PER      0.812     0.876     0.843       735

avg/total      0.779     0.764     0.770      6178

不使用官方的评测方法，我推荐使用这个工具， seqeval 。该库可以在实体级别运行评估。

>>> from seqeval.metrics import accuracy_score
>>> from seqeval.metrics import classification_report
>>> from seqeval.metrics import f1_score
>>> 
>>> y_true = [['O', 'O', 'O', 'B-MISC', 'I-MISC', 'I-MISC', 'O'], ['B-PER', 'I-PER', 'O']]
>>> y_pred = [['O', 'O', 'B-MISC', 'I-MISC', 'I-MISC', 'I-MISC', 'O'], ['B-PER', 'I-PER', 'O']]
>>>
>>> f1_score(y_true, y_pred)
0.50
>>> accuracy_score(y_true, y_pred)
0.80
>>> classification_report(y_true, y_pred)
             precision    recall  f1-score   support

       MISC       0.00      0.00      0.00         1
        PER       1.00      1.00      1.00         1

  micro avg       0.50      0.50      0.50         2
  macro avg       0.50      0.50      0.50         2

混淆矩阵计算

好了，我们已经有了一个很棒的解决度量计算的工具，为什么还要关心幕后的计算呢？

给一个人一条鱼，你可以喂他一天；教一个人钓鱼，你就喂了他一辈子。

混淆矩阵是机器学习领域的一个重要话题，但对于 NER 任务，关于如何计算混淆矩阵的帖子很少，所以我希望这篇帖子可以清除不确定性。

首先，我们写出混淆矩阵表:

然后计算精度、召回率和 F1:

我们用上面的例子来填充混淆矩阵表:

“外交部”算 FN，“路透社”算 TP。这两个很好区分。棘手的问题是预测何时会产生边界误差。如果模型产生了边界误差，我们算作两个误差。比如我们把实体“沈国放”算作两个错误，一个是 FN，一个是 FP。

我们忽略实体类型，并像这样填充混淆矩阵表:

然后计算矩阵:

代码实现

我们忽略实体类型，只计算上面例子中一个句子的混淆矩阵。为了更好的推广，代码实现必须考虑实体类型并计算所有句子的混淆矩阵。

查看我在 上的其他帖子 与 一个分类查看 ！
GitHub: 荆棘徐 领英: 徐亮 博客:

参考

https://www.youtube.com/watch?v=0uI_5FYd5k0

熵和信息增益

原文：https://towardsdatascience.com/entropy-and-information-gain-b738ca8abd2a?source=collection_archive---------19-----------------------

另一个用来做决策树分割的工具。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

杰克·布吕克在 Unsplash 上的照片

信息增益是另一种方法，也可用于优化选择分割数据集的要素。在我们继续学习信息增益之前，我们必须首先讨论熵，它是由香农(1948) 提出的。

熵

定义:【E】熵提供了对信源产生的数据进行无损压缩编码的最短可能平均长度的绝对限制，如果信源的熵小于通信信道的信道容量，则信源产生的数据可以可靠地传递给接收方。

这个定义非常难以理解，而且它不一定与我们讨论的决策树相关。 Shannon(1948) 将熵的概念用于通信理论，以确定如何将编码(比特)信息从发送者发送到接收者，而不丢失信息并使用最少的比特数。

请看看揭秘熵和香农熵背后的直觉，以获得一个容易理解的解释。

位

比特是什么？当使用 1 位数据的 if 语句时，我们通常有 TRUE 或 FALSE。一个位取单个二进制值 0(假)或 1(真)。请参见下表，了解存储容量如何随着每一位的增加而增加。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

x: 位数， n: 组数值

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马库斯·斯皮斯克在 Unsplash 拍摄的照片

无损的

这个概念仅仅意味着在从发送者到接收者的传输中没有信息丢失。

公式

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面的公式给出了最小平均编码大小，它使用每种消息类型的最小编码大小。

高熵:更多的不确定性

低熵:更多的可预测性

例子

我们将计算每次分裂的熵。例如，我们将对“情感”列进行两次拆分。一个写着“不恶心”，另一个写着“恶心”。

一旦我们完成了每次分割，我们就可以计算目标变量“stayhome”的熵。

信息增益

既然我们已经讨论了熵，我们可以继续讨论信息增益。这是分割要素上的数据后熵减少的概念。信息增益越大，熵或不确定性下降越大。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

T:拆分前的目标人群 T =∑{所有拆分}，拆分前的观察总数。
熵(T):测量分裂前的无序度，或不确定性水平
s{i}:第{i}次分割的观察次数
熵(s{i}):测量分裂 s{i}上目标变量的无序度

给定上面的例子，T=8，s{1}=5，s{2}=3，熵(s { 1 })= 0.9709…熵(s{2}) = 0.91829…$。很难判断，但是即使当我们使用特征“情感”分割原始数据集时，我们也没有获得太多信息来获得同质的桶(纯粹的集合来识别“N”或“Y”)。

正如你所看到的，我们在分裂的“情感”上获得的信息很少。我们可以通过分开温度来更好地休息吗？

这比我们获得的信息量有了很大的提高。让我们以表格的形式来看一下。正如你所看到的，我们已经从原始数据集中的平均分割，变成了在温度条件下的 25% / 75%分割。因此，我们获得了更多信息，因为我们能够将每个预测值放入具有相似值的桶中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

亚历克斯在 Unsplash 上的照片

附录

有时候，一个存储桶能够完全隔离其中一个决策参数，并正确地识别它。出现这种情况时，其他参数出现的概率为 0。我们不能取 log(0 ),因为它创建了一个— inf

此外，上面的代码是硬编码的，只能处理两种可能的结果。

决策树中的熵和信息增益

原文：https://towardsdatascience.com/entropy-and-information-gain-in-decision-trees-c7db67a3a293?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Unsplash 上的absolute vision拍摄

简单了解一些关键的信息论概念，以及在构建决策树算法时如何使用它们。

决策树算法应该使用什么标准来拆分变量/列？

在构建决策树算法之前，第一步是回答这个问题。我们来看看回答这个问题的方法之一。为此我们将需要理解一个使用来自信息论的几个关键概念。

让我们通过以下步骤来检查这种方法:

简单看一下什么是决策树。
定义并检查熵的公式。
讨论信息论中的一个位是什么。
定义信息增益和用熵来计算。
用上面的概念写一些基本的 Python 函数。

决策树

在数据科学中，决策树算法是一种用于分类或回归问题的监督学习算法。我们的最终目标是使用历史数据来预测结果。与线性回归不同，决策树可以提取数据中变量之间的非线性交互。

让我们看一个非常简单的决策树。下面是一个工作流程，可以用来决定是否吃花生酱饼干。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

关于是否吃饼干的决策树示例

在这个例子中，决策树可以发现这样一个事实，即只有在满足特定标准的情况下，您才应该吃 cookie。这是决策树的最终目标。我们希望继续做决策(拆分)，直到满足某些标准。一旦相遇，我们可以用它来分类或作出预测。这个例子非常简单，只使用了两个变量(过敏，破坏晚餐)。但是，如果您有一个包含数千个变量/列的数据集，您如何决定拆分哪些变量/列是最有效的呢？解决这个问题的一个流行的方法，特别是如果使用一个 ID3 算法，是使用熵和信息增益。

任务

假设我们有一些数据，我们想用它来做一个在线测验，预测一些关于应试者的事情。在查看了数据中的关系后，我们决定使用决策树算法。如果你从未被吸进过网上的小测验，你可以在这里 看到上百个例子 *。这个小测验的目标是猜测参加测验的人是否来自美国中西部的一个州。测验中的问题将围绕他们是否喜欢某种食物展开。下面是一个小的虚构数据集，有 15 个条目。每个条目都有一系列问题的答案。大多数问题都是关于他们是否喜欢某种食物，参与者回答(1)表示喜欢，回答(0)表示暂时喜欢。最后一栏(“中西部？”)是我们的**目标列，*意味着一旦构建了决策树，这就是我们试图猜测的分类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

熵

为了让我们开始，我们将使用一个叫做熵的信息论度量标准*。*在数据科学中，熵被用来衡量一列的“混合”程度。具体来说，熵是用来衡量无序的。让我们从寻找我们的目标列“中西部”的熵开始。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的目标专栏，“中西部？”

有十个人住在中西部，五个人不住在中西部。如果有人要问你这个群体有多混杂，你可以说是混杂的，大多数人(2/3)来自中西部。熵给了我们一个量化答案“有点混合”的方法。列中的(1)和(0)越混合，熵越高。如果“中西部？”有等量的(1)和(0)我们的熵将是 1。如果“中西部？”仅由(1)组成，熵将是 0。

我们可以用下面的公式来计算熵:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

熵的公式

让我们遍历公式的每一步，计算“中西部”的熵专栏。

我们需要遍历单个列中的每个唯一值，并将它赋给 I。列，可以是(0)或(1)。
然后，我们计算该值出现在数据中的概率。对于(1)的情况，概率为 10/15 。对于(0)的情况，概率为 5/15 。
我们取每种情况的概率，乘以概率的对数底 2。2 是最常见的基数，因为熵是用比特来度量的(后面会详细介绍)。为什么使用 2 的完整解释超出了本文的范围，但是 stack exchange 上的一个用户提供了一个很好的解释 。对于(1)的情况，我们得到 **10/15log2(10/15)* 。对于(0)的情况，我们得到 5/15*log2(5/15)。
接下来，我们从上述每个案例中取出我们的乘积，并将其相加。对于本例，10/15 * log2(10/15)+5/15 * log2(5/15)。
最后，我们对上面的总和，——(10/15 * log2(10/15)+5/15 * log2(5/15))。

一旦我们把所有的步骤放在一起，我们得到如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的最终熵是. 918278。那么，这到底意味着什么呢？

信息论和一点信息

展望未来，理解双边投资条约的概念是很重要的。在信息论中，一个比特被认为是一个二进制数，0 代表无信息，1 代表全比特信息。我们可以用二进制数来表示一位信息，因为它的值要么是(1)，要么是(0)。假设明天下雨(1)或不下雨(0)的概率相等。如果我告诉你明天会下雨，我已经给了你一点信息。

我们也可以认为熵是信息。假设我们有一个加载的六面骰子，它总是落在(3)上。每次我们掷骰子，我们预先知道结果将是(3)。我们滚动骰子并没有获得新的信息，所以熵是 0。另一方面，如果骰子离我们很远，我们掷出 a (3)，则有 1/6 的机会掷出(3)。现在我们获得了信息。因此，滚动骰子给我们一点信息——数字落在哪一边。

为了更深入地了解一点概念信息，你可以在这里阅读更多。

我们得到的信息少于一个“比特”——只有 0 . 918278——因为在“中西部”有更多的“1”这意味着，如果我们预测一个新的值，我们可以猜测答案是(1)，并且正确的概率大于错误的概率(因为答案是 1 的概率为 2/3)。由于这种先验知识，当我们观察一个新值时，我们获得的信息少于一个完整的“比特”。

用熵来做决策

我们的目标是在构建决策树时找到要拆分的最佳变量/列。最终，我们希望继续分割变量/列，直到我们的混合目标列不再是混合的。

例如，让我们看看“中西部”的熵在“土豆沙拉”上分割数据集后的列专栏。

分吃“土豆沙拉？”圆柱

上面，我们的数据集分为两部分。左边，喜欢土豆沙拉的各位。右边是所有不喜欢的人。我们把重心放在了左边，现在有七个人来自中西部，两个人不是。通过使用左边拆分中西部列的熵公式，新的熵是. 764204。这太棒了！我们的目标是降低熵，我们从. 918278 到. 764204。但是，我们不能就此止步，如果我们看看右边的列，我们的熵增加了，因为有等量的(1)和(0)，我们需要的是一种方法，看看熵在分裂的两边是如何变化的。信息增益的公式会做到这一点。它给了我们一个数字来量化我们每次分割数据时获得了多少信息。

信息增益

前面我们已经确定，我们希望拆分可以降低目标列的熵。当我们分吃“土豆沙拉”时我们在“中西部”看到了熵在左边倒下了。现在我们需要理解，当我们看分裂的两边时，总熵降低了。让我们来看看信息增益。

信息增益将使用以下公式:

让我们来分析一下这是怎么回事。

我们会回到我们的“土豆沙拉？”举例。上述公式中的变量将表示如下:

T = Target，我们的“中西部？”圆柱
A =我们正在测试的变量(列)“土豆 _ 沙拉？”
v =中的每个值,“土豆 _ 沙拉”中的每个值圆柱

首先，我们将计算分裂前(T)的原始熵， .918278
然后，对于变量(A)中的每个唯一值(v ),我们计算(A)取值(v)的行数，并将其除以总行数。“土豆沙拉？”列我们得到唯一值为(1)的 9/15 和唯一值为(0)的 6/15 。
接下来，我们将结果乘以(A)为(v)的行的熵。为左分裂(分裂 1 为“土豆 _ 沙拉？”)我们得到 9/15 * .764204 。对于右侧拆分(拆分为 0 表示“土豆 _ 沙拉？”)我们得到 6/15 * 1。
我们将所有这些子集乘积相加，9/14 * . 764204+6/15 = . 8585224。

5.然后我们从总熵中减去得到信息增益，. 918278-. 8585224 = . 059754

我们的信息增益是. 059754。这告诉我们什么？

这是另一种解释。我们正在寻找每个集合拆分后的熵，用每个拆分中的项目数对其进行加权，然后从当前熵中减去。如果结果是肯定的，我们已经通过拆分降低了熵。结果越高，我们降低的熵越多。

我们最终得到. 059754，这意味着我们通过在“土豆沙拉”上分割我们的数据集获得了. 059754 位信息。变量/列。我们的信息增益很低，但仍然是正的，这是因为我们降低了分裂左侧的熵。

现在我们需要对我们使用的每一列重复这个过程。让我们写一些 Python 代码，而不是手动完成。

用 Python 把它包起来

现在我们已经了解了信息增益，我们需要一种方法来重复这个过程，以找到具有最大信息增益的变量/列。为此，我们可以用 Python 创建几个简单的函数。

导入数据

让我们使用 Python pandas 库将上面的表转换成数据帧。我们将导入熊猫，并使用 read_csv() 函数制作一个名为“midwest”的数据帧。

*import pandas as pd
midwest = pd.read_csv('midwes.csv')*

熵的 Python 函数

对于这个函数，我们需要 NumPy 库来使用 bincount()函数，需要数学模块来使用 log()函数。

*import numpy
import math*

接下来，我们将用一个参数定义我们的函数。给出的参数将是我们试图计算熵的序列、列表或 NumPy 数组。

*def calc_entropy(column):*

我们需要找到列中每个案例的百分比。为此，我们可以使用 numpy.bincount() 函数。返回值是一个 NumPy 数组，它存储作为参数传递的列中每个唯一值的计数。

*counts = numpy.bincount(column)*

我们将通过将“计数”数组除以列的长度来存储每个唯一值的概率。

*probabilities  = counts / len(column)*

然后，我们可以初始化一个名为“熵”的变量，并将其设置为 0。

*entropy = 0*

接下来，我们可以使用“for 循环”遍历概率数组中的每个概率，并使用 math.log()函数将其乘以概率的以 2 为底的对数。然后，将每个案例添加到我们存储的熵变量中。 确保检查你的概率大于 0，否则 log(0)将返回未定义的*

*for prob in probabilities:
    if prob > 0:
       endtropy += prob * math.log(prob,2)*

最后，我们将返回我们的负熵变量。

*return -entropy*

现在一起:

太好了！现在我们可以建立一个函数来计算信息增益。

用于信息获取的 Python 函数

我们需要定义一个函数，它有三个参数，一个用于整个数据集，一个用于我们要拆分的列的名称，一个用于我们的目标列的名称。

*def calc_information_gain(data, split_name, target_name):*

接下来，我们可以使用前面的熵函数来计算目标列的原始熵。

*orginal_entropy = calc_entropy(data[target_name])*

现在我们需要拆分我们的列。

*对于这个例子，我们将只使用具有两个唯一的变量/列。如果您想在变量/列(如“年龄”)上进行拆分，有几种方法可以做到这一点。一种方法是分割每个唯一值。另一种方法是简化信息增益的计算，并通过不对每个唯一值进行拆分来使拆分更简单。取而代之的是被分割的变量/列的中间值。变量值低于中值的任何行都将转到左分支，其余的行将转到右分支。为了计算信息增益，我们只需要计算两个子集的熵。我们不会遍历这个方法，但是一旦对中间值进行了分割，剩下的步骤将与下面概述的相同。

因为我们正在处理的列只有两个唯一值，所以我们将进行左拆分和右拆分。

我们将从熊猫开始。Series.unique() 给出一个列中唯一值的数组

*values = data[split_name].unique()*

接下来，我们将使用“值”创建左右拆分。

*left_split = data[data[split_name] == values[0]]
right_split = data[data[split_name] == values[1]]*

现在我们可以初始化一个变量，从原始熵中减去。

*to_subtract = 0*

然后，我们将遍历通过拆分创建的每个子集，计算子集的概率，然后将概率和子集目标列的熵的乘积相加。

*for subset in [left_split, right_split]:
    prob = (subset.shape[0] / data.shape[0])
    to_subtract += prob * calc_entropy(subset[target_name])*

最后，我们可以返回从原始熵中减去 to _ subract 的差值。

*return original_entropy - to_subtract*

整个函数如下。

获得最高信息增益的 Python 函数

我们的最终函数将返回具有最高信息增益的变量/列名。

如前所述，在本例中，我们只使用具有两个唯一值的列。我们将把这些列名存储在一个列表中，以便在函数中使用。言归正传 w 我们将对这个示例进行硬编码，但是在大型数据集中，最好是编写代码来基于我们用来选择列的标准动态构建这个列表。

*columns = ['apple_pie?', 'potato_salad?', 'sushi?']*

让我们将最后一步封装在一个函数中，这样我们就可以在需要时重用它。它将有一个参数，即我们希望找到最高信息增益的列的列表。

*def highest_info_gain(columns):*

我们将初始化一个空字典来存储我们的信息收获。

*information_gains = {}*

然后我们可以遍历列列表，并将结果存储在 information_gains 字典中。

*for col in columns:
    information_gain = calc_information_gain(midwest, col, 'midwest?)
    information_gains[col] = information_gain*

最后，我们可以返回字典中最高值的键。

*return max(information_gains, key=information_gains.get)*

现在一起:

一旦我们执行了最后一个函数

*print(highest_info_gain(midwest, columns, 'midwest?'))
//sushi*

我们看到信息增益最高的变量/列是“寿司？”。

我们可以想象寿司的分割如下:

分割寿司列上的数据集

我们的左翼有六分之二来自中西部。来自中西部的九个人中有八个是右派。这是一个有效的分裂，降低了我们双方的熵。如果我们要继续，我们将使用递归来继续分裂每个分裂，目标是以零熵结束每个分支。

结论

决策树可以是一种有用的机器学习算法，用于提取数据中变量之间的非线性交互。在这个例子中，我们看了决策树分类算法的开始阶段。然后我们看了三个信息论概念，熵、比特和信息增益。通过使用这些概念，我们能够在 Python 中构建一些函数来决定哪些变量/列是最有效的分割。牢牢掌握了这些概念，我们就可以继续构建决策树了。

熵在股票市场中的应用

原文：https://towardsdatascience.com/entropy-application-in-the-stock-market-b211914ed1f3?source=collection_archive---------11-----------------------

用结构熵随时间监控相关网络

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

戴夫·塞贝莱在 Unsplash 上拍摄的照片

来自《走向数据科学》编辑的提示: 虽然我们允许独立作者根据我们的 规则和指导方针 发表文章，但我们并不认可每个作者的贡献。你不应该在没有寻求专业建议的情况下依赖一个作者的作品。详见我们的 读者术语 。

熵有很多定义和公式。总的来说正确的是，熵被用来衡量关于实验可能结果的信息、惊喜或不确定性。特别是，香农熵是统计学和机器学习中使用最频繁的熵。因此，这是我们关注的焦点。

惊喜和不确定性是金融市场中的日常概念。因此，使用熵作为工具来探索市场听起来是一个非常辛辣的想法。我们所期望的是揭示新指标和资产价格随时间的波动性之间的显著模式。

考虑到我们的目标，我认为有必要介绍一下 本工作 中提供的标准方法和注意事项。作者引入了结构熵的概念，并用它来监控一个基于相关性的网络，并将其应用于金融市场。

数据

在我们的分析中，我们使用从 Kaggle 上收集的数据集中的每日收盘价。它存储了 32 只股票，来自不同的市场部门，从 2000 年到 2018 年连续交易。对于数据集中的每只股票，我们得到其每日对数收益的时间序列。对数差额价格(对数收益)可以产生适合我们范围的稳定和正态分布的信号。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们开始用传统的测量方法研究数据中湍流的存在。波动性是对给定市场指数回报离差的统计度量。该指标指的是与市场变化规模相关的不确定性或风险水平。高波动水平对应于股票价格的大范围波动。这意味着一项资产的价格可以在短期内发生巨大的双向变化。较低的波动性意味着资产价值不会大幅波动，更趋于稳定。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用滑动窗口方法生成的个体(蓝色)和中位数聚集(红色)统计数据

在我们的例子中，高波动期出现在新千年的最初几年(网络泡沫)、2008 年(最近的金融危机)以及随后的一些时期。

结构熵

一个特别有趣的想法是将金融市场表示为基于相关性的网络。在金融市场的情况下，网络节点是金融资产，网络边缘是它们之间的相互作用，其中这种相互作用通常通过随时间推移的价格相关性的大小来衡量。将金融市场表示为网络对于识别动荡或结构性断裂是有价值的。

基于这种社区结构，结构熵是一种量化给定网络中结构多样性水平的度量。在这个框架中，结构熵是指网络中节点的异质性水平，其前提是共享功能或属性的节点比其他节点更具连通性。

为了计算给定时间范围内的结构熵，我们需要遵循定义的工作流程:

测量序列的皮尔逊相关性，得到一个 NxN 对称矩阵。
创建一个邻接矩阵作为网络边的表示。标准方法是使用阈值来确定相关矩阵的哪些值将被转换成网络中的边。
在邻接矩阵上，我们应用社区检测算法(在我们的例子中是连通分量)。
聚类过程的结果标签(整数向量)用于计算经典的香农熵。更具体地说，我们计算聚类计数频率的熵。结果值被定义为网络的结构熵。

将这些步骤放在一个滑动窗口过程中，我们可以监视我们感兴趣的系统中随时间的动态变化。结果是一个新的单一时间序列的结构熵值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源

一般来说，结构熵可以解释为众所周知的香农指数的调整版本。它们都是多样性的指标，但是结构熵可以从具有空间和时间依赖性的复杂结构中提取值。

在我们处理的系列上采用整个程序，产生了下面描述的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用不同的相邻矩阵阈值产生的结构熵

结构熵的最小可达值是 0，并且这是当网络中的所有节点被分配到相同社区(即，单个巨大社区)时获得的。当每个节点构成一个团体时，达到最大值。最大值取决于网络中节点的数量(观察到的级数)。

正如我们所看到的，在我们的例子中，结构熵可以捕捉到新千年早期(网络泡沫)、2008 年(最近的金融危机)以及随后一些时期的动荡。如果我们把相关矩阵想成一个图，并用散点来绘制，就可以直观地解释在引擎盖下发生了什么。点代表每只股票(我们的网络节点)，颜色是股票所属的聚类(由社区检测算法创建)，边是关系的强度，如果两只股票的相关性超过一定量，则绘制边。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随机相关矩阵取自高、中和低结构熵的时期

在结构熵最大的时期，股票倾向于保持独立，形成独特的集群。在中熵时期，我们可以看到一些股票属于同一个聚类，通过一些强相关性联系在一起。在低结构熵时期，大部分股票属于同一个群落，由大量的相关关系联系在一起。

摘要

在这篇文章中，我们介绍了一种观察价格序列几何结构变化的替代方法。资产的价格随着可用信息的变化而变化。信息的一个简单变化会立即反映在价格中。金融市场的相互关联性需要采取一种措施来捕捉空间和时间维度。从这个意义上来说，结构熵帮助我们在这种涉及不确定性的情况下进行陈述和计算。

查看我的 GITHUB 回购

保持联系: Linkedin

参考文献

结构熵:随时间监控基于相关性的网络及其在金融市场的应用。埃雷兹·什穆埃利·阿萨夫·阿尔莫格

熵、交叉熵和 KL 散度

原文：https://towardsdatascience.com/entropy-cross-entropy-and-kl-divergence-17138ffab87b?source=collection_archive---------11-----------------------

让我们通俗地理解熵

首先，感谢您对本文的兴趣。有很多媒介可能会把你重定向到这里——社交媒体网站、媒介内部推荐、直接链接、电子邮件、谷歌搜索结果等。不过，既然你被重定向了，我今天有个有趣的话题——熵。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

黄贯中在 Unsplash 上拍照

熵

如果你是一个随机读者…

如果文章推荐没有个性化，你对我来说就是一个随机读者。让我们假设有 50% 的几率一个随机读者会阅读整篇文章。所以，读完整篇文章的概率和不读整篇文章的概率是一样的。你可能会读，也可能不会。假设有一个完美的预测引擎，如果某个用户愿意读这篇文章，它会给我一些信息。所以，引擎说你是否会读这篇文章。它为我提供任何格式的信息——文本、音频、图像等。然而，无论是哪种格式，引擎，我都会得到一位信息— 读/不读。

每当一个新的随机用户访问我的文章时，我都会得到一点信息。那么对于一个新的随机用户，我平均能得到多少位信息呢？这些事件发生的可能性是相等的，所以一个新随机用户得到的平均信息量是 1 。这就是熵。这个随机事件的熵是 1 。

所以，事件的熵是事件的随机性或者事件结果的不确定性。如果我们知道事件的结果，它等于我们得到的平均信息量。

那么，如何计算熵呢？

熵是我们需要获得的平均信息量，以了解事件。为了知道事件的结果，我们需要将不确定性减少到 0(即确定性减少到 1)。如果某个事件 A 的概率是 p ，知道它的结果意味着用 1/p 的因子来减少不确定性。所以，我们需要 lg(1/p) 位数来了解事件，等于 -lg§ 。这是事件 A 发生时的熵值。同样，事件 A 没有发生时的熵值为 -lg(1-p) 。如果概率分布为伯努利带 p ，则事件的平均熵为 -p * lg§ -(1-p) * lg(1-p)。

如果你总是看我的整篇文章呢？

我想在这里记住我的女朋友。不管我写什么话题，她都喜欢看我的文章(咳咳……)。所以，这个事件在她的情况下是确定的。在这种情况下，结果没有不确定性，没有随机性，对吗？所以，猜测它的熵为 0 是有道理的，不是吗？让我们看看在这种情况下是否得到零熵。如果事件是确定的，概率是 1。这意味着我们不需要任何位数来了解事件。所以，我们需要得到的位数是 0。因此，熵为零。

现在，我的追随者怎么办？

我的关注者关注了我，因为他们对我通常写的主题感兴趣。所以，对于他们来说，阅读整篇文章的概率大于随机用户。我们假设概率是 0.75 。当我们思考这种情况下的事件时，不确定性减少了，对吗？让我们找出答案。

当关注者实际阅读整篇文章时，概率增加一个因子 4/3 [≈ lg(1.33) 位数】。但当关注者没有阅读整篇文章时，概率增加一个更大的因子，即 4 ( 2 位数)。我的关注者阅读文章的次数占 75%，所以这个概率分布的平均位数是:
≈0.75 * LG(1.33)+0.25 * LG(4)≈0.81

0.81 当然小于 1 。所以，我的追随者的熵更低。

如果有两个以上的可能事件呢？

熵公式可以推广到 n 个可能事件。公式是:
熵=-∑(I = 1…n)p _ I * LG(p _ I)

熵与事件数量

让我们来比较熵和这里的一些事件。直觉上，事件数量的增加会反过来增加熵，因为这增加了不确定性。让我们取 n 个等概率事件，计算概率分布的熵。

概率分布的熵变成:
-n (1/n) LG(1/n)= LG(n)

对数函数(任意底)是严格单调递增的，因此随着事件数量的增加，熵也增加。是的，我们的直觉是正确的。😃

交叉熵

了解事件所需的平均位数不同于用于传输信息的平均位数。交叉熵是用于传输信息的平均位数。交叉熵总是大于或等于熵。对于随机用户预测机，用于传送信息的比特数是 1 ，所以交叉熵是 1。

让我们来看一个有四种可能结果的概率分布——概率分别为 *0.5，0.25，0.125，*和 0.125 。如果我们用两个比特来传递这个信息，交叉熵就变成了 2 。等等，这种情况下的熵是多少？
熵= 0.5 * LG(2)+0.25 * LG(4)+0.125 * LG(8)+0.125 * LG(8)
= 0.5+0.5+0.375+0.375 = 1.75

在这种情况下，熵是 1.75，但我们使用 2 位来传输该信息，因此交叉熵= 2。这种交叉熵与熵之差叫做 KL 散度 。

当使用两位来传输所有情况的信息时，我们假设所有事件的概率为 1/(2 ) 。所以，实际 vs 预测(或假设)的概率分布是:
0.5 vs 0.25，0.25 vs 0.25，0.125 vs 0.25，0.125 vs 0.25。

如果我们使用 1 位来传输第一事件信息(1)，2 位来传输第二事件信息(10)，3 位来传输第三事件信息(101)，还有 3 位来传输第四事件信息(100)，我们将使用最佳消息长度。因此，当我们对不同的事件采用不同的消息长度时，我们隐含地预测了概率分布。我们得到的交叉熵值越大，预测的概率分布就越偏离实际的概率分布。因此，交叉熵也可以用于计算实际概率分布和预测概率分布之间的距离。这就是交叉熵损失在机器学习中处理分类时的使用方式。

猫和狗的分类

最流行的分类问题之一，猫狗分类，要求我们预测概率分布，给定一个图像。实际的概率分布是标签，逻辑函数给我们预测的概率分布。交叉熵以如下方式用作该任务的损失函数:

假设我们有一幅狗的图像，概率分布中的第一个元素是狗的。

实际概率分布为:【1，0】

现在，假设逻辑函数输出概率分布:【0.7，0.3】

0.7 概率这里的意思是——*LG(0.7)*当图像是狗的时候用来传递信息的比特数。

因此，交叉熵将是:-1 * LG(0.7)-0 * LG(0.3)= 0.51

由于最小化某个函数与最小化它的正标量倍数是相同的，所以我们可以使用自然对数(或任何底对数)来代替 2-底对数来定义机器学习中的损失。

KL 散度何时为 0？

KL 散度是相对熵或交叉熵和熵之间的差或实际概率分布和预测概率分布之间的某个距离。当预测概率分布与实际概率分布相同时，等于 0。

希望你现在对熵，交叉熵和 KL 散度有一个好的概念。请在评论区告诉我你的想法。

此外，我们鼓励读者浏览 YouTube 上奥雷里奥·杰龙的精彩视频。

熵，交叉熵，KL-散度解释！

原文：https://towardsdatascience.com/entropy-cross-entropy-and-kl-divergence-explained-b09cdae917a?source=collection_archive---------6-----------------------

让我们试着去理解最广泛使用的损失函数——交叉熵。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

交叉熵(也称为 log-loss)是分类问题最常用的损失函数之一。但是我们大多数人经常在没有真正了解熵的核心概念的情况下就开始解决问题，这是由于当今庞大的库和框架的存在以及它们的易用性。因此，在这篇文章中，让我们来看看熵背后的基本直觉，将它与交叉熵和KL-散度联系起来。我们还将检查一个使用损失函数作为交叉熵的分类问题的例子。

熵是什么？

为了开始了解熵到底指的是什么，让我们深入一些信息论的基础知识。在这个数字时代，信息由比特(0 和 1)组成。交流的时候，有些比特是有用的，有些是多余的，有些是错误的，等等。当我们传递信息时，我们希望向接收者传递尽可能多的有用信息。

在克劳德·香农的论文《通信的数学理论》(1948 年)中，他指出，传输 1 比特的信息意味着将接收者的不确定性减少 2 倍。

让我们看看他是什么意思。例如，假设一个地方的天气是随机的，每天有 50%的几率是晴天或雨天。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，如果一个气象站告诉你明天会下雨，那么他们已经把你的不确定性降低了 2 倍。起初，有两种同样可能的可能性，但在收到气象站的更新后，我们只有一种可能。这里，气象站给我们发送了一点有用的信息，不管他们如何编码这些信息，这都是真的。

即使发送的消息是‘Rainy’并且每个字符占用一个字节，消息的总大小对应于 40 比特，但是它们仍然只传达了 1 比特的有用信息。

假设天气有 8 种可能的状态，所有的可能性相等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，当气象站给你第二天的天气时，他们就把你的不确定性降低了 8 倍。因为每个事件有 1/8 的机会发生，所以缩减系数是 8。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是如果可能性不相等呢？

比方说，75%的机会是晴天，25%的机会是雨天。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，如果气象站说第二天将会下雨，那么你的不确定性下降了 4 倍，这是 2 比特的信息。不确定性的减少正好是事件概率的倒数。在这种情况下，25%的倒数是 4，对数(4)以 2 为底等于 2。所以，我们得到了两个有用的信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果气象站说第二天将是晴天，那么我们得到 0.41 比特的有用信息。那么，平均来说，我们能从气象站获得多少信息呢？

嗯，明天有 75%的可能性是晴天，这给了你 0.41 比特的信息，而明天有 25%的可能性是雨天，这给了你 2 比特的信息，相当于，

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们平均每天从气象站得到 0.81 比特的信息。所以，我们刚刚计算的叫做熵。这很好地衡量了事件的不确定性。它是由，

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

希望熵的方程式现在能完全有意义。它测量的是你每天了解天气时获得的平均信息量。一般来说，它给出了我们从一个给定的概率分布 p 中抽取的样本中获得的平均信息量。它告诉我们概率分布是多么不可预测。

如果我们住在每天都阳光明媚的沙漠中心，平均来说，我们每天都不会从气象站获得太多信息。熵将接近于零。另一方面，如果天气变化很大，熵会大得多。

交叉熵

现在，我们来谈谈交叉熵。它只是平均消息长度。考虑同样的 8 种可能的天气状况的例子，所有都是同等可能的，每一种都可以用 3 比特编码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里的平均消息长度是 3，这就是交叉熵。

但是现在，假设你住在一个阳光充足的地区，那里的天气概率分布如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每天有 35%的机会是晴天，只有 1%的机会是雷雨。所以，我们可以计算这个概率分布的熵，我们得到，

熵=-(0.35 * log(0.35)+0.35 * log(0.35)+0.1 * log(0.1)+0.1 * log(0.1)+0.04 * log(0.04)+0.01 * log(0.01)+0.01 * log(0.01))

熵= 2.23 比特

注意，这里使用的日志是一个二进制日志。

因此，平均来说，气象站发送了 3 个比特，但接收者只能得到 2.23 个有用的比特。我们可以做得更好。

例如，让我们这样修改代码:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们现在只使用 2 位表示晴天或部分晴天，3 位表示多云和大部分多云，4 位表示小雨和中雨，5 位表示大雨和雷雨。天气是以一种明确的方式编码的，如果你将多条消息链接起来，只有一种方式来解释比特序列。例如，01100 只能表示部分晴，然后是小雨。所以，如果我们计算电台每天发送的平均比特数，那么我们得到，

35% * 2+35% * 2+10% * 3+10% * 3+4% * 4+4% * 4+1% * 5+1% * 5 = 2.42 位

这是我们新的和改进的交叉熵，比我们以前的 3 位更好。现在，假设我们在不同的地方使用相同的代码，那里的天气是相反的，大部分时间是多雨的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于这个，如果我们计算交叉熵，

1% * 2+1% * 2+4% * 3+4% * 3+10% * 4+10% * 4+35% * 5+35% * 5 = 4.58 位

我们得到 4.58 比特。它大约是熵的两倍。平均而言，该站发送 4.58 比特，但只有 2.23 比特对接收者有用。每封邮件发送的信息是必要信息的两倍。这是因为我们使用的代码对天气分布做了一些隐含的假设。例如，当我们用一个 2 位的信息来表示晴朗的天气时，我们隐含地预测了晴天的概率为 25%。这是因为负二进制对数(0.25)给出 2。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

同样，我们计算所有的天气条件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分母中 2 的幂对应于用于传输消息的位数。现在，很明显，预测的分布 q 与真实的分布 p 大相径庭。

因此，现在我们可以将交叉熵表示为真实概率分布 p 和预测概率分布 q 的函数，其表示为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意，我们示例中使用的日志是针对基 2 的。

如你所见，它看起来非常类似于熵方程，除了我们在这里使用预测概率的对数。如果我们的预测是完美的，即预测的分布等于真实的分布，那么交叉熵就等于熵。但是，如果分布不同，那么交叉熵将比熵大一些位数。交叉熵超过熵的这个量被称为相对熵或者更普遍地被称为库尔巴克-莱布勒散度(KL 散度)。简言之，

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从上面的例子中，我们得到

K-L 散度=交叉熵-熵= 4.58–2.23 = 2.35 比特。

应用

现在，让我们在一个应用中使用交叉熵。假设我们正在训练一个图像分类器来分类不同的看起来很像的动物，比如浣熊、小熊猫、狐狸等等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，对于可能的 7 个类别中的每一个，分类器估计一个概率，这被称为预测分布。由于这是一个监督学习问题，我们知道真实的分布。

在上面的例子中，我拍摄了一只浣熊的图像，因此在真实分布中，它的概率为 100%，其他的概率为 0。我们可以使用这两个分布之间的交叉熵作为成本函数，称为交叉熵损失。

这只是我们之前看到的等式，只是它通常使用自然对数，而不是二进制对数。这对于训练来说关系不大，因为二进制 log(x)等于自然 log(x)/log(2)，其中分母是常数。

因此，当类别概率被称为一个热点向量(这意味着一个类别有 100%，其余的都是 0)时，那么交叉熵就是真实类别的估计概率的负对数。

在这个例子中，交叉熵是-1*log(0.3) = — log(0.3) = 1.203

现在，你可以看到，当真实类的预测概率接近于 0 时，成本会增长得非常大。但是当预测概率接近 1 时，代价函数接近 0。

由于获得的损失更多(因为预测的分布太低)，我们需要用每个类别的更多数量的示例来训练分类器，以减少损失量。

结论

我们举了一个气象站更新第二天天气的例子来理解香农信息论的概念。然后我们把它与熵和交叉熵联系起来。最后，我们通过一个例子来说明交叉熵损失函数的实际应用。我希望这篇文章阐明了熵、交叉熵和 KL 散度背后的基本直觉以及它们之间的关系。

参考文献

"使用 Scikit-Learn 和 TensorFlow 进行机器实践学习."作者奥雷连·盖伦。
https://www.youtube.com/watch?v=ErfnhcEV1O8

强化学习中的熵正则化

原文：https://towardsdatascience.com/entropy-regularization-in-reinforcement-learning-a6fa6d7598df?source=collection_archive---------13-----------------------

在这篇文章中，我假设你已经知道强化学习的基础。如果你是一个初学者，想了解更多关于 RL 的知识，你可以从我在这里写的一个关于 RL 的介绍性故事开始。

在我们的日常语言中，我们通常使用术语“熵”来指一个系统(例如，宇宙)缺乏秩序或可预测性。)在强化学习(RL)中，该术语以类似的方式使用:在 RL 中，熵指的是代理动作的可预测性。这与其政策的确定性密切相关，即什么行动将产生最高的长期累积回报:如果确定性高，熵就低，反之亦然。您可以在以下图像中看到这一点:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:RL 中 Q 值的高低熵分布；a_i 代表行动【自制。]

RL 中熵的正式定义来自信息论，其中熵的计算如等式(1)所示，针对具有概率质量函数 P(X) 的离散随机变量 x 。在 RL 中，公式变成等式(2)，因为我们计算策略π(a|s_t)的熵，其中 a 表示每个动作， s 表示状态， t 表示时间步长。注意，为了简单起见，这里我们使用离散动作空间，但是通过用积分代替和，该定义可以容易地应用于连续动作空间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

信息论中计算一个离散随机变量熵的方程(1) [ 摘自维基百科，]和 RL (2)中计算一个策略π(a|s)熵的方程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2:图 1 所示 q 值分布的熵计算。

如果我们计算第一张图中显示的分布的熵，我们可以看到这个公式是如何工作的。在 q 值的第一次分布中，所有的概率都类似地低，而在第二次分布中，a_2 具有高概率，而其他动作具有低概率。这使得第一次分布的熵高于第二次分布的熵，正如你在左边看到的。

我们如何在 RL 中使用熵

当代理正在学习它的策略，并且一个动作为一个状态返回一个正奖励时，可能会发生代理在将来总是使用这个动作，因为它知道它产生了一些正奖励。可能存在另一个产生更高回报的行为，但代理人永远不会尝试，因为它只会利用它已经学到的东西。这意味着代理可能会陷入局部最优，因为没有探索其他行为的行为，永远不会找到全局最优。

这就是熵派上用场的地方:我们可以用熵来鼓励探索，避免陷入局部最优。为了使这一点正式化，我们用政策的熵来增加传统的 RL 目标，如 Ziebart (2010) 。最大熵 RL 目标定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最大熵 RL 目标【来自唐&哈诺贾(2017) 。]

学习这种最大熵模型的思想起源于统计建模，其目标是找到具有最高熵的概率分布，同时仍然满足观察到的统计量[Tang&Haar noja(2017)]。最大熵的原理陈述了具有最大熵的概率分布是在精确陈述的先验数据(在我们的情况下，这些陈述的先验数据是代理的经验)的上下文中最好地代表当前知识状态的概率分布。)

我们现在使用一个熵加成来计算 q 值，这意味着我们现在将熵 H[π(a|s_t)]加到我们的 q 值上。在软 Q 学习中， Haarnoja 等人(2017) 将熵与以下等式合并:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用熵计算软 q 值[ 哈尔诺贾等人(2017) 。]

为什么我们在 RL 中使用熵

熵已经迅速成为 RL 中流行的正则化机制。事实上，许多当前最先进的 RL 方法，如软演员评论家、A3C 和 PPO，使用它有多种好处:

改进勘探

如前所述，熵鼓励探索，避免代理人陷入局部最优的情况。这对于奖励很少的任务非常重要，因为代理人不会经常收到对其行为的反馈，因此可能会“高估”收到的一些奖励，并总是重复导致该奖励的行为。

微调政策

间接来说，鼓励探索也有助于将学习从已有的政策转移到新的政策。例如，如果我们训练一个机器人在一个区域行走，当我们将这个机器人放入迷宫时，机器人可以重新利用其行走知识来导航迷宫，而不是从零开始，没有任何知识。如果我们使用常规策略——不使用熵——智能体将需要更长的时间来适应新任务，因为它已经了解了以前产生回报的情况，不会像使用最大熵策略的智能体那样探索那么多。这在下面的视频中可以看到:

一个软 Q 学习代理被预先训练行走，然后用于不同的任务。还将代理与随机初始化的代理和 DDPG 代理进行比较【视频来自软学习。]

更加稳健

由于智能体在学习时会探索更多的状态，这要归功于其最大熵策略的鼓励性探索，智能体在开发任务时也将对异常或罕见事件更具鲁棒性。这使得代理更加健壮，因为它将知道如何在不同的情况下更好地处理。

结论

熵在 RL 中的应用带来了许多好处:它改进了代理的探索，它让我们微调以前用于不同任务的策略，并且对于环境的罕见状态也更加健壮。正因为如此，它在软演员评论家、A3C 等 RL 方法的设计中变得非常流行。

它的效果在它所应用的环境中会有很大的不同，因此有必要检查一下熵是否真的对你的 RL 设置有益。如果您想更深入地了解这个主题，我推荐这两个出版物，它们提供了 RL 中熵正则化的详细分析(我在撰写本文时使用了它们和其他材料):

感谢阅读！😃

环境，康达，匹普，啊啊！

原文：https://towardsdatascience.com/environments-conda-pip-aaaaah-d2503877884c?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

轻松管理 Python 环境

安装 Python 的方法有很多，不幸的是，这很容易造成混乱。在这篇博文中，我描述了一种非常有效的方法。我知道其他很棒的解决方案，但这是我通常推荐的方式，尤其是对初学者。

👉这是我每天 10 分钟 Python 课程的一部分！

虽然没有太多代码，但这个文档仍然可以在我的 Github 上作为 Jupyter 笔记本使用。你也可以在那里找到我以前的教程。

我们将讨论的主题的简短概述:

Python 很棒，但是…
有效的方法
典型的工作流程
围捕

Python 很棒，但是…

和很多人一样，我是❤️巨蟒！您可以非常迅速地将您的想法转化为可读的代码解决方案。Python 如此成功的一个重要原因是非常活跃的社区，在这个社区里，了不起的人分享他们令人敬畏的解决方案。这就是为什么您不必从头开始编写数据结构，而只需导入 Pandas。将数据写入 hdf5 文件格式？进口 h5py！剧情有些图， xkcd 风格？导入 matplotlib！更好的是，有多种风格因此，如果您喜欢以不同的方式绘制数据，请导入各种其他绘图系统中的一种，例如 Plotly、Bokeh、ggplot 等等。所有这些共享的优点使得 Python 在许多快速发展的领域非常受欢迎，比如机器学习。

不幸的是，大社区的所有努力都是有代价的。您使用的包得到更新、重构、改进，或者只是重写，仅仅是因为作者想出了解决他们问题的更好的方法。这些变更可能是对您编写的代码的破坏变更。流行的软件包，如 Numpy 或 Matplotlib 是非常可靠的，你得到突破性变化的机会很小。然而，使用不那么流行的包，可能会发生破坏性的改变，尤其是在升级包或 Python 本身的时候。

Python 社区解决这个问题的一种方法是使用虚拟环境。这些用它们自己的一组包创建独立的 Python 安装。为每个项目或任务建立一个独特的环境是一个好的实践。这确保了一个项目的依赖关系不会对另一个项目产生破坏性的变化。这个解决方案工作得很好，但是也创建了一些簿记，因为您有不同的 Python 安装，每个安装可能都有自己的包管理器 Pip。所有这些指向 Python 和/或 Pip 的引用会很快造成混乱，我们最终会看到下面著名的图表 van XKCD :

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有趣是因为这是真的。

虽然所有 XKCDs 都很有趣，因为它们通常包含一些真理，事实上，如果您没有某种系统来记账，您的 Python 安装可能会变得一团糟。与 Python 中的所有东西一样，有许多不同的方式来组织它，包括一些很棒的工具，如诗歌、Pipenv 等等。在下一节中，我将描述我正在使用的系统。这对我有效，对你也可能有效。这些只是我的两毛钱，你当然要选择最适合自己的。

有效的方法

虽然有很多方法来组织你的 Python 版本、虚拟环境和包，但我还是做了以下这些:

Python 和虚拟环境的 conda
虚拟环境中的包管理 pip

放弃 gui，使用 shell

可能有非常好和灵活的图形用户界面(GUI ),但是我更喜欢命令行界面(CLI)。他们给我的印象是我更有控制力。我不确定这是不是真的，但至少我在做的每一步都得到了确认。有许多不同的外壳可供选择，这真的没有多大关系。使用您现有的一个通常是最容易的。当你花更多的时间在 CLI 中，你可能有一天会变得更挑剔，选择不同的风格。

Windows 默认安装了两种不同的 CLI，命令行提示符(CMD)和 Windows Powershell。两个都可以，但是动力外壳给人的感觉更多的是外壳。如果您从未使用过 CLI，在 Youtube 上观看 power shell 的教程可能会很有用。虽然我已经有一段时间没有使用 windows 了，但是还有其他选择，包括在 Windows 上运行著名的 Linux Bash shell。

MacOs 默认有 Bash (MacOs Catalina 有 Zsh)很棒。您可以使用终端应用程序访问 shell，这是一种与 bash 或 zsh 交互的方式。我个人更喜欢 Zsh 作为外壳，iTerm2 与之交互。两者都可以用自制软件安装。如果你不熟悉 Bash，我强烈建议你去看一个关于它的教程，因为它非常有用。

Linux 用户可能已经熟悉了 shell。安装哪个 shell 和终端应用程序取决于您安装的发行版。一般来说都可以，用你现有的。

虽然您的 shell 看起来很可能会非常不同，但这里是我的 shell 的图像:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Nerd 信息:服务于 Zsh 并显示空格提示的 Alacritty 终端模拟器。

安装 conda 软件包管理器

现在我们已经熟悉了 shell，让我们来看看下一个需求:conda 发行版。Conda 是一个流行的 Python(和许多其他语言)包管理器，它让您可以访问几乎所有的 Python 版本和包。它包括一个管理虚拟环境的简单系统。虽然 conda 可以用于安装包，但我只将其用于虚拟环境和 Python 版本。Conda 有一个叫做依赖检查的特性，它工作得很好，但是有时会有点慢。此外，一些软件包使用 pip 更新，因此我选择只使用 Pip。混合使用这两种工具可能会有效，但是使用一种工具可能会更好。

通常，conda 是使用 Anaconda 安装的，这是一个成熟的发行版，包括许多包、工具和一个 GUI。它安装了许多你可能永远不会用到的软件包，我发现 GUI 使用起来很慢。安装 conda 的另一个选择是使用 Miniconda ，另一个发行版，顾名思义要小得多。Miniconda 是一个基础安装，带有 Python 系统、Pip、conda 和一些其他工具。虽然安装非常简单，但这里有一些简单的指导原则:

安装在您的主目录 中，当且仅当在完整路径中有而非空格。例如，如果您有一个使用空格的用户名，例如“dennis bakhuis”，那么您的主目录路径也将包含一个空格(/home/dennis bakhuis/)。这可能会导致一些包出现问题，因为不是所有的导入都在路径周围使用引号，这是 spaces 文件夹名称所必需的。如果您碰巧在文件夹中有一个空间，请在不同的位置安装 miniconda。例如在 Windows 中，只需使用根目录:“C:/miniconda3”
安装 miniconda 后，您应该可以在 shell 中使用 conda 命令。要测试这一点，请打开您的 shell 并键入“conda - version”。如果没有找到这个命令，miniconda 的路径必须添加到全局 path 变量中。
对于 powershell 用户，应该在 powershell 中输入一个额外的步骤:“conda init powershell”

这就是安装在虚拟环境中使用 Python 所需的工具的全部内容。在下一节中，我将解释一个典型的工作流程。

典型的工作流程

Miniconda 没有任何 GUI，因此，您的起点总是 shell。

为项目或任务创建 Python 环境

如果您现在打开一个 shell，那么您已经准备好了新的 Python、Conda 和 Pip。您可以将软件包直接安装到您的“基础”环境中，但是我强烈反对这样做。如果你，不管出于什么原因，把你的“基础”环境搞得一团糟，没有办法删除它。选项是重新安装(这实际上并不是那么糟糕)或手动移除软件包。也许有窍门，但更简单的是创建虚拟环境。

我会为每个项目或任务创造一个环境，只是为了把事情分开。如前所述，我使用 conda 创建了一个环境:

conda create --name tutorial python=3.7

这将创建一个名为“tutorial”和 Python 3.7 . x 版本的新环境。因为我们使用了单个“=”，所以我们告诉 conda 使用 Python 3.7 树中的最新版本。目前这是版本 3.7.7。如果我们使用了两个等号’ == '，我们会告诉 conda 给出确切的版本 3.7，所以有一个微妙的区别。

创建环境后，我们必须切换到新创建的环境。对于这种情况，conda 有激活命令:

*conda activate tutorial*

现在，您处于名为“教程”的孤立 python 环境中，它有自己的 Python、Conda 和 pip 版本。您可能不完全确定以前创建的环境是如何调用的。要检查可用的环境，您总是可以使用:

*conda env list*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

目前，我的基础系统旁边有五个环境。

上图显示了我的所有可用环境。这些只是你的 miniconda 文件夹中的子目录。当前活动的环境用星号显示。在下一节中，让我们在新创建的环境中安装一些包。

使用 pip 安装软件包

在您激活的环境中，使用“pip install”命令安装软件包非常容易。对于这个例子，我们将安装包 numpy，pandas，jupyterlab，matplotlib。虽然 pip 的依赖性检查不像 conda 那样复杂，但是它确实知道 Pandas 依赖于 numpy，并且如果缺少它，它将安装 dependency。要安装软件包，请键入:

 *pip install pandas matplotlib jupyterlab*

安装完成后，包就可以运行了。例如，要启动 Jupyter 实验室，请键入:

jupyter lab

当你在笔记本上工作时，有时会发生忘记安装那个软件包的情况。比如想用 tqdm 有一些进度条。要安装这个包，打开您正在使用的 shell 旁边的另一个 shell，激活环境，并使用 pip 安装 tqdm。该包可以立即在您正在使用的笔记本中使用。或者使用以下方式将其直接安装到您的笔记本电脑中:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“！”用于执行 shell 命令。例如，要创建一个list 目录 (ls)，我们需要:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以用！‘pip install tqdm’我们可以直接在当前环境下安装包。在我看来，shell 方法更显而易见，因为您完全可以确定您将在哪个环境中安装软件包，但是这两种方法都很棒！。

安装软件包的另一个好方法是使用 requirements.txt 文件。这是一个使用“pip freeze”命令生成的列表，给出了所用软件包的确切版本，是从以前的项目中复制环境的好方法。要自己创建 requirements.txt，请在 shell 中键入以下内容:

*pip freeze > requirements.txt*

当然，您也可以从 jupyter 调用这个命令:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果您打开这个文件，或者在没有 requirements.txt 的情况下运行它，您将会看到您的环境中所有包的列表，以及在双等号后面的确切版本。如果您在项目或 git-repo 的根文件夹中提供这个文件，其他人可以用一个命令安装所有需要的包:

*pip install -r requirements.txt*

如您所见，requirements.txt 是共享和复制环境的好方法。

删除环境和其他命令

过一会儿，您将收集相当多的环境，这会给您的系统带来一些混乱。要删除不再需要的环境，我们可以简单地删除它们。如果您还需要它，使用 requirements.txt 很容易重新创建环境。在删除环境之前，我们必须将其停用。为此，请键入:

*conda deactivate*

现在，我们可以通过键入以下命令来删除环境:

*conda env remove --name tutorial*

为了验证，环境确实消失了:

*conda env list*

一些可能有用的命令:
克隆一个现有的环境:

*conda create --clone tutorial --name tutorial2*

搜索可用的软件包:

*pip search tensorflow*

围捕

这是用来管理蟒蛇、蛇、蛇卵和所有蛇的。正如我之前提到的，这是一种方法，还有许多其他方法。其他方法可能会更好，但这个对我来说很有效。请随意评论这个过程如何能做得更好，或者什么对你有用。

如果您有任何问题或建议，请告诉我。

Ep 3:软技能

原文：https://towardsdatascience.com/ep-3-soft-skills-925045811b43?source=collection_archive---------87-----------------------

我们会叫你

基于事实的求职——极客歌剧

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

"这个解决方案可能会提高你计划投资的有效性."多姆纳尔看到了商人满意的表情，然后把注意力转向了数据库专家。“这将需要整合三个不同的系统，据我所知，这可能会造成一定的困难……”

“如果有充分的理由整合它们，”女人耸耸肩，“我们就整合它们。”

"我们什么时候能得到第一批结果？"这位商人焦躁不安。“竞争最近开始抢走我们的客户。”

多姆纳尔闭上眼睛，回忆起他从 IT 部门收到的原理图。虽然不多，但对于一个合理的估计来说可能足够了。

“在长期或短期项目领域，你会失去更多客户吗？”，他问道。

这位商人需要一点时间来找到合适的桌子并显示在屏幕上。他看了看数字，回答道:“短期。”

多姆纳尔睁开眼睛，伸手拿起身边的一个笔记本，开始画草图。

“所以我们这里有你的客户数据…这里有资金流动…这里有与第三方数据的连接…”他看了一眼数据库专家，她不想错过任何推理的细节，使劲向图纸倾斜，她几乎躺在柜台上。“这些数据湖中哪一个最容易连接？”

“这两个。”女人毫不犹豫地指着素描。“我们可以在半年左右的时间里让它投入生产。”

多姆纳尔暗自笑了笑。他画了几条线，又划掉了几条。他又看了看那个女人。她惊讶地眨了眨眼，但一秒钟后，她赞许地点了点头。

“在这种配置下，我们可以在一个季度内完成。”她向她的商业同事投去询问的一瞥。“前提是我们可以暂时停止开发新的报告系统.”

这位商人盯着这幅画愣住了。

“如果我理解正确的话，在半年内，我们可能会得到一个工具，让我们能够识别风险最高的项目，或者在三个月内得到一个流失预测器？”当对话者点头时，他略带失望地说完，“但后者是以举报为代价的吧？”

“这是我的看法，”多姆纳尔证实。“但我需要警告你，我的假设是基于我从你的技术测试中获得的部分数据。此时此刻，我无法保证该解决方案是否可行，即使可行，我们能够达到什么样的精度水平。”

这位陷入困境的商人按摩太阳穴。这位数据库专家精神恍惚地回到了自己的桌子前，可能已经为接下来的几周制定了一个行动计划。

多姆纳尔感到一阵热情。这家公司虽然很小，但有一个深思熟虑的战略，而且管理良好。而迄今为止与管理和技术人员的互动向他证明，员工不仅表现出高水平的能力，而且尊重常识；多姆纳尔最看重的。

“很好，很好，”一位年轻的人力资源部代表出人意料地打断了谈话。

直到现在，多姆纳尔都没有注意到她，因为她像坟墓一样沉默，完全专注于她那长得荒谬的混合指甲的装饰细节。现在她双手交叉放在胸前，给申请人一个灿烂的微笑，既迷人又不真诚。“我想今天够了。”

多姆纳尔感到一阵颤栗顺着他的背爬下来。她的最后一句话是用愉快的语气说的，但无论是这种语气还是女孩脸上喜悦的面具都无法掩盖隐藏在下面的怨恨。

“很好吗？”多姆纳尔皱起了眉头。“我不这么认为。我不知道为什么，但我感觉你认为我不应该得到这份工作。”女孩明显的困惑证实了他的推测。“我可以问为什么吗？”

“我有权否决所有和任何候选人，”她一恢复镇静就甜美地啁啾。“我的职责是评估他们的软技能，我认为你只是缺乏同理心。”

“感同身受？!"多姆纳尔惊讶地睁大了眼睛。“比如在移情能力方面？来调和对话者的情绪？缺少这一点被称为精神变态。我只是表明我能感受到你对我的情绪，尽管你笑得很开心，说了很多友好的话！”

“但你笨拙的交流显然让我的人民不安；我也是。”她生气地瞥了他一眼，然后严厉地补充道:“这种行为是不可接受的。我甚至不会提到，当一个困难的话题出现时，你闭上眼睛明显避免目光接触。”

"我正在考虑解决目前问题的办法。"多姆纳尔怀疑地看着其他参与者，寻求支持。这位商人和数据库专家一丝不苟地研究自己指甲的化妆细节。他绝望地喃喃道:“像他们现在这样。”

“很好！现在一切都清楚了，非常感谢，”人事部门的女孩得意洋洋地宣布。“我们会打电话给你。”

我们将称您为系列:

第三集:软技能(当前)

第五集:沉没成本

多姆纳尔是个聪明的家伙。但是，找工作是长期的娱乐，很可能要花他一段时间。尤其是工作面试不是每天都有的。与此同时，你可以考虑阅读我们的【Pharmacon社会学惊悚片中的其他(同样出色的)人物。

Ep 4:技能媒人

原文：https://towardsdatascience.com/ep-4-skills-matchmaker-9c89f5008ed9?source=collection_archive---------95-----------------------

我们会叫你

基于事实的求职——极客歌剧

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

“恭喜你。令人肃然起敬。”

扩音器里的声音安抚了多姆纳尔的自尊心，过去几个月的事件多少挫伤了他的自尊心。他后脑勺的声音反过来暗示，听到完全相同话语的人可能有数千人。

“谢谢你，”多姆纳尔本能地回答。正好，他想起了微笑，他微微撇了撇嘴。

“我有最后一个问题，”屏幕上的女士说。

多姆纳尔发现很难想象还有谁能像他一样在情感上透明。这个女人既不漂亮也不丑陋，不愚蠢也不聪明，但同时又是如此的实际和随和，在距离和热情之间如此的平衡，如此的完美，以至于在这一切的某个地方没有留给个性的空间。

“能否请你描述一下你以前工作中最引以为豪的项目，并解释一下这个项目是如何为公司增加重要价值的？”

Domnall 僵硬。不幸的是，他在公司呆的时间不够长，无法评估他最引以为豪的项目成果。有一会儿，他很想提醒这个谜语的作者，项目满意度和附加值并不总是必须携手共进的，但是他不再想这个问题了。别的事情让他担心；到目前为止，所有的问题都无法与添加了问号的跨词定义区分开来。为什么突然这种开放的形式？

他的犹豫不得不引起注意，因为这个女人又一次鼓励了他:

“如果保密条款禁止你谈论这个项目，请告诉我一个你可以的。”

“我离开时签署的协议主要是一份长长的、详细的清单，上面列有我不能做的事情，”多姆纳尔如此专注于打破尴尬的沉默，以至于他的脚踩了进去。“但他们中的大多数人确保我不会以任何形式表达对公司的负面看法，”他补充道，并立即在思想中斥责自己。他又在胡言乱语，而不是去看是非曲直。招募者警告他；信息应该简短、清晰、切中要点！他振作起来。“情况是这样的:为了降低成本，该公司终止了昂贵的物流管理系统，但不幸的是，他们在更便宜的替代系统实施之前就这样做了。”

不，听起来也不好。这样的措辞不仅让多姆纳尔面临与前雇主的律师会面的风险，而且他的对话者可能会将他归类为不满分子。

“多么有趣的项目，”女人出乎意料地打断了他。她的声音和以前一样友好。“你认为情况为什么会是这样？”

多姆纳尔目瞪口呆。他听错了吗？这个问题没有意义！

“我的和解协议明确禁止我对我的公司陷入这种境地的原因发表意见，”他回答道，只是想说点什么，想知道这个女人，在她无限的完美中，是否允许任何错误报告。

“那么你对此没有意见？”

“让我们假设我没有，”多姆纳尔喃喃自语，完全忘记了微笑。接下来的句子他说得又慢又大声又清晰。“回到这个项目，障碍是:信息混乱、大量的数据来源和数据质量。我采取的行动——我设计并准备了一个替代系统的原型。我自动处理和清理关系数据库中的数据。在可能的情况下，我使用各种 python 机器学习库添加了预测元素。”

这个女人沉默的时间比平时长了一点。

“我没有注意到这个项目如何显著增加了公司的价值，”她抱怨道。“请你重新表述一下好吗？”

“我辞职寻找新的机会和挑战，因为太早了，无法知道确切的结果，但如果他们实施我的系统，他们可以大大减少每年给公司造成数百万美元损失的混乱。”

“非常感谢。这是最后一个问题。”如果这个女人从嘴唇上抹去一丝微笑，她的脸将毫无表情。“分析你的陈述，我得出结论，你符合 18 项必备技能中的 14 项。我没注意到你有使用 SQL 、 pandas 和 scikit-learn 库的经验，而且你缺乏准确传达观点的能力。”

" Scikit-learn 是 python 包之一！"多姆纳尔哼了一声。“我用过它，还有 Keras 库，还有 PyTorch 。我甚至没有提到熊猫，因为我没有提到我使用键盘！此外， SQL 是处理我提到的关系数据库的标准。至于交流，很难要求我明确的意见，如果法律禁止我表达一个！”他突然冒出一句，“你不能只根据关键词来评价我！”

“在提问环节结束后给出的陈述不会被考虑在内，”采访程序一贯热情的声音说，这是数百万个微小方程的杰作，它们对专业性进行了优化。“以 14 分的成绩，你排在候选人的第六位。我们会打电话给你。”

我们将称您为系列:

第 1 集:数据民主化

第二集:刺激的工作环境

第三集:软技能

第四集:技能红娘(当前)

第五集:沉没成本

第六集:激情，更激情，雇佣！

第七集:文化契合

多姆纳尔是个聪明的家伙。但是，找工作是长期的娱乐，很可能要花他一段时间。尤其是工作面试不是每天都有的。与此同时，你可以考虑阅读我们的【Pharmacon社会学惊悚片中的其他(同样出色的)人物。

Ep 5:沉没成本

原文：https://towardsdatascience.com/ep-5-sunk-costs-b9c4f0d463f4?source=collection_archive---------65-----------------------

我们会叫你

基于事实的求职——极客歌剧

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

“我认为你会在我们的初创企业中大有作为。”显然，桌子另一边的内容经理正盯着 Domnall。他的三角形脸和一眨不眨的大眼睛让他看起来像一只螳螂。“我很惊讶，你这个年龄的人对分析技术有如此深刻的了解。”

Domnall 决定不提他刚刚第八次描述了相同的技术，包括两次对招聘人员和五次对经理的下属。对话者的惊讶表明公司沟通不畅，但多姆纳尔也计划改善这种情况。他的嘴角挂着真诚的微笑。

“那么我什么时候可以开始在这里应用我的知识呢？”

“今天晚些时候我会通知 HR。”这个人检查了一下他的文件，低声咕哝了一个低得可笑的数字，然后平静地补充道，“这样的金额不需要我的上级同意，所以应该尽快处理……”

“我想应该是两倍……”多姆纳尔礼貌地纠正道，不确定自己的听力是否有所下降，还是他的记忆被正在进行的招聘过程的电视剧般的节奏削弱了。

“两次？”经理显然很惊讶。

“招聘人员向我保证这是这个职位的工资.”

“不可能……他一定是出了什么事。”这个人对这个错误不屑一顾，双手合十，好像在祈祷。“听着。你可以星期一早上从这里开始。据我所知，你已经花了很多钱找工作。即使你在几个月内找到了一份收入更高的工作，这种差异也不足以弥补你在此之前的损失。就是得不偿失！”他向前探了探身子，向他未来的员工递了个眼色，鼓励他靠近一点。他悄声说，“此外，即使你不认为基本工资高，我们提供了一个伟大的股票期权包。我们计划在两三年内上市。”他直起身子，用饱满的声音结束了讲话，“在和你未来的同事谈了这么多之后，你肯定意识到我们的现金流很快就会暴涨！”

多姆纳尔困惑地眨了眨眼。在他的脑海中，他疯狂地分析着他的私人现金流，自从他用新的价值代替收入后，他的私人现金流呈现出稳定的下降趋势。

“股票期权？”他问。"这意味着我可以以固定价格而不是市场价格购买公司股票？"多姆纳尔根本不可能回忆起这部肥皂剧第一集的细节。“问题是，就这点工资，我不可能存下任何东西来投资。”

经理开心地笑了。

“你会用你的奖金买股票的！你每年会得到高达百分之十的额外收入！

多姆纳尔在脑子里刷新了现金流量表，它开始羞怯地、缓慢地、但却肯定地增长。但是后天的不信任战胜了他的乐观。

“奖金靠什么？”

“平常的东西，公司的业绩，团队的业绩，当然还有你的……”男人摆摆手，但看到应聘者质疑的目光，他不耐烦地叹了口气，背诵道，“分别是百分之七十五，百分之二十，百分之五。”

图箭头埋下了头。

“除此之外，我们还为员工提供各种有吸引力的额外津贴……”

“比如名牌服装降价百分之三，去迪拜度假？”

“不仅于此！伙食也有优惠！”

多姆纳尔重新饶有兴趣地看着经理。为杂货店收集优惠券与他从教育中获益的计划强烈冲突。然而，如果这可以帮助他平衡每月的卡路里摄入量，拟议的工资应该包括他的房租，学生贷款还款和日常通勤。

螳螂侠大概感觉到了他的犹豫，因为他贪婪地搓着手，骄傲地宣布:“好！在一些真正高档的餐馆里高达 10%！”

尽管如此，当申请人的眼神变得黯淡时，经理掩饰不住的恼怒说道，“你很清楚，我们为这次会面付出了多少努力。难道你不认为我们为寻找和评估你所投入的工作和金钱也是你工资的一部分吗？!"男人脸上轻蔑的表情泄露了他对多姆纳尔突然困惑的厌恶，但他强迫自己扔给申请人另一个救生圈，“此外，我们周一也有新鲜水果！”

“有了这样的工资阶梯，我也会考虑在周二提供面团，周三提供肉，周四提供甜食，周五提供鱼。”

经理皱起眉头，很不高兴。他从柜台上拿起文件，把椅子往后推了推。

“我会考虑的，”他咆哮着，显然被冒犯了，“我们会打电话给你。”

我们将称您为系列:

第 5 集:沉没成本(当前)

多姆纳尔是个聪明的家伙。但是，找工作是长期的娱乐，很可能要花他一段时间。尤其是工作面试不是每天都有的。与此同时，你可以考虑阅读我们的 【药理学】 社会学惊悚片中的其他(同样出色的)人物。

EPL 2020/21 赛季分析与预测

原文：https://towardsdatascience.com/epl-2020-21-season-analysis-and-prediction-5502e20dce26?source=collection_archive---------29-----------------------

在第四周比赛后进入国际比赛日，已经打了 38 场比赛，正好是赛季中 380 场比赛总数的 10%。到目前为止，本赛季一直不可预测，去年的顶级球队积分下降，一些中游球队和弱队表现出色。在这篇文章中，我试图分析球队的表现，并试图预测即将到来的比赛结果。

预期目标(xG)是用于分析和预测的主要因素，如果你不熟悉 xG，建议你在继续下一步之前查看这篇解释 xG 的文章。

主场优势，在后 COVID 时代还存在吗？

由于疫情，比赛目前在空的体育场进行。主场优势不仅仅是对比赛场地的熟悉，而是成千上万为主队的胜利加油的铁杆球迷的精神和鼓励。

这就是为什么即使想到要去安菲尔德或者老特拉福德也会让客场球队不寒而栗。一般来说，与客场比赛相比，球队在主场的表现更好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本赛季，到目前为止还没有主场优势的证据。在迄今为止的 38 场比赛中，19 场比赛客队获胜，3 场平局，主队只赢了 16 场比赛，约占总比赛数的 42%。

奇怪的主场劣势！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本赛季主队得分一直被客队超过。此外，主队在【预期进球】和【预期失球】两项指标上都表现不佳。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

卫冕冠军利物浦在每场比赛的预期进球中领先，每场比赛约 2.5 xG，包括点球。热刺、阿斯顿维拉、埃弗顿也都管理过大于 2 的 xG。
西布朗是目前排名最低的球队，在很低的 xG 下努力创造机会。
xG 低的球队缺乏创造力，应该用有创造力的球员来补强球队。对于采用防守型打法的球队来说，xG 可能较低，这种打法依靠对手的反击或失误来得分。
埃弗顿、南安普顿、西汉姆似乎有着密不透风的防守，注册 xGA 低于 1。谢菲尔德，阿斯顿维拉和布莱顿也展示了坚实的防守。根据 xG 承认，上赛季前四名球队中的 3 支——利物浦、曼城和曼联——是防守最差的 5 支球队。曼联记录了最高的预期失球，平均每场比赛约 2.5 个球。利兹和西布朗也有 2 个以上的 xGA。xGA 高的球队应该立即解决他们在防守上的问题。

得分的净预期目标

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Delta xG 是预期进球和预期失球之间的差值，可以用来评估一支球队的状态。埃弗顿似乎统治着联盟，每场比赛的 delta xG 接近 1.5。热刺和阿斯顿维拉也有 delta xG 超过 1。尽管被阿斯顿维拉以 7-2 羞辱，红军仍然紧随其后排在第四位。另一端，曼联和西布朗的 delta xG 都在 1.5 以上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

红线以上的队伍 xG 比 xGA 好。上赛季的最佳射手曼城队通常统治着联赛，但他们没能比对手创造更多的机会。他们的同城对手曼彻斯特联队经历了几十年来最糟糕的开局。

期望与现实

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一支球队可以超越 xG，要么是因为球队拥有多产的前锋，他们可以转换一半的机会，要么是因为运气好，设法进了一些球。阿斯顿维拉每场比赛都比 xG 多进 1.5 个球，他们不太可能继续前进。
莱斯特城似乎也远远超过了 xG，这可以归功于瓦尔迪的 3 个点球。除非莱斯特每个周末都被判罚点球(即使有新的手球宽松政策，这也是极不可能的)，否则他们的差距就会缩小。
曼联的 5 个进球中有 2 个也来自点球，xG 来自空位的发挥对于红魔来说也要低得多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阿斯顿维拉、纽卡斯尔、阿森纳和利兹是 20 支球队中仅有的 4 支超过预期失球的球队。这个赛季进球似乎很容易。
利物浦、曼联、富勒姆、伯恩利和布莱顿都不走运，每场比赛失球比预期的多。

象限分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最好的情况是超过 xG 和 xGA 一个合理的幅度。
从长远来看，大幅超越 xG 通常是不可持续的。如果球队设法创造更多的机会，落后于 xG 不是一个大问题(xG)。
气泡的大小表示每场比赛的预期净胜球数(xG-xGA)。球队的首要目标应该是提高净胜球。
第一象限:超水平发挥的 xG 和超水平发挥的 xGA
Q1 队在超水平发挥预期目标方面做得很好，他们必须保持这种势头，像利兹和纽卡斯尔这样的球队应该努力提高净胜球数。
第二象限:表现出色的 xG 和表现不佳的 xGA
Q2 的球队应该努力向 Q1 靠拢，这是为了提高防守。
第三象限:表现不佳的 xG 和表现不佳的 xGA
第三季度的球队应提高防守和进攻。
第四象限:表现不佳的 xG 和表现良好的 xGA
第四季度没有团队。

预测结果

用于预测比赛分数的逻辑是基于前一时期每场比赛的 xG 和 xGA。

主队得分计算为主队 xG 和客场 xGA 的平均值。
G _ home =(xG _ home+xGA _ away)/2

客场队的分数计算为客场队的 xG 和主队的 xGA 的平均值。
G _ away =(xG _ away+xGA _ home)/2

净胜球(GD)的计算方法是主队得分与客队得分之差。
T4【GD = G _ home-G _ away

总进球数(GS)是主队得分和客队得分的总和。
GD=G_home+G_away

第五场比赛的预测结果如下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

游戏周 5 结果预测

净胜球的绝对值越高，比赛就越一边倒，而净胜球的值越接近零，就意味着这场比赛有望势均力敌。
GD 的负值暗示客队有可能获胜，正值偏向主队获胜。
较高的进球数意味着我们可以期待一场进球盛宴，而较低的进球数则表明比赛得分较低。
根据模型，伯恩利在客场对阵西布朗的比赛中表现最佳，净胜球为 0.77，有利于红葡萄酒。
布莱顿对水晶宫的比赛也有望成为海鸥公园里的散步。曼联造访圣詹姆斯公园的比赛估计会让红魔再次心碎。
曼城 vs 阿森纳的比赛是比赛周中最势均力敌的一场比赛，xG 略微有利于枪手。切尔西对圣徒和利兹对狼也将是一场激烈的比赛。默西德比被认为是一场进球盛宴，东道主比卫冕冠军更胜一筹。

更新:预测与实际结果

最后，这是关键时刻，是时候将预测与第 5 周的实际比赛结果进行比较了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表现超出预测 xG 的团队在线上，而表现低于预测 xG 的团队在线下。
曼联远远超出了他们的预测。他们的 xG 预测很低，因为样本量只有他们打水晶宫(最好的防守方之一)、布莱顿和马刺(10 人)的 3 场比赛。随着赛季的进行，他们的 xG 会提高。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在总共 10 场比赛中，只有 3 场比赛的预测是正确的，这是预期的，因为样本量非常小，没有考虑其他因素，当然也是由于比赛固有的不确定性。水晶宫对布莱顿的比赛中预测最为准确。客队被预测会统治 xG，他们以 20 次射门击败水晶宫的 1 次射门。在纽卡斯尔对曼联、埃弗顿对利物浦、热刺对铁锤帮和利兹对狼队的比赛中，这些预测都是非常错误的。

资源和鸣谢

数据来源于fbref.com
所有相关的输入 csv 文件和 jupyter 笔记本(python 代码)都可以在我的 GitHub Repo 中访问。

成为会员

我希望你喜欢这篇文章，我强烈推荐注册中级会员 来阅读更多我写的文章或成千上万其他作者写的各种主题的故事。
你的会员费直接支持我和你看的其他作家。你也可以在媒体上看到所有的故事。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

亚历克斯·莫托克在 Unsplash 上拍摄的照片

EPL 分析和游戏周 7 预测

原文：https://towardsdatascience.com/epl-analysis-and-gameweek-7-prediction-f22a2d8991cd?source=collection_archive---------52-----------------------

使用 xG 统计预测英超联赛结果的数据驱动尝试

这是我的 EPL 预测系列的一篇文章。你可以在这里查看上一周比赛的预测和实际表现。

预期目标或 xG 是用于预测的参数。如果你对理解预测算法感兴趣，我推荐你去看看这篇文章，里面有详细的解释。

截至第 6 周比赛的分析

在 6 个比赛周之后，前 15 名球队之间有 6 分的差距，到目前为止还没有明确的冠军争夺者。联赛竞争激烈，没有不败的球队。唯一在第五轮比赛前保持不败的球队，埃弗顿和阿斯顿维拉在第六轮比赛中尝到了他们的第一次失败。两个默西队都以 13 分高居积分榜首。由于净胜球，埃弗顿在积分榜上排名第一。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

xG 每场比赛得分和失球(图片由作者提供)

卫冕冠军利物浦是最好的进攻球队，每场比赛创造超过 2.5 xG，没有其他球队能够每场比赛创造超过 2 xG。马刺、利兹、太妃糖、维拉场均 1.5 xG 以上。
另一方面，西布朗在每场 0.5 左右的 xG 下努力创造进球机会。更糟糕的是，西布朗的防守也是漏洞最多的。狼队和伯恩利队也在努力创造得分机会，但他们能够以良好的防守能力部分弥补这一点，正如低失球率所表明的那样。

埃弗顿、布莱顿、西汉姆和南安普顿拥有最好的防守，每场失球约 1 xG。尽管布莱顿队防守严密，但他们在比赛中运气不佳，至今丢了 12 个球，平均每场丢 2 个球。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

根据 xG 得分和 xG 失球，球队可以分为 4 个象限，如上图所示。水平虚线表示每场比赛的平均 xG 得分。水平虚线以上的球队是强攻方，下面的球队进攻弱。
垂直虚线显示每场比赛的平均 xG 失球，左边的球队防守强，右边的球队防守弱。

所有球队的目标都应该是 Q2，那里的进攻和防守都比平均水平要好。例如，伯恩利在联盟中是一个很好的低位防守方。在第六场比赛中，他们面对的是本赛季进球最多的马刺队。伯恩利的防守在遏制热刺进攻方面做得很好，他们在上半场将射门限制在零，比赛的唯一进球来自定位球。然而，伯恩利是创造机会最少的球队之一。除非他们采取积极的措施来提高他们的打击力，否则他们很难在联赛中晋级。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

一些团队能够用他们在另一个领域的优势来弥补他们在一个领域的弱点，从而产生正的 delta xG(xG 得分和 xG 失分之间的差异)。我们可以看看利兹和南安普顿。贝尔萨的球队在遏制对手进攻方面表现不佳，但他们能够创造进球机会来弥补前者。另一方面，圣徒队的防守几乎没有失误，但在为 Ings 和队友创造得分机会方面做得不好。但他们的防守能力可以弥补前场创造力的不足。

游戏第 7 周预测

在进行预测之前，让我澄清一下，这是一个非常简单的算法，只是基于过去的 xG，所以只能预期基线性能。样本量很小，而且很多其他重要因素也没有考虑。随着赛季的进行，这个算法将会在未来结合更多的因素。

下表提供了对第 7 周比赛的预测。
GD 的绝对值显示了比赛的竞争力。该值越高，预计匹配越偏向一侧，预测的准确性也越高。GD 值越低，这场比赛就越可能是任何人的游戏。GD 的正值表示主场胜，负值表示客场胜。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

游戏第七周预测(图片由作者提供)

在即将到来的比赛中，我们可以期待许多竞争激烈的比赛。纽卡斯尔对埃弗顿是唯一一场可以观察到超过 0.5 倍差距的比赛。太妃糖极有可能带着 3 分离开圣詹姆斯公园。富勒姆有相当大的机会在本周对阵麻雀队的比赛中赢得本赛季的第一场胜利。卫冕冠军有望在主场赢得对复活的铁锤帮的比赛，铁锤帮已经让曼城和热刺丢分。冠军争夺者，德·布鲁恩和他的公司有望压倒刀锋队的防守。

利物浦 vs 西汉姆有望产生最多的进球数。另一方面，保卫战——狼队 vs 水晶宫预计是得分最低的比赛。

更新:实际与预测

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测的 xGD 与实际的 xGD(图片由作者提供)

该算法在预测游戏周的 10 场比赛中的 9 场比赛的方向方面做得非常好。这个预测只有在纽卡斯尔对埃弗顿的比赛中是错误的。我们的算法预测埃弗顿队会压倒纽卡斯尔队。然而，喜鹊击败了太妃糖，连续第二次击败了他们。由于詹姆斯·罗德里格兹、理查德森和迪格内三人组的缺席，太妃糖队肯定是弱队，这不能在 xG 模型中考虑。就震级而言，预测并不准确。在所有比赛中，占优势的球队能够创造比预期更多的进球机会。这种差异在阿斯顿维拉对南安普顿，托特纳姆对布莱顿，纽卡斯尔对埃弗顿和利兹对莱斯特的比赛中最为明显。这些比赛也有有利于获胜队的点球。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由谁是德尼罗？号上的 Unsplash

EPL 分析和游戏周 8 预测

原文：https://towardsdatascience.com/epl-analysis-and-gameweek-8-prediction-691fcc6bdfdd?source=collection_archive---------48-----------------------

使用 xG 统计预测英超联赛结果的数据驱动尝试

这是我的 EPL 预测系列的一篇文章。你可以在这里查看对前一周比赛的预测以及它与实际表现的对比。

预期目标或 xG 是用于预测的参数。如果你对理解预测算法感兴趣，我推荐你去看看这篇文章，里面有详细的解释。

对第 7 周比赛的分析

在 7 个比赛周之后，前 13 名球队之间有 6 分的差距，到目前为止还没有明确的冠军争夺者。联赛竞争激烈，没有不败的球队。联盟的竞争力可以用下面这句特别的话来概括:

你赢了一场比赛，你是第二，第三或第四。你失去了 2 分你是第 7，第 8 或第 9。英超好美！
——穆里尼奥

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每场比赛 xG 得分与 xG 失球(图片由作者提供)

在 7 个比赛周之后，卫冕冠军回到了榜首，看起来是最好的进攻方，场均 2.5 xG 左右。红军每场比赛比第二名的马刺多创造 0.5 xG 以上。莱斯特，阿斯顿维拉，利兹和埃弗顿是其他每场比赛创造超过 1.5 克的球队。

依靠防守型打法的水晶宫、谢联、狼队、伯恩利都在创造力上苦苦挣扎，甚至不能每场创造 1 个 xG。西布朗处于一个非常不稳定的位置，既要努力创造得分机会，又要遏制对手的进攻。

当谈到每场比赛的预期失球时，两支球队之间没有很大的差异。大多数球队每场比赛承认 1 到 1.5 xG。只有富勒姆、曼联、西布朗和利兹的场均失球超过 1.5 克。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

xG 得分 vs xG 失球(图片由作者提供)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每场比赛的增量 xG(图片由作者提供)

尽管红军的防守没有上个赛季那么好，但由于萨拉赫和他的队友的进攻能力，他们成功地登上了德尔塔-xG 排行榜的榜首。

游戏第 8 周预测

在进行预测之前，让我澄清一下，这是一个非常简单的算法，只是基于过去的 xG，所以只能预期基线性能。样本量很小，而且很多其他重要因素也没有考虑。随着赛季的进行，这个算法将会在未来结合更多的因素。该算法也不能预测高得分游戏。

该方法的预测准确性在游戏周期间有所提高。在上一个游戏周，算法能够正确预测 10 场比赛中 9 场比赛的方向。

下表提供了对第 8 周比赛的预测。
GD 的绝对值显示了比赛的竞争力。该值越高，预计匹配越偏向一侧，预测的准确性也越高。
GD 值越低，这场比赛就越有可能成为任何人的游戏。GD 的正值表示主场胜，负值表示客场胜。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

本周比赛的重头戏是在伊蒂哈德球场进行的利物浦 vs 曼城的超级周日比赛。该算法即使不能计入克洛普和佩普战术方法的变化，也预测这将是一场高分比赛。然而，预期的净胜球表明利物浦将带着所有的 3 分离开伊蒂哈德。在即将到来的对维拉队的比赛中，枪手预计也会在主场失利。西布罗姆维奇对热刺的比赛预计将是最一边倒的比赛，凯恩和他的队友们预计将击败混乱的西布罗姆维奇防线。

在两连败后，太妃糖有望在主场对阵红魔的比赛中重回胜利之路。狐狸，蓝调，铁锤和海鸥也可以期待主场胜利。

圣徒对喜鹊，老鹰对孔雀被认为是任何人的比赛，拉尔夫·哈森胡特尔和马塞洛·贝尔萨的球队比他们的对手略胜一筹。

预测与实际

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

在第八周的比赛中，我们的预测在 10 场比赛中有 6 场是正确的。然而，这些预测并不十分准确，只有 3 个预测的准确度在 0.5 倍以内。阿森纳对阿斯顿维拉的预测最为准确。对于切尔西对谢菲尔德的比赛，预测相差了将近 2 倍，切尔西被认为会创造更多的机会。然而，如此大的优势是没有估计到的。周末唯一真正令人失望的是埃弗顿对曼联的比赛，我们预测太妃糖会在主场轻松获胜，但曼联表现出色，全取 3 分，这要感谢布鲁诺的个人才华！
西汉姆对富勒姆的比赛，预测是铁锤帮主宰了比赛，结果也是 1-0，大卫·莫耶斯队获胜。然而，由于洛克曼错过了一个对他们有利的点球，富勒姆创造了更多的机会。
Pep vs Klopp 是一场高度不可预测的比赛，我们对巨人队之间超级周日冲突的预测稍微有利于德国队。经过一场势均力敌的比赛，这场比赛以平局告终。曼城创造了比冠军更多的 xG，这要归功于曼城获得的点球，KDB 的射门偏出了门柱！如果那个点球没有被判，我们的预测是非常准确的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Jaleel Akbash 在 Unsplash 上拍摄

EPL 幻想 GW1 回顾和 GW2 算法选择

原文：https://towardsdatascience.com/epl-fantasy-gw1-recap-and-gw2-algo-picks-58165f17b77d?source=collection_archive---------41-----------------------

我们的金钱球方法到幻想的 EPL(队 _id: 2122122)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果这是你第一次登陆我的幻想 EPL 博客，你可能会想看看我在上一季(GW1-GW9)开始时写的我的媒体档案中的一些原始 EPL 博客，以熟悉我们的整体方法和我们随着时间的推移所做的改进。

什么是新的？

自上周以来，我们增加了一些更新，以帮助保持了解重要的每周统计数据，可以帮助我们更明智地选择球员。

定位球队员:我们收集了各队角球和任意球时定位球队员和空中威胁的数据，并将这些数据作为系数添加到我们的优化算法中。请参考下表，看看哪些球员更有可能因为参与更多的定位球进攻打法而长期获得大量加分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测首发阵容:正如我们已经看到的，本赛季开始时有很多惊喜，所以我们找到了几个网站，考虑到周日的比赛，如杯赛和欧洲比赛，教练新闻发布会和最新的球队新闻，试图预测每个比赛周的首发阵容，包括可能有疑问的常规球员。这将有望拯救我们在 GW1 中所做的一些错误的选择，在那里我们有三个完整的球员没有在我们的一个队中首发……😦

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW1 排名前 100 的 FPL 团队统计数据

来自 GW1 的世界排名前 100 位的球员中，大多数都有萨拉赫担任三重队长，得分在 125 分+的范围内。让我们来看看他们球队中按位置选择最多的球员和最喜欢的球队阵型。

前 100 名最佳守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中最受欢迎的捍卫者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名最佳中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中入选最多的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们使用这些数据和当前的球员价格来创建下面的球队，这是由前 100 名中最受欢迎的球员组成的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来不错的团队，在关键位置上有很多尝试不同选择的余地，同时仍然保持一个坚实的球员核心。

前 100 名 Fantasy 用户选择最多的团队

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些数据很有意义，因为大多数顶级球员都试图利用 4-4-2 或 3-4-3 阵型的进攻型中场和前锋。

GW1 团队绩效总结和总体统计

我们有一个不错的开始，因为我们的一些团队得分在 70+的范围内。每周，我们都会发布前 2 名表演团队的照片。有趣的是，我们得分最高的球队有80 分，而甚至没有萨拉赫当队长。如果我们是萨拉赫的队长，我们会有接近 100 分的**！最重要的是，我们有 3 名 0 分未上场的球员，这是我们在第一个比赛周唯一的失望。**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们还参加了 FPL 的 FanTeam 版本，在那里我们也有两支起步非常强劲的车队。又一次，他们中的一个选错了队长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为我们的 GW2 选秀权提供有用的数据

由于我们今年在算法中加入了很多新的统计数据，随着时间的推移，这个博客将会有更多的统计数据和图表，更少的文本。让我们从下面三个比赛周的比赛难度等级(FDR)开始:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来阿森纳、水晶宫、莱斯特、西汉姆和维拉有一些艰难的比赛即将到来，所以我们的算法可能不会从这些球队中挑选球员。埃弗顿、曼联、曼城和谢菲尔德联队在接下来的三周里似乎有更轻松的赛程。

博彩赔率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们会尽量把 队伍中有超过 50 %胜算的 玩家，比如 MUN，MCI，ARS，EVE，雷和 LEE 。我们应该尽量不要有太多来自 CRY、WBA、WOL、WHA 或者 BUR 的防守球员。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以 较高概率抽 的队伍，特别是当比赛是 结合高赔率为 2.5 以下的 时，可能会以 对选择防守球员 有利，因为如果比赛以 0:0 结束，那将会产生大量的加分。结合下方的 下/上图，我们可以识别出以下 概率较高的至少一场不失球的比赛——新 vs、、和SOU vs TOT。很高兴看到我们上周的预测完全实现了，WOL、纽斯和科尔都没有失球，尽管没有一场比赛以平局告终！******

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

相反，我们可能希望从 赔率超过 2.5 的游戏中有更多的 攻击玩家 ，例如CHEvs LIV，ARS vs，MUN vs. CRY，WOL vs MCI，EVE vs. WBA。再一次，上周的赔率完美地发挥出来，因为所有的游戏都预测有超过 2.5 个目标！

裁判统计

事实上，我们还发现了一个提取裁判分配的网站，所以现在你可以看到哪些比赛的裁判更有可能判点球或给很多牌。我们也有主场优势统计，这可能有点主观，但由于大多数裁判似乎不倾向于主队，少数实际上有积极得分的统计，可能会比其他人更倾向于主队。话虽如此，看起来安东尼·泰勒有最高的点球率和主场优势系数，所以从麦克·迪恩的数据来看，利兹联队有可能被罚，埃弗顿队也有可能被罚。看起来，像游戏车-丽芙和-舒有裁判喜欢给很多卡，所以预计会失去一些黄牌，但希望没有红色…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测模型(球员统计)

现在是今年改进算法的皇冠上的宝石——预测球员统计数据的时候了。在为接下来的 n 个游戏周调整我们的团队优化器时，我们会考虑三个主要指标***—预测总点数、期望值(ROI)和每场游戏奖励点数 。下面是每个指标的统计数据，也是按职位细分的。***

预计总积分—前 25 名玩家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预计预期价值(ROI) —前 25 名参与者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每场比赛奖金(上赛季)—前 25 名球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测积分——顶级守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投射点数—顶级防守者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测得分——顶级中场

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测分数——顶级前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如你所看到的，每个位置都有大量选项可供我们选择，因此我们将把上面的许多统计数据插入 Python 中的优化函数，该函数将 输出具有最高预期总积分 的团队，给定我们的预算约束和进入我们决策过程的其他指标。在团队选择器代码生效之前应用的一些初步过滤器包括:

排除受伤或停赛球员
从 FDR 高的队伍中排除玩家
在 GW1 中排除没有固定比赛的队伍中的球员
同一团队不能有超过 3 名玩家
总共必须有 15 名球员(GK=2，DF=5，MD=5，ST=3)

下面是模型文本输出的两个例子——一个用于一个全队优化T5，一个用于一个*单人转会。*****

例 1:使用填充接头优化 3–5–2 地层的预算

正如你在下面看到的，模型首先查看参数，告诉它是否应该向 15 名球员的全队优化，或者向拥有 11 名关键球员和 4 名廉价替补 的特定阵型优化。对于填充符，它首先查看 首选地层 ，并使用那个 来决定每个位置 需要多少个填充符。然后，模型从我们的初始预算中减去花费在 4 个填充者上的总金额，并将剩余的预算花费在关键的 11 个参与者上， 给出优化函数和模型约束 。

例 2:优化有 15 名现役球员的 3–5–2 阵型的预算

游戏周 1 最终选出的队伍

和去年一样，并不是我们所有的决策过程都可以完全自动化，这就是这个游戏如此有趣和令人兴奋的原因。也就是说，我们经常查看优化器算法的 多个输出，运行一些不同的约束和优化函数 ，并将它们与本文前面描述的所有其他有用的统计数据结合起来，如 裁判统计数据、博彩赔率、FDR 分数、处罚统计数据、奖励积分统计数据 等。—向我们最终的团队选择流程添加一个 人的因素。下面是一个平衡稳固的团队的例子:

就我们自己的球队而言，我们决定不打我们的外卡，并试图在下周用两次免费转会来解决我们的门将问题。所以，我们这周的球队看起来和上周很相似，除了我们用威尔逊换走了安东尼奥。我们也希望下周用我们保留的 2 次自由转会得到 KDB。

结论

看起来很多球员在 GW1 之后使用了外卡，这是可以理解的，MCI 和 MUN 的空白周，以及随着转会窗口结束的临近，每天都出现的首发阵容和最近球员转会消息中的许多惊喜。如果你是那些 FPL 用户中的一员，我希望上面分享的统计数据能帮助你重新选择一个更加稳固和平衡的球队，充满了有望在未来首发阵容中的球员。享受这个周末的比赛，祝你好运，选出正确的队长，因为上周末埃及国王提醒了我们这是多么重要:)

EPL 幻想 GW2 回顾和 GW3 算法选择

原文：https://towardsdatascience.com/epl-fantasy-gw2-recap-and-gw3-algo-picks-16573dd004bd?source=collection_archive---------36-----------------------

我们的金钱球方法到幻想的 EPL(队 _id: 2122122)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果这是你第一次登陆我的幻想 EPL 博客，你可能会想看看我的媒体档案中的一些我们最初的 EPL 博客，以熟悉这个项目是如何开始的，以及随着时间的推移我们所做的改进。

GW2 排名前 100 的 FPL 队数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自 GW2 的世界排名前 100 的选手，大部分得分都在 125 分以上。让我们来看看他们球队中按位置选择最多的球员和最喜欢的球队阵型。

前 100 名最佳守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中最受欢迎的捍卫者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名最佳中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中入选最多的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们使用这些数据创建了下面的团队，它是由前 100 名中最受欢迎的球员组成的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名 Fantasy 用户选择最多的团队

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些数据很有意义，因为大多数顶级球员都试图利用 4-4-2 或 3-4-3 阵型的中场和前锋。

GW2 团队绩效总结和总体统计

我们所有团队的得分都高于平均水平，最高的团队得到了66 分。每周，我们都会发布前 2 名表演团队的照片。可惜我们没挑到好队长。我们选择了 Bruno Fernandez，因为我们预计会有点球，因为这两支球队在过去的 5 个赛季中拥有最高的点球统计数据。嗯，我们对点球的判断是正确的，但不幸的是，对我们来说，那是因为哭泣，而不是因为门:)由于若日尼奥错过了对丽芙的点球，我们上周的点球运气非常糟糕。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们还参加了 FPL 的 FanTeam 版本，在那里我们有本周表现最好的团队。再一次，不是最佳的队长选择——莱斯特进了 4 个球，而瓦迪不知何故甚至没有参与其中的一个。所以，我要说我们上周的运气很差总体来说，但不知何故我们还是做得不错。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为我们的 GW3 选择提供有用的统计数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来阿森纳、维拉、利兹和纽卡斯尔将会有一些艰苦的比赛，所以我们的算法可能不会从这些球队中挑选球员。狼队、切尔西、富勒姆、曼联和谢菲尔德联队在接下来的三周似乎有更轻松的赛程。

博彩赔率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将尝试积累来自 队的有超过 50 %机会赢得 的玩家，例如 MUN、CHE、、LIV、TOT、MCI 和 EVE 。我们应该尽量不要有太多来自雷、WBA、NEW、ARS、、CRY、WBA、、BUR 的防守球员。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以 较高概率抽 的队伍，尤其是当比赛是 结合高赔率为 2.5 以下的 时，可能会对选择 防守队员 有利，因为如果比赛以 0:0 结束，那将会产生大量的加分。结合下方的下/上图，我们可以确定以下 至少一场不失球概率较高的比赛——WHU-WOL、布尔-苏、富尔-AVL、舒-李。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

相反，我们可能希望从 赔率超过 2.5 的游戏中获得更多的 攻击玩家 ，例如 MCI vs. LEI 、LIV vs. ARS、WBA vs. CHE、TOT vs. NEW。同样，上周的赔率表现得相当好，因为大多数游戏预测有超过 2.5 个目标！

裁判统计

从下面的统计数据来看，在比赛中出现点球的几率更高: CRY-EVE，WBA-CHE，TOT-NEW，MCI-LEI 和 LIV-ARS ，所以我们建议为其中一些球队配备点球手。看起来，像游戏 CRY-EVE 和 SHU-LEE 有裁判喜欢给很多牌，所以预计会因黄牌而失去一些分数，但希望没有红牌…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

定位球运动员

为了帮助你选择定位球运动员，请看下面的列表，它或多或少是最新的，有几个可疑的预测:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预计首发阵容

在我们运行最终的团队选择器之前，让我们考虑一下每个团队的预计首发 11 人。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意右边可疑球员的名字，以及下面最新的伤病消息:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测模型(球员统计)

现在是今年改进算法的皇冠上的宝石——预测球员统计数据的时候了。在我们将所有 FDR、赌注系数、ref 首发、预计阵容和伤病分层后，有两个主要指标我们在为下一个 n-gameweeks 团队选择调整我们的团队优化器时会考虑到— 预测总积分和期望值(ROI)。 下面是每个指标的统计数据，也按职位细分。

预计总积分—前 25 名玩家

预计预期价值(ROI) —前 25 名参与者

预测积分——顶级守门员

投射点数—顶级防守者

预测得分——顶级中场

预测分数——顶级前锋

正如你所看到的，我们可以为每个位置选择大量选项，因此我们将把上面的许多统计数据插入 Python 中的优化函数，该函数将 输出具有最高预期总积分 的团队，给定我们的预算约束和其他进入我们决策过程的指标。在团队选择器代码生效之前应用的一些初步过滤器包括:

排除受伤或停赛球员
将球员排除在 FDR 高的队伍之外
排除 GW1 中没有固定比赛的队伍中的球员
同一团队不能有超过 3 名玩家
总共必须有 15 名球员(GK=2，DF=5，MD=5，ST=3)

《出埃及记》使用填充接头优化 3–5–2 地层的预算

正如你在下面看到的，模型首先查看参数，告诉它是否应该向 15 名球员的全队优化，或者向有 11 名关键球员和 4 名廉价替补 的特定阵型优化。对于填充符，它首先查看 首选地层 ，并使用该 来决定每个位置 需要多少个填充符。然后，该模型从我们的初始预算中减去花费在 4 个填充者上的总金额，并将剩余的预算花费在关键的 11 个参与者上， ，给定优化函数和模型约束 。**

我们使用优化器算法的输出来构建以下团队:

我们几乎只做了一个改变，那就是用 KDB 换来了奥巴。今年我们将试图从额外的转会中获得很少的-4 分，因为我们的算法意味着投资那些你至少可以保留 3-4 个游戏周的球员，所以我们不应该每周都做很多转会。选择队长很难，但考虑到儿子最近的状态和纽卡斯尔不稳定的防守，我们希望这会有所回报。但是我们也认为 KDB、萨拉赫和费尔南德斯也是不错的队长人选，因为在所有这些球队的比赛中，点球的机会都比较高。

结论

我们仍然有一些工作要做，以摆脱萨利巴，得到一个比阿雷奥拉更稳定的 GK，但这可能需要几个游戏周才能完成，所以，现在，我们坚持我们对当前阵容的长期投资**，并给球员至少 3-4 周的时间来实现他们的预期潜力。他们中的一些人，如**的儿子、萨拉赫和 KDB，已经获得了可观的红利:)享受这个周末观看比赛的乐趣，并祝你好运，选出正确的队长，因为我们都被儿子和凯恩在上周末提醒过这是多么重要:)

EPL 幻想 GW21 重述和 GW22 算法选择

原文：https://towardsdatascience.com/epl-fantasy-gw21-recap-and-gw22-algorithm-picks-112fac6f0841?source=collection_archive---------27-----------------------

EPL 幻想博客

我们的钱球方法的幻想 EPL(队 _id: 2057677)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果这是你第一次登陆我的幻想 EPL 博客，你可能会想看看我在本赛季开始时写的一些原始 EPL 博客(GW1-GW9)，以熟悉我们的整体方法和我们随着时间的推移所做的改进。我在这个项目中的犯罪搭档是 Andrew Sproul，他和我一样对数据科学、人工智能和梦幻运动充满热情。

GW21 世界排名前 100 的选手

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

世界顶级球员表现相对较好，场均 65 分，而场均 48 分。不过，也有一些顶级球员的得分在 30-40 分之间，所以如果你的得分在 50 分以上，你仍然可以自我感觉良好。

EPL 100 强球员最佳混合团队

当我们谈论世界前 100 名球员的话题时，让我们看看谁是他们球队中最受欢迎的球员，以及 GW21 最受欢迎的球队阵容。

前 100 名最佳守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中最受欢迎的捍卫者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名最佳中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中入选最多的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们使用这些数据和当前的球员价格来创建下面的球队，这是由前 100 名中最受欢迎的球员组成的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来不错的团队，在关键位置上有很多尝试不同选择的余地，同时仍然保持一个坚实的球员核心。

前 100 名 Fantasy 用户选择最多的团队

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

再次， Vardy 令人惊讶地没有参加上周的比赛，由于得到了 MD 或 DF 替补，他将每个人的阵型改为 3-5-2 或 4-4-2。

GW21 团队绩效总结和总体统计

总的来说，这是一个不错的一周，我们得到了 56 分，高于平均水平 48 分。有趣的是，我们的大部分分数来自于一些更便宜的球员——格里利什和坎特威尔，分别得到 13 分和 10 分，我们有 TAA 作为副队长，得到 6x 2 = 12 分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为我们的 GW21 选秀权提供信息的 GW21 整体统计数据

下面让我们从调整后的未来三周的对手难度等级(FDR)开始:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来伯恩利，南安普顿，谢菲尔德联队，有一个相对困难的计划，而宫，利物浦和西汉姆就在分界点，所以我们的算法不会从这些球队中做出任何选择。赛程相对轻松的球队有伯恩茅斯、埃弗顿、莱斯特、切尔西、曼城、沃特福德和布莱顿。

美国东部时间 1 月 8 日晚 9 点最新伤情更新

以下数据来自一个独立网站，该网站更新最新受伤情况的频率比 Fantasy 网站高得多:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按投资回报率和 90 分钟出场次数统计的顶级球员

根据上周一位读者的要求，我现在将公布投资回报率最高和最低的 50 名玩家，这样我们的读者就可以看到更多高投资回报率的玩家，并远离价格过高和表现不佳的玩家。

投资回报率排名前 50 的玩家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按投资回报率排名的后 50 名玩家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟得分前 10 的守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的防御者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

后卫前 10 名由 pts_per_90min

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟 pts _ per _ 强中场

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟前 10 名射手

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW22 算法选择

需要提醒的是，我们的算法会考虑调整后的每支球队阵容的预算，并试图最大化 11 名主力球员的每个位置的支出，然后让你的名 ROI 值较高的替补来填补球队的剩余人员。根据当前的投资回报率得分，在接下来的三场比赛中，过滤掉任何有 AVG 对手难度(FDR≥75%)的球队，并从可用选择列表中删除受伤的球员，我们的算法选择了以下球队作为当前花费全部 1 亿美元预算的最佳球队:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来这是一个相当平衡的团队，银行里还留有一些钱来试验不同的配置。

就我们自己的团队而言，我们因伤被迫让凯恩退出，这很不幸，因为我们上周卖掉了拉什福德，打算留下凯恩，但现在我们不得不让拉什福德回来。所以，我们最终进行了三次转会，花费了我们 8 分，但是我们希望联盟库、威利安和拉什福德在接下来的 2-3 周内会有回报。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

团队统计

查看最佳/最差防守和进攻可以有几种不同的用法——例如，如果一个最佳进攻队与一个最差防守队比赛，你可能想让你的进攻中场或前锋担任队长。此外，当你查看这些位置的算法建议时，你可能想优先考虑防守最好的球队的 DF 和 GK。

最佳 7 项防御

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在连续五场零失球之后，利物浦重新夺回了 EPL 最佳防守的宝座，他们上赛季赢得了这个冠军。

最差的 7 种防御

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最佳 7 项犯罪

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最糟糕的 7 项罪行

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

累积团队投资回报统计

下面你可以看到球队，按累积玩家投资回报率排序。请注意，活跃玩家是任何已经玩了总可能游戏时间的至少 33.33% 的玩家。所以，我们把所有至少打了 570 分钟的球员算作该队现役球员。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着更稳定的表现和价格合理的球员现在占据了前 5-8 名的位置，统计数据开始很好地趋同。令人震惊的是，莱斯特仍然保持着 11 名球员的核心，并且在整个赛季中保持了稳定的表现。别忘了他们没有参加任何欧洲赛事，所以他们轮换球员的需求更少。一些拥有昂贵球员的球队正在努力追赶并提高他们的整体投资回报率，包括热刺、阿森纳、埃弗顿和西汉姆。

最终想法:

经过长时间的休息后，我们很高兴 EPL 的行动又回来了，也很兴奋地看到这个周末瓦迪和希门尼斯休息后的腿会产生什么。我们让瓦迪担任队长，因为我们希望他在长时间休息后会充满活力，渴望进球，但拉什福德以微弱优势位居第二，因为诺维奇的防守是出了名的糟糕。

一如既往，感谢您的阅读，我们希望 2020 年对你们所有人来说是一个好的开始！享受这个周末的 EPL 行动:)

EPL 幻想 GW22 重述和 GW23 算法选择

原文：https://towardsdatascience.com/epl-fantasy-gw22-recap-and-gw23-algorithm-picks-552b909c0d?source=collection_archive---------35-----------------------

EPL 幻想博客

我们的钱球方法的幻想 EPL(队 _id: 2057677)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW22 世界排名前 100 的选手

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

世界顶级球员表现相对较好，场均 67 分，而场均 57 分。有一个神经病以 111 分几乎是本周平均得分的两倍！但是总的来说，如果你的得分在 60 分以上，你仍然可以自我感觉良好。

EPL 100 强球员最佳混合团队

当我们谈论世界前 100 名球员的话题时，让我们看看谁是他们球队中最受欢迎的球员，以及 GW22 最受欢迎的球队阵容。

前 100 名最佳守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中最受欢迎的捍卫者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名最佳中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中入选最多的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们使用这些数据和当前的球员价格来创建下面的球队，这是由前 100 名中最受欢迎的球员组成的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来不错的团队，在关键位置上有很多尝试不同选择的余地，同时仍然保持一个坚实的球员核心。

前 100 名 Fantasy 用户选择最多的团队

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在瓦迪又回来了，我们又回到了更受欢迎的进攻阵型3–4–3 或 4–3–3。

GW22 团队绩效总结和总体统计

总的来说，这是一个不错的一周，我们得到了 60 分，高于平均 57 分。作为我们的队长，我们希望从 Vardy 那里得到更多的分数，正如我在上周的博客中提到的，我认为拉什福德是队长的第二选择，所以我们希望我们选择他:)对 Jimenez 来说又是一个空虚的一周，但至少我们上周的两次转会——拉什福德和威利安得到了回报，所以我们对此感到高兴。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW22 整体统计数据为我们的 GW23 选秀权提供信息

下面让我们从调整后的未来三周的对手难度等级(FDR)开始:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来伯恩利，南安普顿，谢菲尔德联队，狼队和曼联队有一个相对困难的计划，所以我们的算法不会从这些球队中做出任何选择。赛程相对轻松的球队有伯恩茅斯、阿斯顿维拉、埃弗顿、纽卡斯尔、莱斯特、利物浦、沃特福德和布莱顿。

美国东部时间 1 月 16 日晚 11 点最新伤情更新

以下数据来自一个独立网站，该网站更新最新受伤情况的频率比 Fantasy 网站高得多:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按投资回报率和 90 分钟出场次数统计的顶级球员

投资回报率排名前 50 的玩家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按投资回报率排名的后 50 名玩家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟内排名前 10 的守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的防守队员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

后卫前 10 名 pts_per_90min

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟 pts _ per _ 强中场

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟前 10 名射手

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW23 算法选择

我们的算法接受调整后的每支队伍的预算并尝试最大化 11 名主力队员的每个位置的花费，然后让你的替补队员获得良好的 ROI 值来填补其余队员。根据当前的 ROI 分数，在接下来的三场比赛中过滤掉任何有 AVG 对手难度(FDR≥75%)的球队，并从可用选择列表中删除受伤的球员，我们的算法选择了以下球队作为花费全部 1 亿美元预算的最佳球队:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来这是一个相当平衡的团队，银行里还留有一些钱来试验不同的配置。

就我们自己的球队而言，我们决定不做任何替补，因为我们想为下周保留一些免费的替补，并试图为双赛周争取更多的利物浦球员

团队统计

看看最佳/最差防守和进攻可以有几种不同的用法——例如，如果一个最佳进攻队与一个最差防守队比赛，你可能想让你的进攻中场或前锋担任队长。此外，当你查看这些位置的算法建议时，你可能想优先考虑防守最好的球队的 DF 和 GK。

最佳 7 项防御

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

利物浦现在已经连续六场零失球了！真正开始占据守势。

最差的 7 种防御

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最佳 7 项犯罪

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最糟糕的 7 项罪行

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

累积团队投资回报统计

下面你可以看到球队，按累积玩家投资回报率排序。请注意，活跃玩家是任何已经玩了总可能游戏时间的至少 33.33% 的玩家。所以，我们把所有至少打了 597 分钟的球员都算作该队现役球员。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着价格合理的球员和更稳定的表现现在占据了前 5-8 名的位置，统计数据开始很好地趋同。一些拥有高价球员的球队正在努力赶上并提高他们的整体投资回报率马刺、阿森纳、埃弗顿和西汉姆。

最终想法:

老实说，我们对我们的球队不抱太大希望，因为拉什福德受伤了，曼联也在对阵利物浦。我们希望从希门尼斯身上得到一些东西，因为我们计划在下周卖掉他，这样我们就可以为双 GW 得到另一名高质量的利物浦球员！

一如既往，感谢您的阅读，我们希望 2020 年对你们所有人来说是一个好的开始！享受这个周末的 EPL 行动:)

EPL 幻想 GW23 重述和 GW24 算法选择

原文：https://towardsdatascience.com/epl-fantasy-gw23-recap-and-gw24-algorithm-picks-74c9ddee628a?source=collection_archive---------29-----------------------

EPL 幻想博客

我们的钱球方法的幻想 EPL(队 _id: 2057677)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW23 世界排名前 100 的选手

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于世界上许多顶级玩家来说，这是艰难的一周，他们中的许多人得分在30-40 分范围内！总的来说，他们仍然平均得到 58 分，相比之下，GW 的平均得分是 44 分。所以，如果你的得分在 50 分以上，你会对自己感觉很好:)

EPL 100 强球员最佳混合团队

当我们谈论世界前 100 名球员的话题时，让我们看看谁是他们球队中最受欢迎的球员，以及 GW23 最受欢迎的球队阵容。

前 100 名最佳守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中最受欢迎的捍卫者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名最佳中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中入选最多的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们使用这些数据和当前的球员价格来创建下面的球队，这是由前 100 名中最受欢迎的球员组成的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来不错的团队，在关键位置上有很多尝试不同选择的余地，同时仍然保持一个坚实的球员核心。

前 100 名 Fantasy 用户选择最多的团队

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在瓦迪又回来了，我们回到了更受欢迎的进攻阵型3–4–3 作为首选。

GW23 团队绩效总结和总体统计

总的来说，这是一个非常好的一周，我们得到了 68 分，远远高于平均 44 分。我们在上周博客的“最终想法”部分对希门尼斯的希望和梦想成真了，我们的投资最终获得了丰厚的回报。我们还有点“幸运”，拉什福德没有上场，所以我们可以让格里利什作为我们的第一个替补，给 T21 10 分。我们的队长选择不是最好的，我们有点不走运，德·布鲁恩漂亮的任意球击中门柱，所以我们只从他那里得到了 2x2 = 4pts :(最后，我们还从加扎尼加那里得到了一些不错的分数，自从洛里斯受伤后的第一天起，我们就一直在那里，所以，总的来说，我们很高兴！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW23 整体统计数据为我们的 GW24 选秀权提供信息

下面让我们从调整后的未来三周的对手难度等级(FDR)开始:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来西汉姆，南安普顿，诺维奇，狼队和切尔西有一个相对困难的计划，所以我们的算法不会从这些球队中做出任何选择。赛程相对轻松的球队有伯恩茅斯、皇宫、维拉、埃弗顿、纽卡、利物浦、沃特福德、布莱顿。

美国东部时间 1 月 19 日晚 10 点最新伤情更新

以下数据来自一个独立网站，该网站更新最新受伤情况的频率比 Fantasy 网站高得多:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按投资回报率和 90 分钟出场次数统计的顶级球员

投资回报率排名前 50 的玩家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按投资回报率排名的后 50 名玩家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟 pts _ per _ 强门将

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的防守球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

pts _ per _ 90min 排名前 10 的防守队员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟 pts _ per _ 强中场

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟前 10 名射手

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW24 算法选择

我们的算法接受每队阵型的调整预算，并试图最大化主要 11 名球员的每个位置的支出，然后让你的名具有良好 ROI 值的替补来填补团队的其余成员。根据当前的投资回报率得分，在接下来的三场比赛中过滤掉任何有 AVG 对手难度(FDR≥75%)的球队，并从可用选择列表中删除受伤球员，我们的算法选择了以下球队作为花费全部 1 亿美元预算的最佳球队:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就我们自己的球队而言，我们已经节省了 2 次免费转会，所以我们可以在双赛周得到更多的利物浦球员。因此，我们最终进行了以下三次转移:

威利安→萨拉赫，赛斯→坦甘加，拉什福德→格林伍德

我们知道如果克洛普决定在中场做一些轮换是有风险的，但是由于利物浦的两场比赛都是客场，并且中间有 4 天的休息时间，我们希望他能在两场比赛中首发出场。我们选择让萨拉赫担任队长，因为在过去的几场比赛中，他似乎比马内状态更好。我们也考虑过 TAA，但是我们认为很多人会和他一起去，所以我们希望在积分落后的情况下有所区别。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

团队统计

最佳 7 项防御

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**利物浦已经连续七场零失球了！**说够了……😃

最差的 7 种防御

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最佳 7 项犯罪

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最糟糕的 7 项罪行

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

累积团队投资回报统计

下面你可以看到球队，按累积玩家投资回报率排序。请注意，活跃玩家是指任何至少玩了总可能游戏时间的 33.33% 的玩家。因此，我们会把所有至少打了 620 分钟的球员算作该队现役球员。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着价格合理的球员和表现更稳定的球员现在占据了前 5-8 名的位置，统计数据开始很好地趋同。一些拥有昂贵球员的球队正在努力追赶并提高他们的整体投资回报率，包括热刺、阿森纳、埃弗顿和西汉姆。

最终想法:

首先，不要忘记这款 GW24 将于本周二上市！本周的主要赛事当然是利物浦的双人赛，很多人可能会玩他们的三重队长筹码。我们也在考虑对萨拉赫这样做，但是考虑到这两场比赛都是在 T21 进行的，而且狼队和西汉姆联都不在防守最差的 7 支球队之列，我们没有足够的信心能进足够多的球。我们仍然有可能在最后一分钟让萨拉赫成为三队长，但现在我们只进行常规比赛。除此之外我们希望热刺对诺维奇不失球，这样我们就可以在加扎尼加和坦甘加身上下些赌注。

祝大家本周好运，一如既往——感谢您的阅读！

EPL 幻想 GW24 重述和 GW25 算法选择

原文：https://towardsdatascience.com/epl-fantasy-gw24-recap-and-gw25-algorithm-picks-b23d87b86d61?source=collection_archive---------33-----------------------

EPL 幻想博客

我们的钱球方法的幻想 EPL(队 _id: 2057677)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW24 世界排名前 100 的选手

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自从我们开始追踪这个统计数据以来，这是我们见过的世界排名前 100 的玩家在最强的一周—平均 87 分！似乎这是的一周——你要么选择萨拉赫担任队长或三重队长，要么就被甩在身后… 正如你所看到的，前 100 名中没有选择萨拉赫担任队长的少数球员最终以 40-50 分的总分落后于其他人。

EPL 100 强球员最佳混合团队

当我们谈论世界前 100 名球员的话题时，让我们看看谁是他们球队中最受欢迎的球员，以及 GW24 最受欢迎的球队阵容。

前 100 名最佳守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中最受欢迎的捍卫者

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名最佳中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 100 名中入选最多的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们使用这些数据和当前的球员价格来创建下面的球队，这是由前 100 名中最受欢迎的球员组成的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来不错的团队，在关键位置上有很多尝试不同选择的余地，同时仍然保持一个坚实的球员核心。

前 100 名 Fantasy 用户选择最多的团队

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这一统计数据正在回归正常，大多数顶级球员选择 3 名防守球员，并试图利用 3-4-3 或 3-5-2 阵型的进攻型中场和前锋。

GW24 团队绩效总结和总体统计

我们对这一周有着复杂的感情，因为我们得到了 67 分，远远高于平均水平 53 分，所以乍一看我们应该感到高兴。但是当你在下面看我们的球队时，你会发现如果不是选择萨拉赫作为队长，救了我们，我们对许多其他关键球员一无所知，包括我们的两个守门员都没有上场，给了我们零分。我们所有的联赛都有绿箭，所以我想总的来说我们应该很开心。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW24 整体统计数据为我们的 GW25 选秀权提供信息

下面让我们从调整后的未来三周的对手难度等级(FDR)开始:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看起来西汉姆，莱斯特，诺维奇，热刺和切尔西有一个相对困难的计划，所以我们的算法不会从这些球队中做出任何选择。赛程相对轻松的球队有伯恩茅斯、阿斯顿维拉、阿森纳、谢菲尔德联队、纽卡、利物浦、伯恩利和布莱顿。

美国东部时间 1 月 31 日晚 11 点最新伤情更新

以下数据来自一个独立网站，该网站更新最新受伤情况的频率比 Fantasy 网站高得多:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按投资回报率和 90 分钟出场次数统计的顶级球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按投资回报率排名的后 50 名玩家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的守门员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟 pts _ per _ 强门将

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的防守球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

pts _ per _ 90min 排名前 10 的防守队员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的中场球员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟 pts _ per _ 强中场

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

投资回报率排名前十的前锋

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

90 分钟前 10 名射手

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GW25 算法选择

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就我们自己的车队而言，我们决定使用我们的通配符，因为 Hugo Lorris 现在回来了，所以我们剩下零个活跃的 GK，并且由于 Mane 的受伤和莱斯特即将到来的困难赛程，我们想要进行相当多的轮换，所以我们决定——为什么不使用我们的通配符！？我们真的很想去一个有奥巴、菲尔米诺和阿圭罗的球队，但那太贵了，所以我们不得不牺牲他们中的一个，并决定用阿圭罗和菲尔米诺，因为他们一直处于非常好的状态**，他们面对较弱的对手(历史上阿圭罗总是在很大程度上惩罚马刺)。我们几乎想让他成为队长，但是我们害怕莫里诺的极端防守风格，所以我们选择了菲尔米诺，因为利物浦主场作战，南安普顿的防守很弱。**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

团队统计

最佳 7 项防御

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最差的 7 种防御

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最佳 7 项犯罪

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最糟糕的 7 项罪行

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

累积团队投资回报统计

下面你可以看到球队，按累积玩家投资回报率排序。请注意，活跃玩家是任何已经玩了总可能游戏时间的至少 33.33% 的玩家。所以，我们把所有至少打了 650 分钟的球员算作该队现役球员。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着价格合理的球员中表现更稳定的球员现在占据了前 5-8 名的位置，统计数据开始很好地趋同。一些拥有昂贵球员的球队正在努力追赶并提高他们的整体投资回报率，包括阿森纳、西汉姆和埃弗顿。

最终想法:

在过去的几个赛季中，使用通配符对我们来说并不太好，所以我们希望这一次情况会有所不同，特别是因为我们是被迫使用通配符的。我们本周最大的希望是，在显而易见的选择——萨拉赫或阿奎罗——中，我们选择了正确的队长。这有点冒险和奢侈，比如选择娶一个红发女人，但有时这种疯狂的风险从长远来看会有丰厚的回报，所以让我们看看明天会带来什么:)

祝大家本周好运，一如既往——感谢您的阅读！