TowardsDataScience 博客中文翻译 2020（五百六十一）-CSDN博客

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

社交距离有用吗？

原文：https://towardsdatascience.com/is-social-distancing-working-b1c6e9359bde?source=collection_archive---------37-----------------------

使用苹果的移动跟踪数据来衡量社交距离在控制 Covid19 方面的有效性

苹果发布了一份移动数据趋势(www.apple.com/covid19/mobility ),使用苹果地图的数据来显示人们的驾驶、步行或乘坐公共交通行为如何随着时间的推移而变化。这些数据可以用来衡量人们的活动减少或社交距离增加的情况。自 2020 年 1 月 13 日以来，主要城市、地区或国家的人口流动被跟踪并报告为标准化数字。将这一数据与每日报告的 Covid19 病例数(【https://covidtracking.com】T2)结合起来，有助于考察社交距离与控制病毒之间的关系。

总共有 14 个美国城市被跟踪(洛杉矶、旧金山湾区、丹佛、迈阿密、亚特兰大、芝加哥、波士顿、巴尔的摩、底特律、纽约市、费城、达拉斯、休斯顿、西雅图)。这些城市的流动性趋势与 Covid19 阳性病例的每日计数相结合，创建了下图。

垂直虚线是首次发布居家订单的日期。在旧金山湾区，人们的活动在全州范围内的居家订单日期(3/19/20)之前就开始放缓。在其他城市也可以看到类似的行为，包括 4 月份发布居家命令的州。随着各州加大检测力度，确诊病例的数量一直在上升，即使社会距离令已经到位。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

旧金山的移动趋势和加利福尼亚的每日 Covid19 病例

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

芝加哥的移动趋势和伊利诺伊州的每日 Covid19 病例

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

纽约市的流动趋势和纽约的每日病例

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

波士顿的移动趋势和马萨诸塞州的每日 Covid19 案例

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

费城的流动性趋势和宾夕法尼亚州的每日 Covid19 病例

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

亚特兰大的流动趋势和佐治亚州的每日 Covid19 病例

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

迈阿密的流动性趋势和佛罗里达州的每日 Covid19 病例

虽然一些州迅速发布了在家禁令，但一些州的反应却很慢。因此，订单的时间是一个很好的变量，可以将数据分成控制/测试组，以检查两组之间的任何可变性。

在组 1 中，选择以下四种状态——CA(3/19)，IL (3/23)，MA (3/24/)，MI (3/24)。不选择 NY，因为它会扭曲整体数据。在第二组中，选择了从 4 月份开始发布居家命令的州——佛罗里达州(4/3)、佐治亚州(4/3)、宾夕法尼亚州(4/1)、德克萨斯州(4/2)。

虽然两组的驾驶行为相似，但在步行和交通方面可以观察到明显的差异。关于交通行为，自 1 月 13 日以来，两组均出现显著下降。然而，组 1 中的州比组 2 中的州在请求公交路线方面表现出更大的下降(4 月份下降了 80%)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每个州有不同的测试能力和管理。为了限制少数状态对 Covid19 计数每日增加的影响，比较了每日%增加。在三月初，两组都出现了大的峰值。然而，尽管第一组州在三月晚些时候能够控制每日%的增长，但第二组州在整个三月继续出现大幅增长。有趣的是，一旦第 2 组各州从 4 月份开始实施居家订单，Covid19 的每日%增长率开始下降到一个更易于管理的水平。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就像每个人说的那样，社交距离对对抗 Covid19 很重要。希望这能提供一些见解。

软件工程是数据科学的先决条件吗？

原文：https://towardsdatascience.com/is-software-engineering-a-prerequisite-for-data-science-1be744b1195c?source=collection_archive---------39-----------------------

在这里找到答案。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 ThisisEngineering RAEng 在un splash【1】上拍摄。

介绍

虽然数据科学工作描述需要一系列不同的技能，但有一些具体的先决条件可以帮助您成为一名成功的数据科学家。这些技能包括但不限于:沟通，统计，组织，最后，编程。编程可能会非常模糊，例如，一些公司在面试中可能会要求数据科学家用 Python 编写一个常见的熊猫功能，而其他公司可能会要求完全采用带类的软件工程。

由于我在许多不同的公司担任过不同的职位，我遇到过数据科学家和软件工程师，因此我对成为一名成功的数据科学家需要什么有了很好的认识。下面，我将概述软件工程和数据科学，并回答这个问题:“软件工程是数据科学的先决条件吗？”。

软件工程

就像数据科学一样，计算机科学中的这个领域可以包括几种不同的技能。然而，这些角色中的大多数都需要你精通至少一门编程语言，并且了解软件开发的生命周期。软件工程师经常使用的编程和编码语言有[2]:

JavaPythonC#/.NetRuby

其中一个突出的主要语言是 Python。这是因为这种语言也经常被数据科学家使用。

另一组技能是知道如何用这些特定的概念实践面向对象设计(OOD ):

AbstractionEncapsulationInheritancePolymorphism

或许，这些概念在数据科学岗位上的应用并不那么广泛；然而，它们可以提供更好的建模过程，具有高效的自动化和可伸缩性。随着机器学习模型的出现，出现了大量需要不断监控、更改、转换、删除等的数据。在 Python 编程语言中使用这些概念不仅会给你的工程部门留下深刻印象，还会让你更加独立地工作。类似地，当不仅与数据科学家合作，还与软件工程师合作时，构建模型及其部署的过程将更加健壮和高效。

举例

下面的例子展示了如何使用一个类来访问你的机器学习模型的 sklearn 库。也可以通过在管道中引用该类来访问它，该管道将为您的 pandas 数据帧适当地转换您的文本和数字特征。虽然这可以在没有软件工程或 OOD 的情况下完成，但在下面的格式中，它要快得多，更容易，并且可伸缩。下面是示例的代码和要点(相同的代码，不同的视觉效果):

# text and numeric classes that use sklearn base libaries
class TextTransformer(BaseEstimator, TransformerMixin):
    """    Transform text features    """    
    def __init__(self, key):
        self.key = key    
    def fit(self, X, y=None, *parg, **kwarg):        
        return self    
    def transform(self, X):        
        return X[self.key] class NumberTransformer(BaseEstimator, TransformerMixin):    
    """    Transform numeric features    """    
    def __init__(self, key):        
        self.key = key    
    def fit(self, X, y=None):        
        return self    
    def transform(self, X):        
        return X[[self.key]]

GitHub gist [3]上作者的代码。

数据科学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者截图[4]。

如果你还不知道，我支持作为一名数据科学家学习软件工程。软件工程不仅有助于提高机器学习模型的可扩展性，而且还有助于集成。使用 Python 函数，您可以读入数据、训练您的模型并将其部署到新环境中，以便您的建议或预测将输出到最终用户的最佳位置。一般来说，使用软件工程或者简单地实践 OOD 和 Python 函数的最重要、也是最简单的方法可能是大大减少执行某项任务所需的时间和代码。许多探索性的数据分析和模型构建可能涉及一行又一行的冗余代码，但通过一些简单的功能，数据科学家可以接收数据帧并对其进行操作，以便使用某些行值或获取某些列作为特征。

例子

虽然一些数据科学家更喜欢用 R 编写代码，但我相信 Python 更好，原因有很多(参见下面的链接了解更多信息)。下面是一个使用 Python 对 pandas 数据帧中的文本列执行自然语言处理(NLP)的简单方法的例子。在这段代码中，您可以看到’ text_field 中的数据由字符串、数字和特殊字符组成。要从列中删除这些不需要的脏数据，您可以使用逐行执行每个列的任务的技术，但是在本例中，开发了一个清理功能，以便可以从一个位置访问所有使用的清理方法。您还可以通过创建另一个函数来进一步改进这个示例，该函数将应用于循环的中的 dataframe 列列表。此外，您可以添加更多的清理步骤，最终满足清理杂乱文本数据的目标。下面是示例的代码和要点(相同的代码，不同的视觉效果):

data = {'text_field':  ['words word word12341****341234', '2132word word$$%3412', 'word 24234']} df = pd.DataFrame (data, columns = ['text_field']) import re def cleaning_funciton(x):
    x = x.lower()    
    x = re.sub('[^a-zA-Z\s]', '', x)    
    return "".join(x) df['cleaned_text'] = df.apply(lambda x: cleaning_funciton(x.text_field), axis=1)

GitHub gist [5]上作者的代码。

摘要

软件工程是数据科学的先决条件吗？

答案是是的。数据科学家常常会在职业生涯中苦苦挣扎，尤其是大学毕业后，因为他们必须与软件工程师合作，并部署自己的模型。虽然你可以成为一名数据科学家，在小公司专注于统计数据和一次性任务(也同样受人尊敬和常见)，但最好潜心学习面向对象设计，这样你才能最终成为最优秀、最成功的数据科学家。通过软件工程，你将能够与其他工程师交流，部署复杂的模型，并将你强大而有用的机器学习模型扩展到越来越多的业务中。

如果你过去主要关注的是数据科学、统计学和小规模的编程，那么提高你的整体编码技能，使之类似于软件工程师，永远都不晚。

我希望你觉得这篇文章既有趣又有用。感谢您的阅读！

参考

[1]照片由在 Unsplash(2020)上拍摄

[2] Daniel Bortz，Monster 撰稿人，当今就业市场的顶级软件工程师技能，(2020)

[3] M.Przybyla， GitHub 类要诀，(2020)

[4] M.Przybyla，清理功能截图，(2020)

[5] M.Przybyla， GitHub 清洁要点，(2020)

[6] M.Przybyla， Python 比 R. ，(2020)

[## Python 比 r 好。

原因如下。

towardsdatascience.com](/python-is-better-than-r-f7bb963a1c85)

Tableau 对数据科学家有用吗？

原文：https://towardsdatascience.com/is-tableau-useful-for-data-scientists-46d355a14b62?source=collection_archive---------32-----------------------

在这里找到答案！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Unsplash 上由 bruce mars 拍摄的照片。

介绍

虽然 Tableau 不一定是你技能的一部分，但它仍然可以在你作为一名数据科学家的日常工作中发挥作用。我在几家公司(商业、金融和技术)工作过，我可以说有些公司完全不使用 Tableau，尤其是在那里工作的数据科学家，而有些公司可能会让他们的数据科学家和机器学习工程师每周与 Tableau 一起工作几天。如果你想利用 Tableau，最终取决于你、你的团队和你的业务。仅仅因为它还没有在你当前的过程中实现，并不意味着它仍然不能在你觉得有必要使用它的时候被添加。因此，我将强调 Tabeau 可以改进的地方，以及它擅长的地方——在数据科学和机器学习方面。Tableau 作为数据分析和可视化工具非常出色，我推荐它。对于数据科学家来说，有利也有弊，我将在下面进行描述。

（舞台上由人扮的）静态画面

Tableau【2】，是一个有用的工具，主要面向业务和数据分析师。一些公司的职位甚至有指定的 Tableau 开发人员，他们只专注于为各自的受众或利益相关者创建报告和仪表板。使用 Tableau，您可以"改变对数据的看法"的一些重要方式如下:

快速分析
易用性
大数据，任何数据
智能仪表板
自动更新
秒内分享

我个人喜欢在快速创建可视化效果时使用 Tableau。我可以使用更好的 Python 包，但有时，利用 Tableau 的 SQL 数据库连接服务，您可以进行查询，并从本质上拖放来描述或可视化您的数据，以便您可以有风格地讲述您的故事。以下是 Tableau 的网页链接:

[## 我们正在改变你看待数据的方式

当谈到用数据的力量提升人们时，只有 Tableau 结合了对人们如何看待和…

www.tableau.com](https://www.tableau.com/trial/tableau-software?utm_campaign_id=2017049&utm_campaign=Prospecting-CORE-ALL-ALL-ALL-ALL&utm_medium=Paid+Search&utm_source=Google+Search&utm_language=EN&utm_country=USCA&kw=tableau&adgroup=CTX-Brand-Priority-Core-E&adused=411023877791&matchtype=e&placement=&gclid=Cj0KCQjwvvj5BRDkARIsAGD9vlJ9suptl9qLjGMdX0tZ-cB_H2mj30KITGckmYrh_nrp06cw8yvhZ-QaAqqHEALw_wcB&gclsrc=aw.ds)

什么可以改进

以下是不适合数据科学家的场景。

请记住，我不是为一般的数据分析师说这些，Tableau 的目的是什么，我是为数据科学家强调这些要点。这是使用 Tableau 时想到的三点——正如您将在后面看到的，积极或积极的方面远远多于可能的改进:

无法与 Jupyter 笔记本整合

作为数据科学家，集成和自动化是关键。您喜欢或者习惯于拥有一个将您的所有过程联合在一起的过程，以便当您执行您的业务问题用例、探索性数据分析、特性工程、模型构建和部署时，您可以很容易地在一个地方或者在一个连接的过程中引用这些步骤。我希望有一种方法来显示 Tableau 中的可视化效果，以便在 Jupyter 笔记本或某种类似的集成中显示。

然而，在 Tableau 中，您可以拥有一个用于直接 SQL 查询和报告生成的实时数据库连接，这是非常棒和有用的。

有时会很慢

现在，这一点可能不会发生在你身上，但有时你会发现自己有几个选项卡或表和仪表板，突然你有这个巨大的 Tableau 工作簿冻结了，有点令人沮丧地继续制作新的仪表板而不删除旧的。

作为一种变通办法，有时我从一个样本数据集开始，制作仪表板作为概念证明，然后将整个数据集应用于最终表单。

对数据科学应用的数量有限制

这一点不一定不好，因为 Tableau 不是数据科学工具。它确实有一些很棒的应用程序，我将在下面讨论，但在未来看到一个单独的数据科学部分会很有趣。

伟大的

下面是对数据科学家来说做得好的画面。**

为探索性数据分析(EDA)很好地可视化数据集

在数据科学过程中，EDA 经常被忽视，它可以成就或破坏您的模型。在构建模型之前快速可视化数据的能力(无需编写任何 Python 代码)是非常有益的。为您的数据科学或机器学习模型指标显示图表、图形或其他形式的可视化也很有用(如每日平均准确率)。

一个巧妙的功能是，如果图表数据的值低于或高于某个阈值，您可以设置警报——假设您希望收到一封电子邮件，提醒您您的模型几个月来首次低于 80%的准确率，然后可以在以前被忽略的地方调查该警报。

总的来说，是 Matplotlib 和 Seaborn Python 库的升级

有时需要做大量的工作，或者大量的 Python 代码(我不使用 R，所以我就不说了)，来创建一个有些不吸引人的图表。有了 Tableau，你可以在几秒钟之内不用编码就能做出漂亮的可视化效果。

可视化数据科学模型的成功指标摘要井

我在上面提到了这一点，但我想强调的是，您可以使用 Tableau 轻松地可视化您的模型指标或输出——假设您的结果、置信度得分、建议等都存储在 SQL 数据库中。或许，您可以从您的模型中输出所有置信度较低的分类，以便您公司的主题专家可以手动审查它们，从而进一步提高准确性。

与 SQL 查询很好地集成

本质上，在 SQL 中能做的，在 Tableau 中也能做。您可以粘贴查询并引用它们来制作 Tableau 中的任何内容，例如，如果您使用的数据不一定是实时的，您也可以使用静态 Excel/CSV 文件。

可以做聚类！

带 Tableau 的 k-means 算法！

我把最好的留到了最后，这个画面的好处太棒了。不需要任何代码就可以执行一个聚类模型【3】！是的，因为您不是自己构建的，所以它不会是可调的，

…但是，利用 Tableau 的这一强大功能，您可以在不到一天的时间内创建一个数据科学模型。

Tableau 中聚类的一个很好的用例是一种快速简单的方法，可以找到客户群之间的相似之处，这样你就可以针对他们进行不同的营销——想想营销活动。

**[## 在数据中查找聚类

聚类分析将视图中的标记划分为多个聚类，每个聚类中的标记更类似于…

help.tableau.com](https://help.tableau.com/current/pro/desktop/en-us/clustering.htm)**

摘要

凯文·Ku 在Unsplash【4】上拍摄的照片。

最终，Tableau 不是为数据科学家设计的，所以它对我们的用处令人印象深刻。我所讨论的优点比缺点多，而且很有可能更多的优点和一些创造性。作为一个视觉学习者和展示者，我真的很喜欢使用 Tableau。对我来说，这是脱离 Python 代码的一个很好的方式，我很欣赏可视化可以像从数据中拖放列一样简单。

我推荐使用 Tableau，是的，它对数据科学家很有用。

感谢您阅读我的文章。希望你觉得有用。如果你喜欢它，请让我知道，如果你有任何建议或意见，请随时在下面提交。谢谢大家！

参考

[1]照片由布鲁斯·马尔斯在Unsplash(2018)上拍摄

[2] TABLEAU 软件有限责任公司，(2003 年至 2020 年)

[3]TABLEAU SOFTWARE LLC，在数据中查找聚类，(2003–2020)

[4]凯文·Ku 在 Unsplash 上拍摄的照片，(2017)

新冠肺炎数据仪表板做得好吗？还是实际上比没有更糟？

原文：https://towardsdatascience.com/is-that-covid-19-data-dashboard-doing-good-or-is-it-actually-worse-than-nothing-de43da1c98be?source=collection_archive---------42-----------------------

数据可视化如何在疫情中误导或误导公众，以及为什么领域专业知识很重要。#负责任地

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马库斯·斯皮斯克在 Unsplash 上的照片

这几天世界上的一切似乎都颠倒了。

我们过去习以为常的简单日常活动——出去吃顿饭、喝杯咖啡或看望朋友和家人——即使没有完全停止，也已经发生了巨大的变化。

我们仍然可以进行的极少数活动，如购物、购买必需品，已经变成了一场游戏，外面的世界是(看不见的)熔岩。

有鉴于此，当人们被困在家里或离家很近时，看到他们的焦虑和厌倦感逐渐增加(包括我自己)也就不足为奇了。对一些人来说，这意味着用可笑的拼图游戏来惩罚自己，或者在动物穿越天堂寻求安慰。

对于许多美国统计和数据爱好者来说，他们一直在关注新冠肺炎的数据仪表板，这些仪表板基于来自《纽约时报》或欧盟的数据集。

说实话，我不记得在一个主题上见过像新冠肺炎那样多的数据面板。虽然它们中的许多信息非常丰富，但我认为值得考虑我们的观想向读者传递了什么信息。特别是在一个正在进行的疫情，人们的行动会极大地影响当地和全球范围的结果。

首先，让我们来看看一些可能的意外或无意的结果。

意想不到的后果

正如《魔鬼经济学》的作者所说，意想不到的后果无处不在——数据可视化也不例外。在某些情况下，即使是最善意的准确数据呈现也可能导致误解，进而导致糟糕的决策。这里有一个。

按年龄分列的死亡率

从一开始，像这样的图表就成了新闻，表明新冠肺炎老年人的死亡率比年轻人高得多。

(明确地说，我认为数据中的我们的世界是惊人的——我只是指一些人可能会如何解读这些数据。)

按年龄划分的病死率— 数据中的世界

另一方面，看看下面的图表。根据美国的早期数据，就绝对数字而言，20-44 岁的人比 75-85 岁的人住院的多！

来源:疾病预防控制中心

与上面显示死亡率的图表相比，你会从中得出一个非常不同的结论。

哪个更准确？当然，他们都是对的。它们只是显示了疾病及其影响的不同方面。我确信大多数读者能够很容易地将这两者调和起来。

但是对于一个不经意的读者来说，他们会怎么看呢？对一些人来说，看到这样或那样的图表可能会导致关于不同人口统计学风险的大相径庭的结论。

在疫情进展的早期，从这种类型的数据中得出的简单理解是，年轻人没有太大的病毒风险。

我们还看到了一系列随后的新闻，关于年轻人无视封锁和社交距离的命令，去参加聚会，涌向海滩。他们有关系吗？当然，这很难说。(两种方式都没有数据！)但不难想象这样的图表会产生影响。

更具体地说，上面的例子是一个简单的图表可以用相同的数据显示的消息传递的清晰缩影。这是另一个例子，简单地展示了在讨论死亡事故时语言的力量，当前死亡事故与预计死亡事故。

死亡总数

我怀疑我们许多人都记得今年 1 月、2 月甚至 3 月的声音——认为新冠肺炎死亡总人数仍然只有几十、几百、几千人，而且这只是流感季节或甚至每天道路死亡人数的一小部分。

撇开对人类生命难以置信的冷酷不谈，这种说法没有抓住警钟的要点。严肃对待新型冠状病毒是基于它可能造成的潜在破坏，而不仅仅是当时不小的损失。

但是，这样的标题可能对事情没有帮助:

天空新闻头条(文章)

这篇特别的文章没有提供任何背景——为什么这种病毒如此可怕，它的传染性如何，以及如果它进入世界各地的社区会有什么样的预测。当然，如果读者一直关注新闻，他们可能会听说所有这些，但不是每个人都有时间这样做，或者倾向于一篇接一篇地阅读文章。

另一方面，上一篇文章三天前发表的下一篇文章传递了一个完全不同的信息。

来自《新科学家》的预测，发表于同一时间(文章)

这篇文章的主要观点是新冠肺炎可以杀死数千万人！再说一次，即使在同一时间，用同样的基本事实，仅仅通过提出一个预测而不是目前的数字，就会得出一个非常不同的基调。

现在，让我们来看看，对于相应的不同解释，同一个数据集是如何以非常不同的方式可视化的。

画什么，怎么画？

即使不考虑误解的风险，呈现与快速传播、高繁殖数的传染病相关的数据也不是一件容易的事情。

就拿这两张图表来说吧，取自我们的世界数据。第一张图显示了受此影响最严重的国家的总死亡人数。

。新冠肺炎确诊死亡总数(来源: OurWorldinData

在这张图表中，美国的总数和斜率似乎非常惊人，而中国由于其最初的爆发而出现的早期数字在所有曲线中非常突出。

与此同时，下一张图展示了完全相同的数据，但每个国家每百万人的标准化数据。

每百万人确诊的新冠肺炎死亡总数(来源: OurWorldinData

这描绘了一幅截然不同的画面。就人均而言，中国的数据甚至从未超出 y 轴太多，美国的数据似乎也不像之前的数据那样令人担忧，西班牙和意大利的数据突然看起来是最差的。

如果你想知道这有什么大惊小怪的，为什么这个世界基本上已经关闭了，后一张图会对他们说什么？每个图表暗示了哪个国家在这方面做得最好/最差？

因此，有人可能会问——什么更合适？

鉴于新冠肺炎是一种传染病，因此它在一个特定国家内的分布并不均匀，那么总体人口是合适的分母吗？总数是更好的衡量标准吗？它应该被看作是震中数量的函数吗？或者考虑到它的传染性，也许它应该基于人口密度。

最重要的是，组织、政府甚至地方层面的决策者将如何解读图表并据此采取行动？

没有领域专业知识，像我这样的人就无法判断这些事实。此外，我甚至不知道如何开始解释这些数字，或者像泰勒和桑斯坦可能会说的那样，什么可能导致最有利的“T0”推动“T1”。

最后，让我们看看一些映射的数据:

甚至绘制数据也不是一项简单的任务。让我们看看美国。这张图片来自《纽约时报》优秀的新冠肺炎追踪页面。

来源:纽约时报的新冠肺炎追踪页面美国

上图显示了截至 2020 年 4 月 13 日的病例总数，以县为单位进行汇总和呈现。这描绘了一幅令人担忧的画面，你很难在美国找到许多没有爆发疫情的地方。

但是，下一张图片展示了一个对比鲜明的快照。

来源:纽约时报的新冠肺炎追踪页面

这张图显示了新病例的增长率。对我来说，最突出的是新冠肺炎的增长在西海岸急剧放缓，而在东海岸和南部却保持快速增长。

考虑到像加利福尼亚这样的州迄今为止相对较大的感染人数，这个数字对许多人来说是相当令人吃惊的。同样的数据集，截然不同的结果和收获。

例如，有人在看这张地图时，可能会试着找出为什么会这样，以及如何在东海岸复制这个结果。而从第一个图中可能没有这样的指示。

在选择、过滤、处理和呈现数据的过程中，我们做出了无数的选择——这些选择极大地影响了输出和读者的印象

我在这里想表达的观点是很明显的。我们这些呈现数据或创造数据可视化的人不能假装他们的解释是不可知的，不知道创造可视化的工作。

是的，数据仍然是数据，但是在选择、过滤、操作和呈现数据的过程中，我们做出了无数的选择。反过来，这些选择极大地影响了作品的输出和读者的印象。

数据可视化仅仅是一个服务于一个目的的工具。它不是为自身而存在的东西。更具体地说，观想需要符合潜在的意图——也就是，一个人试图传达的信息，并且有效地做到这一点。作者需要考虑这个信息是什么，它的目的是什么。

在当前的气候下，我们正在经历的疫情已经导致数百万人失业、流离失所、失去医院护理，并可能导致数十万人丧生，因此，风险从未如此之大。

正如阿曼达·马库雷克在《T2》中完美地说的那样，让我们负责任。

注意安全，各位。

如果你喜欢这个，比如说👋/关注推特，或点击此处获取更新。此外，ICYMI，我在这里写了不同国家的医疗保健能力:

* [## 各个国家的医疗保健能力是什么样的？

鉴于冠状病毒(新冠肺炎)，按国家可视化和比较医疗保健数据和指标。

towardsdatascience.com](/what-do-various-countries-healthcare-capacities-look-like-1581896a0601)*

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家，本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息，可以点击这里。

新加坡的新冠肺炎曲线变平了吗？

原文：https://towardsdatascience.com/is-the-covid-19-curve-flattening-in-singapore-857219f72f1?source=collection_archive---------58-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

格伦·卡丽在 Unsplash 拍摄的照片

“断路器”——换句话说，锁定——已经过去 2 个月了，今天是它的结束！(有点)😃

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GIPHY Studios Originals 制作的快乐无比激动 GIF，2016 年 11 月 18 日(来源)

然而，在这两个月里，最让我困惑的是，我们在新闻上看到的所有新冠肺炎图表为什么没有提到一张标明病毒检测率的图表。

这使得新加坡人很难很好地衡量我们和其他国家的实际情况。

一个国家检测得越多，发现的病例就越多，这是有道理的，因此，从视觉上扭曲了国家在“拉平曲线”方面的实际表现。

这些曲线真的变平了，还是这些国家测试得不够？

在时间轴上绘制每日价格的确讲述了一个故事，但那只是故事的一部分。

它们是描述性的吗？

肯定是的！

它们是否有助于告诉我们曲线是否接近平坦？

不完全是…

所以对我来说更大的问题是…

新加坡真的做的怎么样？

曲线变平了吗？我们怎样才能最好地想象这一点？我们如何添加关于测试率的信息？

为了回答所有这些迫切的问题，我谷歌了其他人是如何可视化他们的 COVD-19 数据的。

还有…

我找到了金子。

这个视频值得你花每一分钟的时间。

这些图像非常有用，可以告诉我们曲线是否会变平。
然而，他们仍然没有参考测试率。(让我们稍后将这些信息绘制出来，以获得完整的图片)

看过这个视频后，我决定获取最新的新冠肺炎数据，并尝试按照这个视频中的分析，并加入我们的测试率数据，以更好地了解新加坡的实际情况。

我们开始吧！

获取数据

最初，我想靠自己搜集数据，但意识到已经有成千上万的人在这么做了。

为什么要重新发明轮子？😉

数据集可以在这个公共存储库中找到

[## owid/新冠肺炎数据

关于新冠肺炎(冠状病毒)确诊病例、死亡和检测的数据所有国家由我们的世界在数据中每日更新…

github.com](https://github.com/owid/covid-19-data)

多亏了 ourworldindata.org，我可以很快获得数据进行分析。

新冠肺炎可视化

对于每个可视化，我都标注了断路器周期的开始、延长和结束时间。

另外，请注意日期是隐藏变量。

为了不那么拥挤，我只用韩国和日本作为参考，看看新加坡的情况。

这里的目标是绘制发现新病例的率，以直观地表示曲线是否即将变平。

每日新增病例的新增病例总数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎-每日新增病例的新增病例总数

在此图中，您可以看到新加坡、韩国和日本的总病例数与原始新病例数的对比。

使用原始值的问题在于很难看出是否有“变平”效应发生。

因此，观察这种效应的一种方法是用轴的对数变换来放大变化率，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎-按每日新病例统计的新病例总数(日志)

注意韩国和日本的曲线是如何变平的？

不幸的是，对新加坡来说，我们的曲线还没有变平，或者至少开始变平了。

现在，让我们通过平均每周的案例来平滑上面的图，以获得更好的视觉效果。

按每周平均新增病例统计的新增病例总数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎-按每周新增病例统计的新增病例总数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎-按每周新病例列出的新病例总数(日志)

请注意这里的一些有趣的事情，用周平均值而不是每日案例来绘图显示了更好的视觉效果和更容易检测到第二波的能力。

韩国显然正在进入第二波疫情。

日本的曲线肯定变平了。

新加坡的曲线开始变平。(我希望)

值得注意的是，到目前为止我展示的所有这些图表都没有考虑到测试率。

我没有为测试率绘制第二个 y 轴，而是觉得最好将它们分开，不要挤在上面的视图中。

按每千例总测试数列出的总病例数(每周)

我在处理这些数据时遇到的一个问题是不同的国家如何报告他们的测试率。

对于新加坡，我们每周报道一次。

一些国家，如韩国或日本，他们每天都有报道。

有些国家甚至根本不报告。

为了公平比较，由于新加坡每周报告，我对韩国和日本进行了平均每周测试计数。

此外，我直接在图上标注了最后的“每千测试总数”数字。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎-按每千人总检测数列出的总病例数(每周)

从图中可以立即看出，新加坡对的测试非常多。

比较每千人的测试总数，新加坡每千人测试的比日本多近 18 倍，新加坡每千人测试的 比南韩多 2 倍 。

所以，是的，新加坡曲线可能看起来还没有变平，病例似乎每天都在增加，但这是因为我们的测试非常严格。

结尾注释

我意识到，如果测试率如此不同，很难真正与其他国家进行比较。

我想尝试找到一种方法来规范测试率的影响，但很快意识到这不是一个好主意。

存在固有的采样偏差。

新加坡知道应该在哪些集群上增加测试。

韩国、日本或其他国家就不一样了。

这也意味着，与没有进行目标检测的其他国家相比，新加坡的数字可能会高得多。

也就是说，我们检测出阳性病例的几率比其他进行随机检测的国家要高。

我想，这里的要点是:

让我们不要喋喋不休地谈论每天病例的绝对数字。与其他国家相比，新加坡的测试非常严格，所以不要比较。

相反，我们应该感谢新加坡正在进行严格的测试！

如果您想访问我的代码进行自己的分析，请随意克隆我的存储库:

* [## 廷坦-吉图布/新冠肺炎-新加波

扩展可视化以检查新加坡-廷坦-吉图布/新冠肺炎-新加坡的新冠肺炎曲线是否变平

github.com](https://github.com/timtan-github/COVID-19-Singapore)

无论如何，我希望这篇文章是有见地的！😃

就这样，我们在邮局见！

再见！

LinkedIn 简介:蒂莫西·谭*

数据科学训练营适合你吗？

原文：https://towardsdatascience.com/is-the-data-science-bootcamp-right-for-you-65ff341edd39?source=collection_archive---------33-----------------------

分享一个可能帮助你做决定的个人故事

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片:Pixabay

这些天，很多人都在探索加入编码训练营的选择，如果他们想进入技术领域的话。越来越多的人意识到“书呆子”和“极客”是一件好事，与技术打交道很酷，知道如何编码是一种新的素养。然而，并不是每个人都准备好回到学校再学习四到五到七年来获得传统学位。进入训练营。在短短几个月内，他们承诺给你所有必要的技能和知识，让你成为一名开发人员，或数据科学家，或 UX 设计师，或网络安全专家。有什么条件，对吧？

我想分享我的个人故事，希望能帮助你做决定。

背景

和许多想加入训练营的人一样，我是一个职业改变者。我的第一个学位是新闻学(莫斯科国立大学的文学学士和文学硕士)，当我住在莫斯科的时候，我已经从事科学新闻工作好几年了。我的特殊技能是阅读科学论文，理解研究人员做了什么，并将其翻译成“人类”语言。写了一段时间关于英雄的文章后，我想成为一名英雄。

我搬到了纽约，我记得每天花几个小时学习数学是我的爱好。我真的对它充满热情，但甚至不希望我的爱好会改变我的未来。直到我决定试试运气，申请哥伦比亚大学。我知道，这个故事应该是关于训练营的，而不是传统的教育，但是请原谅我。

拿到应用数学学位毕业后，我甚至不知道该拿它怎么办。我想做研究和分析，但有一个大问题:我没有任何适销对路的技能。老实说，谁会付钱给一个手解微分方程的女人？

就在那时，我的朋友告诉我如何编写训练营的代码。我知道我不想学习软件工程，我想学习数学上更重一点的东西。所以我选了数据科学。

应用进程

纽约市有几个教授数据科学的训练营。有些只接受拥有技术学科博士学位的申请人，有些更有竞争力，有些则不那么有竞争力，但根据我的经验，所有人的申请过程都是相似的。首先，预订一次校园游是个好主意，可以和学生们呼吸同样的空气。观察他们的工作，与教师互动，感受氛围，尽可能多地提问。毕竟，你还需要了解一旦你上班，你的日常通勤会是什么样的。

接下来，你需要填写一张表格，在表格中你可以介绍你自己、你的背景以及你的编码经验。是的，你确实需要一些编码经验，或者至少是学习如何编码的强烈愿望。我建议从免费或非常实惠的课程开始，比如 youtube 教程或 Codecademy。如果你和我一样，对数据科学感兴趣，你需要了解 Python 和 SQL 的基础知识。

之后，您需要完成准备工作的第一部分，在您申请后会发送给您。会有一些编程，一些线性代数，一些微积分。你猜对了，数学部分对我来说很简单，但是我保证，只要有热情和决心，没有什么是学不到的。接下来是面试。

将有两次面试——文化和技术。文化面试是你展示你感兴趣、分享你的故事、提出问题、展示决心和渴望学习的机会。这一点很重要:训练营之所以被称为训练营是有原因的，你需要自己学习和做大量的工作，而不需要别人向你灌输技能。技术面试是有压力的部分(至少对我来说是这样)。对于数据科学项目，将有两个部分:编程和数学。你将被要求与面试官分享你的屏幕，并完成一些相当简单的挑战(如果你诚实地做了准备工作，它们会很简单)。这里重要的一点是不要惊慌:他们不是想骗你，不要过度思考问题。

如果你通过了两次面试，你就被录取了。如果没有，他们会要求你提高技能，并在三到四个月后再试一次。一旦你加入，你需要完成准备工作的第二部分，这将为第一天做好准备。将会有更多的编码，学习如何使用命令行，以及其他有趣和令人兴奋的东西。

课程结构

我学习数据科学的训练营提供 15 周的全日制课程。这是什么意思？有 12 周的学习和最后 3 周的工作在你最重要的期末项目上。这 12 周大致分为 7 个模块，每个模块涵盖一个特定的数据科学主题:Python 编程、SQL 编程、统计、回归、分类、自然语言处理、时间序列分析、深度学习等等。

最初几周大多是入门，所以集中注意力很重要。将会有讲座——做笔记和提问。在所谓的实验室里会有单独工作，也会有结对编程。你应该学会如何独立工作，以及如何和一个伙伴一起工作。

从 Mod 4 开始，你的日常活动将分为两部分:讲座周和项目周。在讲座周期间，你将向老师学习，并和一个伙伴一起做日常的编码挑战。项目周是你研究自己选择的主题，但是使用你刚才提到的技能和技术:你可以为你的分类项目对口袋妖怪进行分类，为你的回归项目预测葡萄酒的质量，为你的自然语言处理分析纽约时报的文章——任何你想要的东西。但是请记住，这些项目以后会出现在你的简历上，所以不要选择太狂野的东西。

训练营学生的一天

如果你选择了全日制的面对面项目，你应该在上午 9 点到下午 6 点之间呆在校园里。这就像你新的全职工作。我们会点名，所以不要养成迟到或早退的习惯:如果你在校园里的时间少于 95%，你就不会毕业。

通常我会在早上 8:45-8:50 来到校园，喝点咖啡，为一天做好准备。几乎每天早上 9 点整都会有编码挑战。我们的教练会让我们两人一组，然后把我们送到教室。他们还会向我们发送一个编码挑战(通常来自黑客排名或 Leetcode )，我们将有 15-20 分钟的时间来解决这个问题。第一对将解决方案发送到松弛渠道的人将向班上的其他人解释。不求成绩，只求练习。

接下来，我们回到自己的座位上，各自工作。你可以做实验，练习新技能，看教程，研究新课题。或者，如果这是一个项目周，你应该做你的项目。教练和指导员几乎总是在那里。他们是来帮忙的。你可以随时用你的数据科学相关问题向他们请教。

下午你有一个小时的时间去吃午饭，所以你可以选择是真的出去还是只是买些东西带走，然后回到校园，因为你对你正在做的事情太兴奋了，不介意在桌子上吃东西。

下午会有讲座，通常每天一到两次。这是你获得尽可能多的知识的机会。练习你的技能是非常重要的，但是这些讲座是你学习基础知识的机会，当你输入两行代码时，在引擎盖下发生了什么。

讲座结束后，你将有几个小时继续你的个人工作，直到下午 6 点回家。有时你会走得更晚，但是没有人会强迫你在 6 点以后留下来。

你不需要在空闲时间在家工作，或者在周末加班。照顾好自己很重要，你的教练和指导员都知道。但至少读一些书:媒体上的新出版物可能是你下一个项目的灵感。

人

作为一名全日制训练营的学生，最好的部分是人。你认识的这些了不起的人。会有导师来讲课——这些家伙有真正的专业经验，你真的应该注意他们说的话。有教练，他们很乐意帮助和回答你的任何问题(他们有时也会讲课)。有比你先开始的同学，你可以学习他们的经验，有比你后开始的同学，你可以和他们分享你的经验。来自其他项目的学生，比如软件工程师和 UX 设计师，最后，来自你们这一届的学生。这些是你最好的朋友和家人。你将和他们中的大部分人一起完成上午的编码挑战，和他们中的一些人一起花整整一周的时间完成一个项目，然后一起向全班展示。

挑战

几乎每一个我亲自交谈过的学生和以前的学生都会把这个项目描述成过山车。有些时候，你会对自己刚刚学到的东西或做的事情感到非常惊讶，有些时候，你会感到非常沮丧，什么都不懂，未来看起来毫无希望。有时候，这些时刻可以是连续的。重要的是要明白，即使是最优秀的学生也无法理解其中的一些主题，但你需要努力提问，与导师交谈，做一些研究。你最终会明白的。

有时候我似乎做了力所不及的事情。我记得当时很恐慌，想出了 B 计划，烦了老师和其他学生，试图自己解决问题。但是回过头来看，我会说我做得很好。我完成了我计划的每一个项目(当然，不是没有帮助)。

那么它适合你吗？

如果您:

你绝对相信编程应该成为你工作和生活的一大部分
不害怕数学。也许有点害怕，但是你再也不会说“我讨厌数学”这种话了
准备努力工作
需要实用的、有市场价值的技能
尝试了所有的免费项目和课程，需要一个更有条理的项目和课程
正在寻找技术方面的联系，并愿意结交新朋友

它不适合您，如果:

你只是随便逛逛，问自己“为什么不参加训练营？”。相信我，你会失去你的金钱、时间和一点点动力
你完全不知道数据科学是什么，你只是听说它是“本世纪最性感的职业”，并决定尝试一下
你期望被“填鸭式”地灌输信息和技能
你不是一个社会动物。不一定是 100%纯种的外向者，但你需要能自如地与人合作、提问、在全班面前展示等等。
训练营的广告中唯一能告诉你的是工作安置率。训练营确实能与优秀的职业教练和雇主合作团队合作，但没有人会在你毕业后的第一天就给你“安排”一份工作。见鬼，毕业三个月了，我自己还在找工作。他们的目标是用技能、知识和资源来武装你，让你打入这个领域。剩下的就看你的了。

希望我的故事能帮助你做决定。如果你有任何问题，我很乐意帮忙。在 LinkedIn 上联系我，随时给我拍消息。

网络安全的未来是否掌握在人工智能(AI)手中？— 1

原文：https://towardsdatascience.com/is-the-future-of-cyber-security-in-the-hands-of-artificial-intelligence-ai-1-2b4bd8384329?source=collection_archive---------33-----------------------

事实上，近年来机器学习已经取得了很大的进步，从自主工具到虚拟助手，从聊天机器人到人脸/物体识别。网络安全呢？

中国哲学阴阳代表了看似相反的两极如何互补并达到和谐。

在网络安全中，这种古老的哲学完美地代表了有监督和无监督机器学习之间的关系。例如，受监控的机器学习过程可以用于检测，而无监督的机器学习使用聚类。在网络安全和数据安全研发的情况下，受监控的机器学习通常以机器学习算法的形式实现。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

描述人工智能(AI)并不容易。它没有明确的定义。现有的大多数定义都试图将 AI 表达为模仿人类智能和行为并智能行动的计算机进程。但是这种情况带来了更多的问题比如什么是智能？人们总是表现得聪明而有逻辑吗？这是人工智能的理想成果吗？或者说计算机能比人类表现得更好吗？将人工智能基于理性行为的方法的定义是指计算机做难以做的事情。然而，在本文中，采用了一种实用主义的方法来简化问题，并将人工智能定义为负责为人类难以找到解决方案的复杂问题提供基于计算机的解决方案的科学领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能技术前景

人工智能在网络安全中的应用相对较新。尽管一些网络安全专家认为，网络安全的答案是机器学习，以检测复杂的违规行为，并且只有在基于人工智能的解决方案的帮助下确保 IT 环境的安全，网络安全才能继续取得成功。其他人认为，尽管机器学习非常擅长寻找相似之处，但它在检测异常方面不够好，因此不适合网络安全。

除了这些讨论，事实是，近年来机器学习已经取得了很大的进步，从自主工具到虚拟助手，从聊天机器人到人脸/物体识别。随着我们迈向网络安全更加融入我们日常生活的未来，重要的是要了解基于机器和深度学习的不同方法，以便更好地保护网络和数据安全，抵御日益复杂和高级的攻击。

正如你可能已经知道的，有四种类型的机器学习算法来训练机器神经网络:监督学习，非监督学习，半监督学习(也称为主动学习)，强化学习。有监督的学习是从训练数据集进行学习，而无监督的机器从检测威胁的能力有限的数据本身进行学习，因为它只寻找以前看到和标记的细节，而无监督的学习不断扫描网络并发现异常。然而，无监督学习不需要标记的训练数据，更适合检测可疑活动，包括检测以前从未观察到的攻击。

监督学习是从训练数据集中学习。受监督的机器从数据本身学习，这仅受限于它在搜索它之前看到并标记的细节时检测威胁的能力。对于无人值守学习，不需要标记的训练数据，更适合检测可疑活动，包括检测以前从未观察到的攻击。无监督学习不断扫描网络，发现异常。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器学习算法

机器学习已经被用来减少攻击检测和预防工具作为网络安全系统的一部分可以处理的负载。类似于真实人类决策机制的人工智能算法试图对决策机制进行建模。

已经有许多尝试来覆盖无人值守的机器学习安全解决方案，导致了针对各种安全问题的大量未经测试的解决方案。这些早期尝试中的许多都难以生成足够的数据来有效检测复杂的违规行为，如身份欺诈和高级网络攻击。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

相比之下，无监督机器学习是关于寻找和描述数据中的隐藏结构。这个问题与定义距离函数的问题有关，因为大多数(如果不是全部的话)聚类算法都是基于数字和非分类数据的，因此我们听到的聚类算法和分类一样多。

在网络安全的背景下，人工智能试图通过权衡表明对系统构成威胁的行为模式来保护系统。从这个角度来看，机器学习就是学习导致恶意行为的模式的过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在信息安全领域，人工智能解决方案通常以分析师为导向，以无监督的机器学习为重点。使用无监督的机器学习来检测罕见或异常的模式可以增加对新攻击的检测。但是，它也可能触发更多的误报和警告。这需要大量的分析工作来调查这些假阳性的准确性。这种错误警报会导致警报疲劳和不安全，随着时间的推移，会导致其返回到以分析为中心的解决方案，并由此产生弱点。信息安全行业面临的三大挑战，每个都可以通过机器学习解决方案来解决，现已确定如下[2]:

缺少标记数据:许多组织缺乏使用标记示例和以前攻击的监督学习模型的能力。
不断发展的攻击:即使受控学习模型是可能的，攻击者也可以改变他们的行为并覆盖它们。
研究或调查的时间和预算有限:向分析师申请调查攻击既费钱又费时。

然而，由于该行业仍在将该技术作为概念验证进行试验，因此在安全解决方案是机器学习的情况下，信任的想法是理想的。它可以帮助改善打击网络犯罪的斗争，而人工智能可以通过自动化模式识别过程来推动人类的努力。机器学习系统根据类别报告有用的数据，而分析师们公开谈论机器学习如何成为安全的黑盒解决方案，而 CISOs 们并不太确定引擎盖下是什么。

今天，人工智能还没有准备好取代人类，但通过自动化模式识别过程，它可以增强人类的努力。这里有一个无法否认的真理，因为机器学习在网络防御中有非常不同的用途。

考虑到所有的使用领域，可以分两类评价 AI 在网络空间的使用情况；人工智能在网络防御中的应用以及人工智能在网络进攻中的应用。

在第二部分，我们将讨论人工智能在网络防御中的应用…

来源

[1] K.R. Chowdhary，《人工智能基础》，施普林格印度公司，2020 年。

[2] K. Veeramachaneni，I. Arnaldo，a .-Infante，V. Korrapati，C. Bassias，K. Li，《:训练一台大数据机器进行防御》，IEEE 大数据安全国际会议，纽约市，2016 年。

网络安全的未来是否掌握在人工智能(AI)手中？— 2

原文：https://towardsdatascience.com/is-the-future-of-cyber-security-in-the-hands-of-artificial-intelligence-ai-2-4befa4aabd12?source=collection_archive---------52-----------------------

事实上，近年来机器学习已经取得了很大的进步，从自主工具到虚拟助手，从聊天机器人到人脸/物体识别。网络安全呢？

利用人工智能进行网络防御

传统的固定算法(如决策层的硬连线逻辑)无法有效应对动态变化的网络攻击。因此，需要更多创新的方法，例如使用提供灵活性和学习能力的人工智能方法和实践，特别是在网络防御方面。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Pixabay 的 xresch

考虑到网络防御，现有的人工智能方法和架构可以列举如下；

A. **神经网络:**神经网络历史悠久，始于 1957 年弗兰克·罗森布拉特(Frank Rosenblatt)发现“感知机”(perceptron)。在机器学习中，感知器是一种为二进制分类器(决定由向量数字表示的输入是否属于特定类别的函数)的监督学习而开发的算法。这些神经网络中最受欢迎的元素之一是人工神经元[3，4]。少量的感知机一起工作可以学习和解决问题。但是神经网络可以由大量的人工神经元组成。由大量人工神经元组成的神经网络可以提供大规模并行学习和决策功能。这些网络最突出的特点是它们的运行速度。它们非常适合于模式识别、学习、分类和对攻击的响应。它们可以应用于硬件和软件[5]。

神经网络也适用于入侵检测和预防[6，7，8，9]。科学研究显示了使用这些网络进行 DoS 检测[10]、计算机蠕虫检测[11]、垃圾邮件检测[12]、僵尸检测[13]、恶意软件分类[14]和数字取证研究[15]是多么有效。

神经网络在网络防御中受欢迎的一个原因是，如果它们可以在硬件中实现并在图形处理器中使用，它们的速度会很高。第三代神经网络——更真实地模拟生物神经元的脉冲神经网络的应用是神经网络技术的新发展。FPGA(现场可编程门阵列)提供的系统允许神经网络快速发展并适应不断变化的威胁，为网络防御做出了重大贡献[16]。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

神经网络

B. **专家系统:**专家系统是使用最多的人工智能工具。专家系统是在一些应用程序的活动领域中使用的软件，用于寻找用户或另一个软件提出的问题的答案。它可以直接用于支持医疗诊断、金融或网络空间等领域的决策。有各种各样的专家系统来解决问题，从小型技术诊断系统到复杂的、非常大的和复杂的混合系统。从概念上讲，专家系统包括一个关于特定应用领域的专家知识数据库。空知识库和提取引擎统称为专家系统外壳。要被使用，它必须充满信息。专家系统外壳应该能够由软件支持，以向知识库添加信息，并且对于用户交互和可以在混合专家系统中使用的其他程序是可扩展的。开发专家系统首先意味着选择/修改专家系统外壳，其次是获取专家知识并用信息或数据集填充知识库。第二步比第一步复杂得多，花费的时间也多得多。专家系统可以用于网络防御的一个例子是安全规划[17]。在该领域中使用的专家系统大大简化了选择安全措施的任务，并为有限资源的最佳使用提供了指导。此外，专家系统在入侵检测中的使用可以追溯到过去[18，19]。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

专家系统

C. **智能代理:**智能代理是具有一些智能行为特征的软件组件，这些特征使其变得特殊(主动性、理解和响应代理通信语言)。这些软件组件具有计划性、可变性和深度思考能力。它已经作为一个概念被采用在软件工程中，软件代理被认为是主动的和代理的通信语言。但是，当比较代理和对象时，可以表现为对象可以是被动的，并且不需要理解任何语言(尽管它接受具有良好定义的语法的消息)[17]。

有研究表明，在网络防御中如何使用有效的智能代理来抵御 DDoS 攻击[20，21]。其中一些研究还指出，在解决一些法律和商业问题后，有可能开发出由移动智能代理组成的“网络警察”[22]。此外，混合多代理、基于神经网络的入侵检测系统[23]和基于代理的分布式入侵检测系统[24]是这方面的其他科学研究。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

智能代理

D. **搜索:**搜索几乎存在于每一个各种形状和格式的智能程序中，其效率往往对整个程序的性能至关重要。在满足解决方案要求的同时，可以使用附加信息来指导研究，这样可以显著提高搜索效率。许多搜索方法已经在人工智能中开发出来，虽然它们在许多软件中使用，但这通常不被视为人工智能的使用。例如，动态编程[25，26]专门用于解决最优安全问题，但嵌入式搜索似乎不是人工智能应用。与或树(Andor trees)、αβ搜索、极大极小搜索和随机搜索广泛应用于游戏应用中，尤其适用于网络防御决策。最初为计算机象棋游戏开发的αβ搜索算法在解决问题方面非常成功，尤其是在评估和决定两次攻击的最佳可能行动方面。使用最少获胜和最多失败的预测，该算法允许通过忽略大量选项来加速搜索。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

搜索算法

E. **学习:**学习通过扩展或重新安排知识库或通过开发推理机来开发信息系统[27]。机器学习包括获取新信息的计算方法、新技能和组织现有信息的新方法。学习问题与简单参数学习的复杂性(符号学习的复杂值，如学习某些参数的值和学习概念、语言结构、函数，甚至行为学习)有很大的不同。

人工智能提供了监督学习和非监督学习的方法。如果有大量数据，无监督学习特别有用，这种方法在可以收集大量日志的网络防御中很常见。数据挖掘最初是出于人工智能中的无监督学习[6，28]。

适合在并行硬件上执行的并行学习算法已经创建了一个优秀的学习类。这些学习方法以遗传算法和神经网络为代表。遗传算法和模糊逻辑方法已被用于网络防御，例如，威胁检测系统[29]。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 Philipp Marquetand 来自 Pixabay

F. **约束求解:**约束求解是利用人工智能(逻辑表达式、表格、方程、不等式等)发展起来的技术。)在解决所提出的问题时，通过对解决方案给出一系列的约束条件[30]。问题的解决方案是满足所有限制的值的集合(一系列)。事实上，有许多不同类型的约束，这取决于约束的性质(例如，有限集上的约束、函数约束、有理树)。在非常抽象的层次上，几乎任何问题都可以表示为约束满足的问题。由于需要大量的调用，这些问题的解决方案通常是困难的。它可以用于约束，逻辑编程，以及情况分析和决策支持[31，32]。

在第三部分，我们将讨论早期预警系统(EWS)和人工智能在网络犯罪中的应用…

来源

[3]罗森布拉特。“感知机——感知和识别自动机”，康奈尔航空实验室，1957 年。

[4] Y. A. Freund，R. E. Schapire，“使用感知器算法的大幅度分类，机器学习”，37(3):277–296，1999 年。

[5] G. Klein，A. Ojamaa，P. Grigorenko，M. Jahnke，E. Tyugu，“加强影响评估方法中的反应选择”，军事通信和信息系统会议，波兰弗罗茨瓦夫，2010 年。

[6]白，吴，王，杨，邱，“一种基于多层自组织映射和主成分分析的入侵检测模型，神经网络研究进展”，施普林格，2006 .

[7] F. Barika，K. Hadjar，N. El-Kadhi，“用于移动 IDS 解决方案的人工神经网络”，安全与管理，2009 年。

[8] D. A. Bitter，t .埃利宗多，“人工神经网络和相关技术在入侵检测中的应用”，IEEE 计算智能世界大会，CCIB，2010 年。

[9]张瑞仪，赖立波，苏伟德，王俊春，高俊生，“基于样本查询和属性查询的反向传播神经网络入侵检测”，计算智能研究国际期刊，2007 .

[10] B. Iftikhar，A. S. Alghamdi，“人工神经网络在检测 DOS 攻击中的应用”，第二届信息与网络安全国际会议论文集。纽约州纽约市，2009 年。

[11] D. Stopel，Z. Boger，R. Moskovitch，y .沙哈尔和 Y. Elovici，“人工神经网络技术在计算机蠕虫检测中的应用”，国际神经网络联合会议，2006 年。

[12] C. H. Wu，“基于规则技术和神经网络混合方法的垃圾邮件行为检测”，专家系统与应用，2009。

[13] P. Salvador 等，“利用神经网络进行僵尸检测的框架”，第四届互联网监测与保护国际会议，2009 年。

[14] M. Shankarapani，K. Kancherla，S. Ramammoorthy，R. Movva，S. Mukkamala，“用于恶意软件分类和相似性分析的核心机器”，IEEE 计算智能世界大会。2010 年，西班牙巴塞罗那。

[15] B. Fei，J. Eloff，M. S. Olivier，H. Venter，“在数字调查中异常行为检测的自组织图的使用”，法医科学国际，2006 年。

[16] E. Tyugu，“网络防御中的人工智能”，第三届网络冲突国际会议，2011 年。

[17] J. Kivimaa，A. Ojamaa，E. Tyugu，“分级安全专家系统”，Springer，2009 年。

[18] D. Anderson，T. Frivold，A. Valdes，“下一代入侵检测专家系统(NIDES)”，SRI 国际，计算机科学实验室，1995 年。

[19] T. F. Lunt，R. Jagannathan，“一个原型实时入侵检测专家系统”，IEEE 安全和隐私研讨会，1988 年。

[20] I .科滕科，a .乌兰诺夫，“模拟自适应合作防御互联网攻击的多智能体框架”，自主智能系统国际研讨会:智能体和数据挖掘，施普林格。

[21] I .科滕科、a .科诺瓦洛夫、a .肖罗夫，“僵尸网络和僵尸网络防御的基于代理的建模和模拟”，网络冲突会议，欧洲防治荒漠化公约出版物，爱沙尼亚塔林，2010 年。

[22] B. Stahl，d .，M. Carroll-Mayer，Y. Zheng，K. Wakunuma，“在计算机安全和计算机取证中使用计算智能技术的伦理和法律问题”，IEEE 世界计算智能大会，西班牙巴塞罗那，2010 年。

[23] E .赫雷罗，m .科尔查多，a .佩里塞尔，a .亚伯拉罕，“混合多智能体-神经网络入侵检测与移动可视化”，混合智能系统创新，2007 年。

[24] V. Chatzigiannakis，G. Androulidakis，B. Maglaris，“使用安全代理的分布式入侵检测原型”。惠普 OpenView 大学协会，2004 年。

[25] J. Kivimaa，A. Ojamaa，E. Tyugu，“选择安全措施的帕累托最优情况分析”，MilCom，2008 年。

[26] J. Kivimaa，A. Ojamaa，E. Tyugu，“管理不断变化的安全局势”，MilCom，2009 年。

[27] P. Norvig，S. Russell，“人工智能:现代方法”，Prentice Hall，2000 年。

[28] V. K. Pachghare，P. Kulkarni，D. M. Nikam，“使用自组织映射的入侵检测系统”，智能代理和多媒体代理系统国际会议，2009 年。

[29] R. Hosseini，J. Dehmeshki，S. Barman，M. Mazinani，S. Qanadli，“用于计算机辅助检测系统中模式识别的遗传 2 型模糊逻辑系统”，IEEE 计算智能世界大会。2010 年，西班牙巴塞罗那。

[30] B. Mayoh，E. Tyugu，J. Penjam，“约束程序设计”，北约 ASI 丛书，施普林格出版社。1994.

[31] I. Bratko，《人工智能的 PROLOG 程序设计》，Addison-Wesley，2001 年。

[32]欧，“网络安全分析的逻辑程序设计方法”，普林斯顿大学博士论文，2005 年。

网络安全的未来是否掌握在人工智能(AI)手中？— 3

原文：https://towardsdatascience.com/is-the-future-of-cyber-security-in-the-hands-of-artificial-intelligence-ai-3-60a148334245?source=collection_archive---------64-----------------------

事实上，近年来机器学习已经取得了很大的进步，从自主工具到虚拟助手，从聊天机器人到人脸/物体识别。网络安全呢？

利用人工智能进行网络防御

可能的网络防御系统应该提供至少三个级别的网络安全。第一层包括传统的静态网络防御机制，如身份和认证、密码保护、访问控制和网络过滤等。第二层包括主动的网络防御机制，如信息收集、安全评估、网络状态监控和攻击。第三个级别对应于网络防御管理，它对网络状态进行整体评估，选择适当或最佳的防御机制，以及它们的适应性[33]。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预警、入侵检测和预防系统，包括人工智能技术，在确保这些网络安全水平方面发挥着重要作用。

早期预警系统(EWS)用于防范网络攻击并尽快做出反应。然而，由于新技术带来的新级别的网络威胁，与传统和纯粹的数据包检测不同，新的 EWS 体系结构需要收集、分析、关联数据，同时近乎实时地检测、分析和响应威胁模型。听说了。这种需求包括开发虚拟传感器、复杂的数据关联、用于网络行为分析的新逻辑模型、学习算法，以及开发能够提供可扩展性、可靠性和灵活性的概念和新方法，尤其是在 IPv6 网络中[34]。

在预警和入侵检测中使用人工智能的目的是开发一种先进的智能帮助系统，用于在局域网和广域网中尽早检测来自互联网的攻击。在这个框架中，还应该考虑广泛使用的 internet 协议，如 FTP、SMTP 和 HTTP，以及较新的协议，如 SOAP。

在网络防御领域使用人工智能需要解决的主要问题是，可用的技术没有达到理想的水平，应该开发和适应什么样的人工智能方法，以最大限度地减少人的因素，这被认为是网络防御中最薄弱的环节。

利用人工智能进行网络攻击

人工智能的滥用会在几个方面威胁安全；

对数字安全的威胁，
对人身安全的威胁，
对社会/经济/政治安全的威胁，

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

社会工程攻击的自动化: NLP(自然语言处理)工具能够模仿受害者的写作风格，因此人工智能系统收集在线信息来创建很可能被自动点击的个性化恶意网站/电子邮件/链接。

*漏洞发现的自动化:*过去的代码漏洞模型有助于加快新漏洞的发现。

*高级黑客:*人工智能可以用在黑客的很多方面。例如，人工智能提供自动化工具来改善目标选择和优先排序，避免检测，并对目标行为的变化做出创造性的反应。它还可以模仿类似人类的行为，将目标系统引导至不太安全的状态。

*勒索软件任务的自动化:*人工智能技术可以自动完成与勒索软件攻击者的受害者的对话和支付过程等各种任务。

*人工智能在应用中的利用:*人工智能被用来制造数据中毒攻击，或称 backdoor(后门)。

*群体攻击:*分布式自主机器人系统网络允许监控大区域并执行快速、协调的攻击。

*对自主无人机和车辆的攻击:*基于人工智能的自主无人机和车辆的控制作为网络攻击的结果，构成了重大威胁。

*假新闻:*当图像处理的最新发展与自然语言创作技术相结合时，公众试图通过制作高度逼真的国家领导人视频而被误导，这些视频似乎在发表他们从未实际做过的演讲和评论。

*个性化的虚假信息和影响活动:*人工智能驱动的社交网络分析可以识别(恶意)要约接近或虚假信息瞄准的关键因素。

来源

[32]欧，“网络安全分析的逻辑程序设计方法”，普林斯顿大学博士论文，2005 年。

[33] I .科滕科，“用于国土安全的网络攻击和网络防御的多代理建模和仿真”，IEEE 智能数据获取和高级计算系统国际研讨会:技术和应用，2007 年。

[34] M. Golling，B. Stelte，“未来 EWS 的要求——未来互联网中的网络防御”，第三届网络冲突问题国际会议，欧洲防治荒漠化公约，2011 年。

数据科学的未来是女性吗？

原文：https://towardsdatascience.com/is-the-future-of-data-science-female-42ce043cecd7?source=collection_archive---------72-----------------------

Kaggle 的调查数据揭示了关于数据职业未来多样性的有趣(尽管有限)见解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

凯瑟琳·汉隆在 Unsplash 上的照片

本周的改变一切播客专题讨论了职业道路和成功。讨论的一个关键点是，在人们如何对待导师以及在工作中寻求支持或晋升方面，性别之间存在差异，以及促进不同声音和观点的重要性。考虑到这个问题，我想进一步研究数据科学中关于性别多样性的现有数据。

关于在该领域工作的各种人的一个信息来源是 2019 Kaggle ML & DS 调查，该调查要求专业人士和学生回答一系列(数据科学双关语)关于他们的性别、职称、收入、国籍等问题。(种族不是包含的问题之一。)20172017和 20182011的调查数据也有了，所以这是一个很好的纵向分析的机会。

我想我应该用 Alteryx Designer 仔细看看 Kaggle 的数据，看看是否有任何值得注意的性别模式出现，特别是在学习数据科学的学生周围。毕竟，今天的学生将帮助决定这个领域多元化的未来。

随时间变化

我最初认为，在 Kaggle 调查的三年中，看看学生的性别多样性是否有任何变化会很有趣。我发现，从 2017 年到 2019 年，学生调查受访者中认为女性的比例实际上略有下降。认为自己是男性的受访者人数和提供其他答案(可能包括“不愿意回答”或“更愿意自我描述”)的受访者人数保持稳定。至少在这些数据中，性别之间并没有向更公平的方向转变。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

性别和国籍

哪些国家培养了最多的女性数据科学学生？我只看了 2019 年 Kaggle 的回复，并按国籍和性别进行了细分。然后，我将这些数据与各国的人口数据结合起来，计算出每个国家每 10，000 人中有多少数据科学专业的学生，以及有多少是女性。(当然，这些只是 Kaggle 调查的受访者，提出了我将在下面讨论的复杂问题。)

下表列出了数据科学学生人数最多的 15 个国家，同时也显示了女学生的人数。即使在接受调查的学生人数最多的国家，女生的比例也相对较低。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

调查对象的性别和教育

数据科学专业的学生可以追求各种证书。再次使用 2019 年的调查数据集，我按性别检查了非学生受访者中教育水平的差异。女性受访者拥有硕士或博士学位的比例略高于男性受访者。

虽然差别不是很大，但考虑一下它的潜在原因还是很有趣的。女性获得高等学位的比率比男性高吗？不管出于什么原因，高学历女性更有可能完成调查吗？招聘经理是否要求女性接受更高的教育标准以获得职位？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据限制

使用 Kaggle 数据来研究这些问题并不是一个理想的方法，但它本身提出了一些有趣的问题。这项调查是自愿的，而且(据我所知)只有英文版，尽管受访者来自 171 个不同的国家，所以参与人数有限。此外，Kaggle 在很大程度上是一个竞争网站，用户在这里应对各种挑战，以证明他们的数据能力。这种形式可能对所有性别和背景的数据科学学生和专业人员没有同等的吸引力。

向调查受访者询问性别问题本身就很困难，我自己的分析也有缺陷，因为“其他回答”(我将“不愿意说”和“愿意自我描述”的回答归为一类)包括了调查中性别问题的所有其他回答。此外，该问题的答案选项在 2017 年版本的调查中有所不同。

未来的外卖

来自国家和全球教育和专业机构的其他数据将提供额外的见解，也许更可靠。但是，当我们探索在数据职业中实现更大多样性的途径时，观察这些模式并考虑如何解决它们是很有趣的。

对于那些寻求进入数据职业的人来说，Alteryx ADAPT(共同提升数据&分析潜力)计划是一个免费的在线培训机会，包括在该计划中使用的软件许可证、协作讨论、数据科学资源和认证。该计划适用于任何就业受到新冠肺炎疫情影响的人，包括失业或休假的人，或失去实习或毕业后机会的人。主题包括数据基础介绍、Alteryx Designer 的核心认证和业务预测分析。该项目的自定进度结构非常适合不同背景的人，包括那些可能发现寻求其他提升技能机会具有挑战性的人。

这需要我们所有人共同努力，相互支持，以提高数据专业的多样性。关于我们如何在这一领域相互支持的更多见解和第一手经验，请查看本周的 Alter Everything 播客。

原载于 Alteryx 社区 。在 Alteryx 数据科学门户 找到更多资源。

点在多边形里面吗？

原文：https://towardsdatascience.com/is-the-point-inside-the-polygon-574b86472119?source=collection_archive---------7-----------------------

在计算几何中，多边形中的点 ( 点)问题询问平面中的给定点是位于多边形的内部、外部还是边界上维基百科。

一种快速简单的算法来确定一个点是位于多边形内部、之上还是之外，在各种应用中非常有用，如计算机图形学、地理信息系统(GIS)、运动规划、CAD、计算机视觉等。

作为一名计算机视觉工程师，我看到的一些直接应用是:

车道检测:由于车道可以用梯形来表示，因此 PIP 可以用来判断像素是否位于梯形(车道)内。
**使用边缘检测计算对象的面积:**任何对象的面积都可以通过对其执行边缘检测来计算，然后通过检查像素是否位于对象边缘形成的多边形内来计算面积。

解决画中画问题的一些方法是通过使用 光线投射算法 和 缠绕数算法 **。**需要注意的一点是，对于真正靠近多边形的点，缠绕数算法比光线投射更精确。此外，在较新的实现中，它也比光线投射算法更快。对于凸多边形，PIP 问题被进一步简化，我们将讨论一种这样的方法来解决它。

在这篇文章中我将解释解决任意多边形画中画的缠绕数算法。然后，我将介绍一种解决凸多边形 PIP 的简化方法。这两种方法的 C++代码都可以在这里找到。

绕组数量算法

缠绕次数由曲线围绕一个点逆时针旋转的次数来定义。

点 p 的绕组数是 2。(来源:维基百科)

该算法规定，对于多边形内的任何一点，缠绕数都不为零。因此它也被称为非零规则算法。

来源:作者

计算缠绕数的一种方法是计算多边形的每条边与查询点所成的角度。这分别由 AB 边、BC 边、CD 边和 DA 边的角度θ1、θ2、θ3 和θ4 表示。如果这些角度的总和为 2 π ，则该点位于多边形内部，如果总和为 0，则该点位于多边形外部。

*sum_of_angles = θ1 + θ2 + θ3 + θ4 = 2 π **-> Point is inside** sum_of_angles = θ1 + θ2 + θ3 + θ4 = 0 **-> Point is outside.***

类似于光线投射算法，该算法的时间复杂度将是 O(n ),但是它将涉及反三角函数(如 atan2)的重复计算，以获得多边形的边与查询点所对的角度。

如 W. Randolph Franklin 所述，降低复杂性的一种方法是简单地观察实际上围绕查询点的边，而所有其他边可以忽略。

***算法:*对于任意多边形，求该多边形所有与通过查询点的直线相交且平行于 y _ 轴的边。对于这些边，检查当逆时针方向看所有边时，查询点是在边的左侧还是右侧。如果查询点位于向上交叉路口的左侧，则绕组数(wn)值增加 1，如果查询点位于向下交叉路口的右侧，则 wn 值减少 1。如果最终缠绕数不为零，则该点位于多边形内部。

***Example:
For part a) in the figure below:**
Initially wn = 0
Only edges CD and AB cut the line passing through P1 and parallel to y axis.
1) wn++ for CD as it is an upward crossing for which P1 is left of CD
2) wn wont be changed as P1 is on left of AB (downward crossing).
**As final winding number wn = 1 which is not equal to zero point P1 lies inside the polygon.****A similar case can be made for b) part of the figure.** Although it should be noted that we are avoiding the added complexity of the polygon and hence make the algorithm more efficient.**For c) part in the figure below:**
Initially wn = 0
Only edges DE and BC cut the line passing through P1 and parallel to y axis.
1) wn++ for DE as it is upward crossing for which P1 is left of CD
2) wn-- for BC as it is downward crossing for which P1 is right of BC
**As final winding number wn = 0 point P1 lies outside the polygon.***

*a) wn = 1，因为 P1 在上边缘 CD b) wn = 1 的左边，因为 P1 在上边缘 FG c) wn = 0 的左边，因为 P1 在上边缘 DE 的左边但在下边缘 BC 的右边。**注意:对于 a)和 b ),点 p1 在多边形内，如 wn！= 0，不考虑 b)中多边形的附加复杂性。(*来源:作者)

Cpp 代码:(GitHub 句柄)

****substitute _ point _ in _ line()😗*该函数计算点位于直线的哪一侧。
is _ point _ inside _ polygon():这是完整的算法，计算一个点是否在内、在外或在上*，给定逆时针方向的多边形顶点。通过按逆时针方向列出顶点来固定边的方向有助于锁定线段的左侧和右侧(多边形边)。***

多边形中的点为凸多边形

凸多边形是指所有内角都小于 180°的多边形，这意味着所有顶点都指向远离多边形内部的方向。

我们单独讨论这一点，因为在计算机视觉中遇到的最常见的多边形类型是凸多边形。这些包括所有的三角形、正方形、平行四边形、梯形等。

***算法:*对于一个凸多边形，如果多边形的边可以认为是从任意一个顶点开始的路径。然后，如果查询点位于构成路径的所有线段的同一侧，则称该点位于多边形内部。这可以从下图中看出。

点 P1 位于上面显示的两个多边形内，因为 P1 位于两个多边形所有边的同一侧。(来源:作者)

要找出该点位于线段的哪一侧，我们可以简单地将该点代入线段方程。例如，对于由(x1，y1)和(x2，y2)形成的线，查询点(xp，yp)可以被替换如下:

***result = (yp - y1) * (x2 -x1) - (xp - x1) * (y2 - y1)***

当逆时针方向看线段时，如果结果是:

结果> 0:查询点位于行的左侧。
结果= 0:查询点位于直线上。
结果< 0: Query point lies on right of the line.

Cpp 代码:(GitHub 句柄)

****substitute _ point _ in _ line()😗*该函数计算点位于直线的哪一侧。
is _ point _ inside _ convex _ polygon():这是完整的算法，计算给定顺时针或逆时针方向的多边形顶点，一个点是否在凸多边形的内、外或上。

如前所述，凸多边形中的点也包括以下情况

梯形中的点
平行四边形中的点
矩形中的点

总而言之，我们讲述了如何找到一个多边形的缠绕数，并用它来确定这个点是在多边形的内部、上面还是外部。我们还看到了一个更简单的解决方案，可以应用于凸多边形来解决画中画。

如果你有任何问题，请联系我，希望你喜欢这个数学。

参考资料:

Seq2Seq 车型的竞赛结束了吗？

原文：https://towardsdatascience.com/is-the-race-over-for-seq2seq-models-adef2b24841c?source=collection_archive---------17-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Unsplash 上由 Kaley Dykstra 拍摄的照片

Seq2Seq 或序列到序列模型的概念来自 Ilya Sutskever 等人在“用神经网络进行序列到序列学习”中的一篇论文。它们本质上是深度序列模型的某种组织(也称为基于 RNN 的模型)(例如 LSTMs/GRUs)[ 1 ](稍后讨论)。这些模型解决的主要问题是，

将任意长度的序列映射到另一个任意长度的序列

我们在哪里会遇到这样的问题？几乎任何地方。的应用，

机器翻译
文本摘要
问题回答

很少有例子可以利用这种模式。这些应用有一个非常独特的问题公式，要求能够将任意长的源序列映射到任意长的目标序列。例如，如果你想象一个英语到法语的翻译，在两种语言的单词之间没有一对一的映射。通常，从一种语言翻译到另一种语言需要学习大量复杂的特性(一对多、多对一、多对多映射、词汇依赖、单词对齐【2】等)。

这与图像分类(即固定大小输入→类/标签)或情感分析问题(即任意长度输入→类/标签)有很大不同。

你好！欢迎学习机器翻译 101

在深入研究之前，你必须清楚地了解机器翻译问题是如何被表述为机器学习问题的。

您有属于两种语言的数据；源语言(翻译源语言)和目标语言(翻译目标语言)。例如，如果您要从英语翻译成法语，英语将是源语言，法语将是目标语言。

接下来，您有一个由n_s个元素组成的长文本序列(例如句子)，从一个V_s大小的词汇表(英语)中抽取单词。在模型训练期间，你也有一个n_t元素长文本序列，从V_t大小的词汇(法语)中抽取单词。每个单词被表示为一个d_w大小的向量。这可以使用一个热编码或字向量(例如 Word2vec 或 GloVe )。最后，在预测过程中，模型对V_t词汇进行n_t次连续预测。下图说明了该过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器翻译过程

深入到 Seq2Seq 模型

在开始了解这些模型的命运之前，让我们更详细地了解一下它们是做什么的。在这里，我从我在 DataCamp 的 Python 课程中的机器翻译中汲取了大部分视觉帮助和概念。如果你想在这个话题上了解更多，我邀请你去尝试这个课程。

如果你看一个 seq2seq 模型，眯着眼睛模糊细节，你会看到它实际上是两个组件；编码器和解码器。你在日常生活中使用编码器-解码器的概念比你意识到的要多。举一个简单的例子，老师解释大象长什么样。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

编码过程类似于老师向你解释大象的样子，然后你在脑海中创造出一个形象。如果你的一个朋友问大象长什么样，解码过程就会发生。(来源:Python 中的机器翻译)

当你听老师讲课时，编码就发生了，你对大象的心理图像进行了编码。然后当你缺课的朋友问大象是什么的时候，你将会开始通过口头向朋友解释或者画一幅画来解码这个心理图像。

从更技术性的角度来看，这是一个用于机器翻译的 seq2seq 模型的样子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

编码器解码器模型概述(来源:Python 中的机器翻译)

编码器接收一个英语句子并创建一个上下文向量(也称为思维向量)，然后解码器使用该上下文向量解码正确的法语翻译。

快速游览格鲁什

编码器和解码器由什么组成？它们包括深度序列模型(或者几层这样模型)。我们将很快掩饰一个这样的深度序列模型的细节；门控循环单元(GRU)。这个想法是，

h(0) = {0}^n # A zero vector
for each **i**^th word **w** in sequence (e.g. sentence):
    h(i) = GRU(f(w), h(i-1))

f(w)是单词的一些数字表示(例如一个热编码/单词向量)。我不会在代码中解释GRU函数中发生了什么。重要的是，GRU 单元接受当前输入和先前输出，并产生当前输出。我强烈建议阅读所提供的参考资料，以便深入理解[ 1 ][ 3 ]下图说明了 GRUs 如何处理文本序列。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

门控循环单元(GRU)如何工作(来源:Python 中的机器翻译

变形金刚的盛大入场

像 LSTMs 和 GRUs 这样的递归神经网络(rnn)在相当长的一段时间里都沉浸在自己应得的声誉中，直到最近它们受到了一个新成员的挑战；一种叫做变压器的东西。

变压器型号在 5 中介绍。这是一个非常创新的概念，解决了 rnn 的两个主要弱点:

rnn 是不可并行化的，因为t^th步骤的输出取决于(t-1)^th步骤的输出(因此称为递归神经网络)
RNNs 努力保持语言的长期依赖性，因为它只看到前一步的记忆

为了更好地理解 Transformer 模型，我们将假设一个从英语到法语的翻译任务。模型被训练完成的任务是，给定一个英语句子，找到正确的法语翻译。

我们现在来看看 Transformer 模型的主要特色。请注意，我不会讨论 Transformer 模型的所有错综复杂之处，但足以理解它与 Seq2Seq 模型的不同之处。转换器也是一个编码器-解码器模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

抽象出细节，转换器与抽象的 Seq2Seq 模型非常相似

编码器有几层，解码器有几层。每层由两种类型的子层组成，

自我关注层
全连接层

最终的解码器层需要包括 softmax 层，因为它需要为每个位置产生目标语言词汇的概率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

详细的变压器模型。编码器由几层组成。每层由两个子层组成；自关注子层和全连接子层。解码器也由几层组成，每层由两个自关注子层和一个全连接子层组成。该图还显示了在输入和子图层之间创建的连接类型。自我关注子层在给定时间查看所有单词，而全连接子层单独处理单词。

自我关注层

自我关注层是 Transformer 模型的开创性概念。基本上，自我注意层在处理序列中的单个单词时，使模型能够查看所有其他单词。为什么这很重要？想象一下下面这句话，

那只狗跑过马路去捡球

现在想象一个模型从一个单词到另一个单词的顺序。当模型看到单词“它的”时，它有助于知道“它的”指的是狗。这适用于任何机器学习任务，无论是机器翻译、依存解析还是语言建模。

自我关注层使 transformer 能够准确地做到这一点。在处理单词“its”时，模型可以查看所有其他单词，并自行决定哪些单词对于“将混合到输出中是重要的，以便转换器可以有效地解决任务。此外，这是一个“加权组合”，权重是在训练过程中学习的。下图显示了这一过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当处理“它”这个词时，自我注意是如何工作的。注意力层对每个单词都有权重，使该层能够创建单词的“加权混合”作为输出。本质上，灰盒编码了关于单词“its”和“dog”的信息。

注 :你也可以看到解码器里有一个被掩盖的自我关注层。这本质上是为了掩盖在模型训练中可能发生的任何前瞻(那将是欺骗)。换句话说，解码器不应该知道目前已经看到的东西前面是什么。有关这方面的更多信息，请参考原始文件。

全连接层

围绕全连接层没有太多的谜团。它采用独立的自我注意层输出，并使用全连接层为每个单词产生潜在的(即隐藏的)表示。并且这个完全连接的层在不同的时间步长上共享。然而，每一层都有一组完全连接的权重。

变压器的优点

如您所见，没有一个子层包含等待上一步输出的顺序计算(如 LSTMs/GRUs)。这减轻了模型维护类似 LSTMs 的状态/记忆的需要。因此，变压器可以同时并行计算所有时间步长的输出。

此外，如您所见，在给定的时间步长，自我关注子层会看到所有其他输入。由于这个原因，在长文本序列中保持长期依赖变得微不足道。

最终结论:Seq2Seq 车型还有希望吗？

现在让我们来讨论迫切的问题。Seq2Seq 型号会很快过时吗？个人认为不是！由于几个原因

是的:Seq2Seq 模型对于低资源环境仍然是一个很好的选择

原变压器型号比较大，如(伯特 — 300M 参数、 GPT — 110M 参数、 XLNET )。这限制了在嵌入式设备或物联网设备等限制性环境中使用这些模型的能力。你可以有一个简单的 LSTM/GRU 模型，其占用的内存只是这些大型模型的一小部分。

注意:值得强调的是，人们一直在尝试推出更小的型号，但仍能提供与原始型号相当的性能。值得注意的是蒸馏器。但是与简单的 RNN 模型相比，这些仍然非常大(例如，DistilBert 有大约 66M 的参数)。

是:易于原型化/理解

假设您遇到一个 NLP 问题，并被要求评估使用 Seq2Seq/Transformer 模型的可行性。与 Transformer 相比，Seq2Seq 模型可以快速启动并运行，因为 Seq2Seq 模型更简单、更容易理解。如果你热衷于学习如何实现 Seq2Seq 模型并理解它们如何工作，你可以试试我在 DataCamp 上的课程“Python 中的机器翻译”。

是的:rnn 正在发展

人们一直在研究改进基于 RNN 的模型，提高它们保持长期依赖性的能力。一个特别的例子出现在报纸上莫格里菲耶 LSTM [ 6 。

否:Transformer 模型在许多 NLP 任务中提供了更好的性能

毫无疑问，事实已经不断证明，变压器模型几乎总是优于顺序模型。因此，如果你只关心性能，不需要担心内存，变形金刚将是一个不错的解决方案。

不:变形金刚模型对恶意攻击更强

改进模型对抗对抗性攻击是机器学习的一个重要研究领域。已经有研究评估了变形金刚/RNNs抵御敌对攻击的能力 7。看起来变形金刚模型对对抗性攻击更强。

必须是是或不是吗？

我们不应该忘记，这并不一定是是或不是，事实上我们可以利用两个世界的优势。虽然基于变压器的模型具有优越的性能，但基于 RNN 的模型在内存消耗方面较低。也许有可能通过将它们组合成一个单一的模型来实现两者之间的平衡。

希望将来我们会看到一些令人兴奋的研究，试图将这两种超能力结合成一个令人敬畏的模型！

想在深度网络和 TensorFlow 上做得更好？

检查我在这个课题上的工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

[1] (书)TensorFlow 2 在行动——曼宁

[2] (视频教程)Python 中的机器翻译 — DataCamp

[3] (书)TensorFlow 中的自然语言处理 1 — Packt

如果你喜欢我分享的关于数据科学和机器学习的故事，考虑成为会员吧！

[## 通过我的推荐链接加入媒体

作为一个媒体会员，你的会员费的一部分会给你阅读的作家，你可以完全接触到每一个故事…

thushv89.medium.com](https://thushv89.medium.com/membership)

参考资料:

[1]https://colah.github.io/posts/2015-08-Understanding-LSTMs/

[2]https://en.wikipedia.org/wiki/Bitext_word_alignment

[3]https://arxiv.org/pdf/1406.1078.pdf

https://datacamp.com/courses/machine-translation-in-python

https://arxiv.org/pdf/1706.03762.pdf

https://arxiv.org/pdf/1909.01792.pdf

https://www.aclweb.org/anthology/D19-5627.pdf

新冠肺炎疫情是否扰乱了意大利的房地产市场？

原文：https://towardsdatascience.com/is-the-real-estate-market-in-milan-disrupted-due-to-the-covid-19-outbreak-kijiji-web-scraping-c9d046eecc55?source=collection_archive---------39-----------------------

网页抓取

米兰案例研究——易贝旗下的网络抓取网站 kijiji.it

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎将如何影响义大利的房地产市场很难预测。房地产行业正在遭受冠状病毒的打击，在好转之前还会变得更糟。对房地产的影响因行业和市场而异，影响的程度取决于经济衰退的持续时间。

到目前为止，受打击最大的房地产行业是酒店、餐馆、酒吧和其他娱乐场所，紧随其后的是零售和住宅。

在这个项目中，我们将调查冠状病毒爆发前后，特别是 2 月 21 日前后，意大利米兰住宅房地产行业的趋势。住宅部门侧重于购买、出售和出租用作住宅或非专业用途的房产。住宅房地产行业包括独栋住宅、公寓、共管公寓、规划单元开发等。

从 1 月 1 日到 4 月 15 日，我们将从 kijiji.it 上删除所有可用的租赁公寓产品或平台发布的数据。kijiji 是一个在线广告服务的全资子公司，易贝于 2005 年 2 月推出。加拿大和意大利的 100 多个城市都有 Kijiji 网站。

让我们开始吧。

注:如果你对代码感兴趣，请访问我在 github 上的简介。

我们设法收集了 461 处房产用于出租。我们要做的第一件事是清理数据，我们可以删除没有价格的任何值和一月份之前的任何值。我们还将删除欧元符号和任何阻止列被视为数字而不是文本的内容。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在是处理异常值的时候了，使用四分位间距规则，我们总共能够移除 25 个值。

数据探索和可视化

现在，在将数据集分为冠状病毒爆发前后之前，让我们首先对整个数据集进行一些数据探索，以便我们可以先熟悉我们所拥有的数据。

检查价格平均值以及价格和面积之间的相关性

Price mean = 955.4214876033058
          price      area
price  1.000000  0.261033
area   0.261033  1.000000

所有公寓的平均价格是 955，而 26%的价格和面积之间的相关性实际上不是很好，这是值得调查的。

现在，我们来看看米兰每个地点的平均价格和面积的变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以注意到，最昂贵的地区是(Bonola / Molino Dorino / Lampugnano)(圣西罗/ Fiera)，而最便宜的地区是(Città Studi / Lambrate)，非常奇怪的是(Centro)，这将在我们拆分数据的下一步中进行调查。

#注:米兰区域是基于用户提交的不指定自动分配给自治市名称的区域。

现在让我们分割数据集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在疫情爆发前，我们有 85 个在线租房帖子，而奇怪的是，在同一时期后，我们的数量增加了两倍多。这可能预示着销售额的大幅下降。

用相关性检查爆发前后的平均价格。

Price mean before = 1141.8235294117646
Price mean after = 898.4280575539568

疫情爆发前的平均价格比预期的要高。

让我们检查并打印相关性并解释它。

price      area
price  1.000000  0.555945
area   0.555945  1.000000
          price      area
price  1.000000  0.176422
area   0.176422  1.000000

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

疫情爆发前，价格与地区之间存在 55%的正相关关系，而疫情爆发后，这一关系几乎为零，这表明人们的定价行为发生了变化。还值得一提的是，价格和面积之间 55%的相关性并不是那么强，它表明了许多租户可以收取比他们所得到的更多的费用，还值得一提的是，房价不仅仅取决于这些特征。

疫情爆发前后各地价格的变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里，我们可以清楚地看到趋势的变化，在疫情爆发前，圣西罗地区和中心的价格最高(_{1200)，然而在疫情爆发后，中心和洛雷托地区的价格下降到近一半，达到}600，其他地区有小到中等的下降，但是我们可以注意到 Bonola / Molino Dorino / Lampugnano 等地区的价格有所上升。

基于爆发前每个地点平均面积的价格变化。

像我们在(巴乔/弗兹·阿玛特/金托·罗马诺)或市中心看到的那样，在相同的位置相同的功能有相同的价格应该是正常的，但是在像(热那亚门/纳威格利/意大利科尔索)或(圣西罗/菲拉)这样的地区，价格有很大的变化，这肯定解释了以前的低相关数，我们应该预计在以后的数据中会有更大的变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基于疫情爆发后每个地点平均面积的价格变化。

正如预期的那样，价格混乱可能是由于工人呆在家里对国家封锁的恐惧，以及由于企业关闭、检疫和宵禁。大量裁员将导致消费支出进一步收缩，这将迫使房东降低价格，一些房东已经开始适应新的形势，一些房东仍然提供相同的正常价格，同时也要记住短期租赁市场正在大幅放缓。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使聚集

在这一部分，我们将尝试根据面积和价格将市场划分为不同的公寓子集。

我们将使用一个名为minmax scaler(feature _ range =(0，1))的方法，在范围[0，1]内按比例变换列中的每个值。我们将此作为变换要素的首选缩放器，因为它将保留数据集的形状(无失真)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们想象一下爆发前的集群

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

集群 0:价格(1500–2250)€，面积(60–105)平方米，这个集群有价格高的小公寓，这些公寓通常集中在昂贵的社区或中心。

集群 1:价格(625-1500)€，面积(35-86)MQ，这是中等集群，为了更好的邻里关系，你可以拥有价格比集群 3 高的小公寓。

集群 2:价格(1000-2200)€，面积(100-130)MQ，这个集群有点相关的关系，高价格的大公寓。

集群 3:价格(375-1100)€，面积(20-70)MQ，这个集群也有一个积极的关系，价格范围低的小公寓，这通常是在远离中心的地区。

让我们将位置加入到聚类数据中，并打印基于位置聚类的价格，也包括疫情爆发前的数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

聚类和以前一样，只是在这里我们可以看到每个聚类包含城市中哪些区域的帖子，聚类 0 如预测的那样在中心有公寓，我们还可以从这个结果中假设米兰细分市场与中心和昂贵的社区相关联。

疫情爆发后，对数据进行同样的处理

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

集群 0:价格(100–1000)€，面积(20–70)平方米，该集群拥有价格范围非常低的小型公寓，通常位于远离中心的区域。

聚类 1:价格(100-1000)€，面积(80-125)MQ，该聚类有更大的公寓，价格范围与以前相同，这表明在疫情爆发后，可能有些公寓不得不降低价格范围。

集群 2:价格(750-1500)€，面积(40-86)MQ，这是一个中等集群，为了更好的社区，你可以拥有价格比集群 3 更高的小公寓。

第三类:价格(1200-2250)€，面积(55-150)平方米，这个群体有从小公寓到大公寓的很大范围，但是价格很高，通常集中在昂贵的社区或中心。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在最后一个表示中，如前所示，聚类 3 的价格最高，但是，价格不再是爆发前的中心，而是集中在 Bicocca 和 Citta Studi 等地区，集中在大学附近，而中心价格出现了大幅下降。

使用 ArcGis 进行探索

供参考:【https://github.com/Esri/arcgis-python-api】

我们将采取原始数据帧后，修复日期栏，我们将手动插入谷歌地图的坐标，然后我们将删除未标识的地方’ ~Altre zone '。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将再次分割数据，然后打印我们的第一张地图。这张地图显示了爆发前(青色)和爆发后(红色)的属性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们使用热图来可视化房产(房屋)的空间密度

首先，对于之前的数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第二，对于之后的数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，让我们通过价格来可视化空间分布。

首先是疫情爆发前的数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其次是疫情爆发后的数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你有了想法，现在让我们做同样的事情，并设想按面积的空间分布

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结论

我们可以注意到，与疫情爆发前的数据集相比，价格范围有所下降，500€下降表明价格下降，可能没有销售额下降那么大。

我们的数据和分析显示，市场行为确实发生了变化，一些房东已经开始降低他们公寓的租金，数据还显示，疫情爆发后的帖子数量是之前的三倍，这表明销售额大幅下降。

房产租赁和购买平台 Idealista.com 在 4 月初报告称，冠状病毒危机的影响尚未在市场上引起注意，尽管他们警告说，下一季度可能会对形势有更多的了解。

根据他们 2020 年第一季度的数据，意大利全国的房价下跌了 0.4%，二手房产的平均价格目前为每平方米 1699€(年跌幅为 2%)。

未来的工作

如果你喜欢调查市场趋势的想法，绝对建议每个公寓有更多的功能，玩虚拟变量将位置变成可测量的变量可能是一个有趣的想法，几个月后收集更多的数据以进行更深入的研究也是建议。

如果你想查看完整的代码，并知道如何自己收集数据或下载这个项目中的数据集，请查看我在 github 上的简介。

谢谢:)

旧金山湾区是在拉平曲线吗？

原文：https://towardsdatascience.com/is-the-sf-bay-area-flattening-the-curve-303419a0011d?source=collection_archive---------34-----------------------

开始就地避难已经一个月了。数据告诉我们什么？(更新时间:2020 年 4 月 20 日)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Unsplash 上由 Amogh Manjunath 拍摄的照片

3 月 16 日，旧金山湾区的六个县发布了就地安置避难所的命令。这意味着海湾地区的居民已经在原地躲避了大约一个月。让我们看一下数据，看看结果如何。

每日新案件

每天新增病例的数量可以被认为是新冠肺炎增长曲线。在我看来，这是最重要的图表，因为它代表了感染的加速。我会解释——但如果你已经知道这一点，请随意跳过下一段。

尽管总速度很重要，加速度(增长曲线)意味着在城市街道上和在高速公路上的区别。

如果你把它想象成开车旅行，感染的传播用行驶的英里数来表示，那么病例总数就像你行驶的速度(速度)，而增长曲线就是汽车加速的速度(加速度)。尽管总速度很重要，加速度(增长曲线)意味着在城市街道上和在高速公路上的区别。也就是说，总病例数代表了一段时间内的变化，但增长曲线显示了病例数的增长速度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

旧金山湾区每日新增病例(更新时间:2020 年 4 月 20 日)。参见诺维湾区冠状病毒仪表盘上的实时可视化。

这张图表显示了新冠肺炎病例的增长情况。x 轴显示了湾区开始出现新冠肺炎病例的日期。y 轴表示增量，即病例总数的变化。或者更简单地说，y 轴显示每天的新案例。堆叠条形图中的不同颜色显示了各县的详细情况。但是要看整个湾区的增长曲线，你只需注意条形的总高度。

看这张图表，你可以看到新病例明显趋于平稳。作为对比，这是伊利诺伊州的增长曲线。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

伊利诺伊州每日新病例(2020 年 4 月 20 日更新。点击放大)。来自伊利诺伊州的仪表盘。

根据伊利诺伊州的图表，你可以看到在过去的几天里有稳定的可能，但是最近还没有足够的数据来确定。

所有这些数据需要记住的另一个因素是，这些都是确诊的新冠肺炎病例。所以这些数字会受到测试次数的影响。

案件总数

旧金山湾区的总病例数继续上升，但由于增长放缓，这是线性上升，而不是指数上升。这是我们从上面显示的增长曲线中所期望的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

旧金山湾区新冠肺炎病例的近似线性增长(更新时间:2020 年 4 月 20 日)。从诺维湾区冠状病毒仪表板。

这对就地安置的功效意味着什么？

有很多其他的变量涉及到这些结果的归属；比如:人口的总体健康状况、原地住所的遵守情况、人口密度、卫生设施的可用性以及文化因素。另一个要考虑的因素是旧金山湾区已经有了一个重要的在家工作的文化，这可能增加了对就地安置令的遵守。

我们可以使用旧金山湾区的例子来创建一个粗略的时间表，显示就地避难减少感染率需要多长时间以及减少多少。

也就是说，如果我们假设这种模式对其他地区大致相同，那么我们可以使用旧金山湾区的例子来创建一个粗略的时间表，说明就地避难需要多长时间来降低感染率以及降低多少。

整个加州的就地避难法令于 3 月 19 日生效，纽约的就地避难法令于 3 月 22 日生效。旧金山湾区的就地避难所已于 3 月 16 日生效。因此，如果我们按照这个粗略的模型，加州比湾区晚 3 天，纽约比湾区晚不到一周。

正如本文所预测的那样(在更新之前)，随着其他地区的就地安置时间表赶上来，我们似乎也看到了类似的结果。

数据源和参考

这篇文章的所有数据和可视化来自 Knowi 冠状病毒数据中心。那里使用的数据来自约翰·霍普斯金，世卫组织，疾病控制中心。
在这里查看他们的数据来源列表。

各州的避难所订单日期可以在纽约时报页面这里找到。

旧金山官方的就地安置避难所命令可以在这里找到。

放弃

数据驱动的归因模型背后有什么科学吗？

原文：https://towardsdatascience.com/is-there-any-science-behind-data-driven-attribution-models-1cdf445321e9?source=collection_archive---------26-----------------------

匹配模型能准确估算升力吗？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每个营销渠道声称占总销售收入的一部分(来源: pixabay

归因是将价值分配回公司的各种营销渠道的问题，即使对于一家只在网上做广告并拥有干净、可靠数据的公司来说，这也是一个棘手的问题。例如，让我们想象一个销售花式袜子的网站，一个客户通过三个渠道访问该网站三次，如下所示:

付费搜索
社交媒体(脸书的再营销广告)
附属公司(25%折扣)

在最后一次访问中，消费者用折扣购买了一些袜子。

归因是困难的，因为有太多的*未知变量。*我们不知道消费者是因为付费搜索广告才找到该网站，还是无论如何他们都会找到该网站。同样，我们不知道折扣是否是决定销售的决定性因素，或者消费者是否会购买袜子。

显然，准确的归属是困难的。大多数公司依靠简单的启发式方法，比如将所有价值分配给最后一个渠道(最后点击)或者将价值平均分配给每个渠道(线性)。

最近，数据科学界提出了许多更复杂的算法。有人声称这些方法比更准确，但是，没有证据支持这些说法。相反，基本原理似乎是，因为该理论比上述简单的启发式方法更“好”，所以结果必须更准确。对于一个以“科学”命名的领域来说，这多少有些令人惊讶。理论是廉价的，证据是黄金。

我写这篇博客是因为 2019 年 Gorden 等人发表了一项研究，该研究将数据驱动方法的输出与一系列大规模随机对照试验(RCT)进行了比较，并揭示了一些非常有说服力的结果。对于那些不知道的人来说，随机对照试验是实验设计的黄金标准，当应用于营销领域时，可以提供对营销渠道价值的准确测量。

在回顾这项研究的结果之前，我将简要回顾一下什么是 RCT，因为如果你不知道，你真的应该知道。

随机对照试验

正如每一个优秀的科学家都会告诉你的那样，给你的频道确定价值的唯一方法就是进行严格的实验。在这种情况下，严谨意味着实验应该是双盲的和随机的。

随机化表示个体被随机分配到控制或测试组。目的是确保除了实验操作之外，两组在统计学上是相同的。

双盲是指实验者和受试者都不知道自己是在试验组还是对照组。

为了满足这些标准，在测试在线广告时，我们首先要确定我们的目标用户群。让我们想象一下，我们正在脸书上投放潜在客户广告，我们希望将旧金山湾区 20-29 岁的女性用户作为目标用户。这是我们的目标群体，但是在我们展开全面的广告宣传活动之前，我们想进行一次试验。在这种情况下，我们只会向随机选择的目标群体显示广告。这是测试组，其余用户属于控制组。在运行实验一段时间后，我们将比较两组的转化率并得出我们的结论。简单。

有人可能会问，为什么广告商不总是在他们的营销渠道上运行 RCT。简单的答案是，许多广告渠道不提供这种设施。虽然脸书把如何在他们的平台上运行 RCT 弄得很清楚，但我不知道如何在谷歌的搜索平台上运行 RCT。

证据

前述由 Gorden 等人进行的研究 2019 将数据驱动方法的结果与脸书的一系列大规模 RCT 实验进行了比较。试验规模很大，有 15 个随机对照试验，包括超过 160 万次广告投放。

数据驱动的属性有很多种，本文评估了一种称为匹配方法的类别。这些技术通过识别两组用户来工作，一组是看过广告的用户，另一组是没看过广告的用户。我们可以称这些小组为伪控制组和伪测试组。这两个组被匹配，因此它们在多个维度上尽可能相似，例如年龄、性别、社会经济地位或购买倾向，并且每种方法在精确匹配方法上不同。因此，与使用随机化原则来确保测试和控制组之间统计平等的随机对照试验不同，数据驱动方法查看历史数据，并明确尝试识别除了暴露于所述广告之外在各种指标上平等的组。

关键的一点是，没有一种数据驱动的评估方法可以复制 RCT 试验的结果，并且最大程度地高估了广告的价值，通常超过 300%。建议感兴趣的读者检查图 10 Gorden 等人 2019 以获得完整的结果分类。

结果是，如果你依靠这些数据驱动的方法来确定你的广告是否成功，你很可能高估了你的广告，甚至误认为是盈利。

事实上，让我推测这就是为什么许多广告门户网站不为您提供运行 RCT 的工具。你可以说我愤世嫉俗，但我怀疑大多数广告门户网站乐于让你高估广告的价值。

广告测量方法的比较:来自脸书大学大型现场实验的证据营销科学 38.2(2019):193–225

活动偏差

这是怎么回事？在科学术语中，一定有一个未观察到的变量未被数据驱动方法解释。算法无法将伪控制与伪测试匹配。因此，除了接触广告之外，肯定还有其他因素将这两个群体区分开来。

在伪测试组中的用户是那些看过广告的人，所以根据定义，他们在实验期间一定在广告门户上，而在伪控制组中的用户没有，否则他们会看到广告。因此，有一种理论认为，那些在伪测试组的人在实验时比那些在伪控制组的人更活跃，这并不意味着那些更活跃的人也更有可能购买。这个建议最早是由 Lewes 等人(2011) 提出的，值得一读。

如果是真的，那么真正控制这种效果的唯一方法是故意不向访问广告门户的特定比例的人显示广告。因此，进行随机对照试验。

Lewis，RA 等人，“这里，那里，和每一个地方:相关的网络行为会导致对广告效果的高估。”第 20 届国际万维网会议论文集。2011.

摘要

在本文中，我们回顾了一种称为匹配方法的数据驱动属性的有效性。结果很明显，这些方法不起作用，而且往往高估了脸书广告的提升。其他流行的方法存在，如马尔可夫和沙普利方法，我们不能肯定地说这些也不起作用。然而，我们也不能肯定地说它们会起作用，或者说它们比简单的启发式方法更准确。

这是许多数据科学固有的问题。公司拥有爆炸式增长的数据，但是知道如何从这些数据中获取价值是很复杂的。在这个领域游刃有余的公司将拥有在科学和商业领域都有立足之地的人才。人们对上述论点很熟悉。重要的是，这些人将在决策过程中发挥关键作用。

曼哈顿有足够的空间保持六英尺的距离吗？

原文：https://towardsdatascience.com/is-there-enough-space-in-manhattan-to-stay-six-feet-apart-8da530e2c545?source=collection_archive---------36-----------------------

很可能是有的，但在其他人口更稠密的地方，情况似乎并非如此。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人们在纽约州的韦斯特菲尔德 WTC 四处走动。凯·皮尔格拍摄的照片；公共领域。

随着第二波冠状病毒的到来，我参与了一场讨论，与他人保持健康的距离成为一个话题。有人说:

我真的很高兴没有住在曼哈顿——那里人口如此密集，如果每个人都出去，他们甚至不能保持 6 英尺的距离！

虽然这种说法显然只是一种比喻，但它真的激起了我的好奇心:曼哈顿真的人口密集吗——如果人们真的不适合在街上，如果他们想保持适当的距离怎么办？我决定利用公开的地理数据来研究这个问题。

用于分析的数据

如果我们想回答我们的研究问题，我们需要三条信息:

最好是小空间单元(例如，街区)的边界，以便能够显示整个城市的变化；
关于这些空间单元的人口信息；
土地覆盖数据。“外部”只是城市面积的一个子集——很大一部分被建筑、水和其他东西占据。

幸运的是，纽约州有一个广泛的开放数据存储库，所有这些都是可用的:空间数据格式的邻里制表区；在电子表格中由 NTA填充；和作为空间栅格数据集的土地覆盖数据。我使用 3 英尺分辨率版本的数据进行分析，因为它更小，处理速度更快，但也有更新、更详细 36 倍的数据集(具有更多土地覆盖类型)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

纽约地理数据:邻里多边形；土地覆盖栅格数据；土地覆盖层特写。数据来自纽约开放数据，数字由作者提供。

工具

我是可重复研究的忠实粉丝。因此，我在一个 iPython 笔记本上写了分析，你可以在这里找到。从下载数据到计算统计数据和绘制地图，它什么都有。对于那些熟悉 Python 地理分析的人来说，我的主要工具是 GeoPandas 和 rasterstats 包并不奇怪。

分析和结果

面积和人口

这一分析(和思维实验)的一个关键假设是，当人们离开房子时，他们需要留在他们的社区。如果我们让他们去(并填满)公园、机场、码头、墓地等，我们还不如让他们溢出城市界限(因为行政边界完全是任意的)。反过来，这将确保每个人都有足够的空间，而不可能出现没有空间的情况。

因此，我着眼于社区层面的数据，忽略了那些与其规模相比人口很少的社区——就像我上面举的例子。举个例子，中央公园不在了。

由于我下载的数据得到了很好的维护，我可以简单地将边界地理数据与人口数据连接起来。

可用的室外空间

分析的下一步是确定每个街区的可用室外空间。土地使用层有七个类别:1:树冠，2:草/灌木，3:裸土，4:水，5:建筑物，6:道路/铁路，7:其他铺砌表面。

这些土地覆盖物中的哪一种可用于我们的分析还不是很明显。我决定#1 和#2，虽然不是完全开放的空间，有资格这样做。即使有树，我们也可以把人分散在它们中间，让它们保持距离。关于树木，有一点需要注意:它们的树冠可能会覆盖较矮的建筑，但我认为这可能是个小问题。#3 明显相关，#4 和#5 明显不适用。我也把#7 归类为适合——这些是停车场、庭院等。棘手的类别是第 6 号，“公路/铁路”。

一方面，这一类别很重要，因为道路是人们出门时直接去的地方。然而，并不是所有的路面都是可用的——有些路面实际上是供汽车行驶的。作为专家估计，我把这一类的面积的 50%都考虑进去了。**

包装圈

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“将不同大小的圆圈打包在一起的最有效方法并不明显。”——在维基百科的圆形包装页面上，同一张图片的标题如是说。照片由 Scott Bauer 拍摄，公共领域。

由于当地推荐的距离使用英制单位(建议保持 6 英尺的距离，我在分析中使用了这个距离。⁴每个人都需要一个半径为 3 英尺的空圈。然而，由于同样大小的圆圈不可能完全填满——它们之间总会有一些空间——如果我们想确保没有人与另一个人的距离小于 6 英尺，人们将占用更多的空间。

半径为 3 英尺的圆的面积为 r π=28.27 英尺；根据维基百科的说法，我们必须用这个除以 0.9069 来得到圆圈被填满时所占区域的实际大小——结果是 31.18 英尺。 ⁵

社区密度

最后一步是计算每个居民区有多少可用空间。如果这个空间小于 31.18 英尺，人们将无法在街道上行走。

对我们的突破性成果来说不幸的是，对纽约市的居民来说幸运的是，没有哪个街区没有足够的空间来保持足够的距离。

即使是最密集的社区，约克维尔的居住空间几乎是保持六英尺距离的最低要求的三倍。

最大距离

我们也可以从另一个角度来看我们的研究问题:如果都在街上，人们理论上能保持的最大可能距离是多少？这很容易计算(见笔记本)。对于这个公制，我返回到公制系统(双关语)并以米为单位计算这个距离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果每个人都走到街上，人们可以保持的最大距离(米)。作者图。

我在地图上显示了纽约市邻近地区的每个邻近地区的值(除了斯塔滕岛，那里的人口密度比其他四个区低得多)。

这张地图上的数值是“安全圈”半径的两倍:人与人之间的实际距离。我们可以看到，曼哈顿的人们之间大约有 3.5-7 米的距离，这取决于社区。在你家量出 3.5 米:真的没那么多！随着我们远离市中心，人口密度降低，因此人与人之间的最大可能距离增加。

结束语

虽然我在写这篇分析时做了尽职调查，但不应该完全当真——它更像是一个有趣的个人项目，而不是实际的研究。由于对数据有许多假设，结果并不是 100%确定的。

例如，如果我们对土地覆盖使用更详细的数据集(最好是基于矢量的数据集),我们可以获得实际的可用面积，并可以通过放宽整个“安全圈”必须在可用面积内的假设来拟合圆。⁶没有纽约市的相关数据。然而，在世界上的某些地方，例如，荷兰的 基础地理信息系统数据集将适合于此目的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自荷兰的超详细土地覆盖数据:BGT 数据集。此部分显示“道路部分”图层:铺面区域、行人和自行车道(绿色、黄绿色)；停车点(紫色)；路面(蓝色)；公共交通区域(沙地)；以及铁路占用的区域(微红)；作者图—使用 QGIS 创建。

无论如何，我觉得这个研究问题在当前的全球疫情中是一个有效的问题:地球上可能很容易有地方没有足够的空间让人们外出并保持距离。毕竟，纽约市甚至不在人口密度最高的 50 个城市之列。曼哈顿是纽约市人口最稠密的区，总人口密度为每平方公里 26，821 人。马尼拉是菲律宾的首都(也是上面表格中人口密度最大的城市)，总人口密度为 46，178 ppkm。很有可能它最密集的部分没有足够的户外空间。

或者，一个更极端的例子是达拉维，印度孟买的一个地方，在 2.165 公里的范围内有超过 100 万人居住——人口密度比马尼拉高十倍。在这里，即使整个区域都是空的，人们也无法与外界保持足够的距离。不过也有好消息:根据彭博最近的一份报告，尽管困难重重，达拉维的领导在对抗新冠肺炎方面还是相当有效的。

笔记

只要查查巴黎或者拉斯维加斯的城市界限就行了。这些可能与你脑海中这些城市的地图不一致。
有些人可能会认为这类区域的份额过高(即城市可以有更少(或更窄)的车道。讨论这种说法不是本分析的一部分
上面提到的详细 36 倍的数据集将铁路作为一个单独的类别，但它需要更多的计算能力。此外，使用该数据集无法解决人行道、道路、停车点和其他类型的道路元素的分离问题，其中一些元素可供行人使用，而另一些元素则不能。
⁴ 这里使用英制单位的另一个原因是源数据使用基于英制单位的投影。 ⁵ 这种设置还假设人们不能站在可用空间的边缘(例如，墙边)，但他们的整个六英尺宽的泡泡都在这个区域内。⁶我们可以简单地在相关区域添加一个缓冲区，并用半径为 6 英尺的圆填充这个缓冲的形状。

这个标题是 Clickbait 吗？

原文：https://towardsdatascience.com/is-this-headline-clickbait-86d27dc9b389?source=collection_archive---------31-----------------------

使用机器学习检测点击诱饵

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

资料来源:Pexels

术语“点击诱饵”指的是一篇文章标题，其唯一目的是使用耸人听闻的语言来引诱浏览者点击进入某个网页。然后，网页通过用户的点击产生广告收入，或者将用户的活动数据货币化。这篇文章本身并不具有新闻的完整性，也没有研究或真正追求任何更深层次的意义——它只是一个将用户点击和数据货币化的工具。

随着社交媒体、智能手机的爆炸式增长和日益数字化的世界，不缺少争夺我们注意力的内容。在社交媒体上分享和转发的便利性让 clickbait 这样的杂乱信息泛滥成灾。

随着 clickbait 在网络上变得越来越流行(还记得当你滚动你的 Twitter feed，只能看到正版内容吗？)—我想看看是否可以使用机器学习对标题进行分类，以及这个过程是什么样子的。我这个项目的目标是为在社交媒体或各种出版商网站上大规模实施“点击诱饵拦截器”(想想“广告拦截器”)提供证据，在观众看到它之前，点击诱饵可以被标记或过滤掉！

数据

对于这个项目，我的数据由大约 2007-2020 年间来自各种点击诱饵和非点击诱饵来源的 52，000 个标题组成。我最终的数据集是从 Kaggle 上的数据集以及我自己对 Twitter 和各种在线出版物的抓取和 API 调用中编译的。数据根据来源被标记为点击诱饵或非点击诱饵，我的最终数据集大体上是平衡的(见下面的分布)。

Clickbait 来源: Buzzfeed、Upworthy、ViralNova、BoredPanda、Thatscoop、Viralstories、PoliticalInsider、Examiner、TheOdyssey

非点击诱饵来源:纽约时报，华盛顿邮报，卫报，彭博，印度教徒报，维基新闻，路透社

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

标签分布，用 Seaborn 绘制。

数据处理和特征工程

由于我最初只是处理每个标题的文本数据，下面描述了所采取的清理和特征工程步骤。

清洁和处理

使用正则表达式删除了标题中的标点、链接和非字母/非数字字符。数字没有被删除，因为我想说明一个数字的存在。
使用 NLTK 删除了英语停用词。
每一个标题都被转换成小写和符号化——最初的 EDA 使用的是 unigram，建模和后来的 EDA 使用的是 unigram 和 bigrams。
在我最初的 EDA 中使用了词频，但是我的模型依赖于 TF-IDF 分数，使用 NLTK 的实现来处理每个单字和双字。

附加功能工程

我创建了以下功能来评估标题文本数据:

headline_words :标题中的字数(在停用词被删除之前创建)。
问题 : 1 表示是& 0 表示否，如果标题以一个疑问词开始并且/或者包含一个“？”(在停用词和标点符号被删除之前创建)。
感叹号:如果标题包含感叹号，则为 1；如果不包含感叹号，则为 0(在删除标点符号之前创建)。
starts_with_num :如果标题以数字开头，则为 1，否则为 0。

电子设计自动化(Electronic Design Automation)

在运行任何模型之前，我分析了点击诱饵标题和非点击诱饵标题的词频。词汇上有一些明显的区别，也有一些重叠，如下面的单词云所示。在 clickbait cloud 中，数字和模糊的术语一起流行。例如，利用这些词的 clickbait 标题可能是“人们实际需要的 19 样最好的东西”,因此读者会想点击阅读特定的人或事……

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用 WordCloud 和 Matplotlib 绘制的 clickbait 标题中的前 20 个单词。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

非点击诱饵标题中的前 20 个单词，用 WordCloud 和 Matplotlib 绘制。

我还分析了我的工程特性的类分布以及它们在每个类中的相关性。如下图所示，平均而言，点击诱饵标题比非点击诱饵标题略长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与 Seaborn 密谋。

点击诱饵标题通常也以数字开头，或者在标题中提出一个问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与 Seaborn 密谋。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与 Seaborn 密谋。

建模

我训练并测试了以下模型——预测多数类的基线虚拟分类器、朴素贝叶斯分类器、随机森林分类器、线性 SVM 分类器和逻辑回归模型。我用来衡量性能的评估指标是准确率和召回率。我稍微强调了召回，以尽量减少误判，例如将一篇点击诱饵文章归类为非点击诱饵。以下是我的测试预测的准确性和召回分数的快照:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 sklearn 对结果建模。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 sklearn 的朴素贝叶斯混淆矩阵图。

如上所示，朴素贝叶斯在召回率和准确率得分方面表现最好，但其他模型也相差不远。朴素贝叶斯也是一个很好的最终模型，因为它比其他模型运行得快得多，这将在现实世界的场景中与更多的数据一起工作。

通过评估系数，我能够更仔细地查看模型的过程，并且我获得了关于模型使用什么特征和词来进行分类的有用见解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总结想法和要点

我能够使用机器学习算法，如朴素贝叶斯、逻辑回归和 SVM，来准确地对点击诱饵和非点击诱饵标题进行分类。结果相当不错——准确率在 90–93%之间，召回率在 90–93%之间。我稍微优先考虑了召回，因为我认为最大限度地减少假阴性(将点击诱饵分类为非点击诱饵)会更有价值。

由于机器学习能够如此有效地工作，因此在读者甚至必须亲自可视化和评估标题之前，部署机器学习解决方案来过滤或标记 clickbait 肯定是一个真实的用例！

通过分析表现最好的模型的系数，我能够解释并深入了解模型如何决定一个标题是否是点击诱饵。

演示

我用 Streamlit 组装了一个简单的 web 应用程序来演示和测试我的带有新标题的模型。

使用 Streamlit 创建的 Web 应用程序。

请随意在 Heroku 上尝试部署版本，并提交您选择的分类标题: clickbait detector 。

如果你对这个项目背后的代码感兴趣——看看我的 Github:【https://github.com/AlisonSalerno/clickbait_detector

这家初创公司会是下一个 Theranos 吗？

原文：https://towardsdatascience.com/is-this-startup-the-next-theranos-9e8208c9976f?source=collection_archive---------29-----------------------

有社会意识的炒作还是炒作

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有了足够的热空气，你可以超越尘世的束缚。由 Unsplash 上的 Farshad Rezvanian 拍摄的照片

十年来最受关注的生物技术创业公司的候选人已经出现。是的，现在才一月，但这一年太棒了。

EQRx 刚刚筹集了 2 亿美元，承诺开发比传统制药公司更快、更便宜的药物。这种说法并不新颖。每一种基于工具或技术的生物技术都能制造它。人工智能是这类炒作的热门话题。

EQRx 还声称，它们将扰乱当前的药品定价机制。他们的药品价格会比竞争对手便宜很多。他们要求我们“想象一个人们可以专注于治疗而不是价格标签的世界”。

而且还能大赚一笔。他们将把廉价药物带给大众，不是通过放弃利润，而是通过利用市场的强大力量。那是一个新的。

让我们开始吃吧

EQRx 的价值主张由两部分组成:

以比现有公司低得多的成本开发药物
将节省的费用与患者分成，从而在保持高药品利润的同时降低药品价格。

这样看来，这听起来很学究气，而不是破坏性的。仔细观察就会发现它非常有野心。

将药物推向市场的平均成本现在是 26 亿美元。推动这一成本的不是临床前开发，临床前开发主要是药物发现和动物试验。那最多花几百万或者几千万美元。成本也不是由临床试验推动的，临床试验耗资数千万至数亿美元。成功的药物开发只需要两个逗号。

药物开发成本是由失败推动的。大约有六分之一的候选药物通过了临床测试并获得了 FDA 的批准。对于肿瘤学来说，这个数字更像是 1/20。每一种成功的药物都要付出五次失败的代价。消除这些失败，你就可以将产品价格减半，同时还能获得利润。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

候选药物成功的概率。2015 年的利率可能会被边界效应夸大。来自对临床试验成功率和相关参数的估计。知识共享协议 CC BY 许可

EQRx 计划如何减少故障？主要是通过追求有效的药物靶点。药物靶标是被假设导致疾病的细胞蛋白质。候选药物结合并阻断药物靶标的活性，并且在临床前研究中证实了这一点。但这并不能证明他们能治愈疾病。在临床试验中会发生这种情况。如果一种已知能与靶标结合的药物也能治愈某种疾病*，它就被认为是有效的。

制药界的我也是

EQRx 的计划是让其他公司来承担验证药物靶点的重任，然后快速配制结合已验证靶点的新药。这就是众所周知的“快速跟随者”策略，而且并不是新的。最畅销的降胆固醇药物立普妥就是一个很好的例子。事实上，大多数新药都是“人云亦云”的药物。它们的工作原理与一流药物的作用靶点相同，但略有不同。

模仿药物确实有更高的成功率。新药与现有药物越相似，越有可能被批准。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1999-2014 年与现有药物的化学相似性和批准可能性之间的关系。自己的工作，数据来自药物开发中缺失的新颖性

最相似的药物获得批准的可能性几乎是普通药物的两倍(绿线)。制药公司注意到了这一点，新药与旧药越来越相似。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

药物越来越像它们的前辈。自己的工作，数据来自药物开发中缺失的新颖性

仿制药物出现的平均时间是其前身出现后 2.5 年。为什么这个数字意义重大？因为从最初的药物发现到批准的平均时间是 7 年。当第一个同类药物被批准时，大多数模仿药物已经处于临床试验阶段。模仿药物研发者在开始研发前不会等待目标验证。他们刚刚输掉了争夺第一的比赛。

这都是关于专利寿命的

制药公司不会等到一流药物获得批准后才开始研究追随者。他们不能。现在专利有效期是 20 年。在那之后，药物就成了仿制药。当他们这样做时，价格在一年内下跌超过 50%。

回想一下，从一种药物被发现(并获得专利)到获得批准大约需要 7 年时间。那就剩下 13 年的专利时间。在此期间，药厂收取溢价。这些高昂的价格为药物的开发、失败药物的成本，当然还有利润买单。

EQRx 计划在投资药物开发项目之前等待验证。这意味着一流的药物将在 13 年后成为仿制药。如果 EQRx 再花 7 年时间获得批准，那么在面临仿制药竞争之前，它将只剩下 6 年时间。仿制药不必为 R&D 或失败的临床试验买单。没有一家制药公司能在价格上与他们竞争。

MBA 梦遗

唯一可行的方法是缩短开发时间，降低失败率。两者兼而有之。这些并不是什么新目标。几乎每个制药公司的高管都曾经尝试过。都失败了。

药物开发成本不可阻挡地上升。这种增长是如此有规律——每年 9%——以至于它有一个名字:Eroom 定律(摩尔定律的反向)。数以千计非常聪明的 MBA 认为他们有补救办法。他们中没有人知道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自 20 世纪 50 年代以来，药品上市成本每年复合增长 9%。自那以后，技术、管理或监管方面的变革都没有改变这一轨迹。自己的工作，数据来自诊断药物研发效率&下降

也许 EQRx 的人会在其他人失败的地方取得成功。但是他们这样做的计划听起来并不乐观。根据创始人Alex Borisy 的说法，“今天，你可以对十亿种化合物进行虚拟筛选，按需合成所有这些化合物，而且你可以在云中一夜之间完成。”

啊，是的，虚拟生物技术公司。在那里，你可以省去 R&D 的所有麻烦和费用，计算或外包你的问题。德瑞克·洛夫详细剖析了这个幻想。我要指出的是，我工作过的每家公司都沉迷于此。从来没成功过。

EQRx 不仅承诺在其他人失败的地方取得成功，他们还将大规模地这样做。该计划是在 10 年内推出 10 种药物。

坚果

概括来说，EQRx 将

创造新药的速度比以往任何人都要快
以更高的临床成功率去做
不要侵犯现有专利
以前所未有的规模去做
做得又快又便宜，这样他们就可以和仿制药竞争了

希望 EQRx 成功。十年内以低廉的价格开发出十种突破性药物，将会真正造福人类。但这是不可能的。

预测 EQRx 的失败既容易又便宜。超过 90%的生物技术创业公司最终都倒闭了。如果你预测每一次冒险都会失败，即使你只是一个反对者，你也会看起来像一个预言家。我不想成为那样的人。但是，这里的难度太大了。

EQRx 不是骗局，只是幻想。但是 Theranos 也是这样开始的。让我们希望 EQRx 带着尊严(也许在将一两种药物推向市场后)而不是凶残地倒下。

*尽管并不总是如此。有时药物也会结合其他靶标，结果发现这些其他靶标才是致病的靶标。药品行业没有消除风险的方法。

披露:自 1999 年吉利德收购我的雇主(NeXstar Pharma)以来，我一直持有该公司的股票，自 2000 年我帮助创立 SomaLogic 以来，我一直持有该公司的股票。

对 AI 的信任值得信任吗？

原文：https://towardsdatascience.com/is-trust-in-ai-trustworthy-88e2eb2ae5d6?source=collection_archive---------28-----------------------

科技世界和人工智能有一个信任问题。但是在我们开始用制造问题的同样的蛮力来解决它之前，让我们停下来问一下，我们值得信任吗？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由法兰克诉在 Unsplash 上拍摄的照片

在我上一篇关于 信任人工智能 的文章中，我写了如何在人工智能中建立信任需要包括 1)技术和人工智能背后的人和机构(那些销售、制造和使用它的人)以及 2)人工智能系统和解决方案的技术。但是，在我们跑去集体开一家“信任”商店或规划蓝图并开始将信任编码到我们的行为或技术中之前，让我们花点时间来理解信任。

第一个群体是人民，他们应该而且总是对信任负有主要责任。为什么？因为无论我们在技术中直接或间接地构建了什么工具和方法，它们总是我们目标的产物。以微软最近的衍生产品 Xiaoice (或者它的早期版本， Zo )为例，这是一个有问题的聊天机器人，有一个十几岁的女孩角色。开发这个聊天机器人的几个版本花了五年多的时间。为什么在这个生态系统中领导可信人工智能的任何人都不能提出足够的关注，即在十几岁的女孩之后建模一个聊天机器人？这些产品不仅让微软，也让整个聊天机器人行业——以及人类——离信任越来越远。难道他们不能创新，展示他们的才华，甚至用一种不同的、问题更少的、投机取巧的角色来赚钱吗？

为什么我们总是弄错呢？是因为我们不懂信任吗？这是因为做出技术和商业决策的人被困在他们孤立的世界里，除了闪亮的可能性之外，无法感知任何东西吗？因为法律领域之外的责任和义务不是技术建设生态系统的一部分？即使当我们插入每个城市、每个家庭、每个招聘决定、刑事司法系统，与人工智能进行越来越多的互动和交易时，我们也不会花时间去“倾听”我们想要服务的人？

照片由阿里·帕扎尼从派克斯拍摄

根据爱德曼的 2020 年信任晴雨表全球调查:

61%的人认为技术变化的速度太快，政府对新技术的理解不足以有效地管理它们。
66%的人担心技术会使人们无法知道他们看到或听到的是不是真实的。

通过人工智能，我们正在创新现实本身。最大的风险是，我们这些创新者将永远失去公众的信任——到某个时候，我们将没有办法纠正方向。如果我们现在不重新考虑信任技术的必要性，我们可能不会有第二次机会。

信任的复杂本质

信任就是满足我们设定的期望。所以这是关于意图，沟通，清晰，纪律，文化，习惯。很多东西很难精确定位或定义。信任也像倾听或理解。我们想要的比我们愿意付出的多，所以需要努力。

信任是一种有意识和潜意识的计算:当感知的信任成本小于感知的不信任成本时，我们就会信任。当信任的感知价值大于不信任的感知收益或价值时，我们就会信任。这是一种自我利益一致的信念。

我们如何准确地计算出这些感知的成本和价值？试试这个练习。想想你非常信任的人或事。到底是什么让你信任他们？什么会让你失去信任？随着时间的推移，你的信任有所改变或演变吗？下面是我从观察和分析中收集到的一系列特征，这些特征让信任变得令人兴奋、有价值且难以驾驭:

信任是一场赌博。它需要我们去猜测，去相信，去相信。
参差不齐。我们想要拥有的比我们想要给予的多。
信任需要时间和注意力。不能操之过急。
这需要努力。深思熟虑的工作。
信任随着时间和互动而发展。它随着我们的改变或学习而改变。
它是易碎的。更容易坏，更难修复。
这不是完全由你控制的。这是相互关联和相互依赖的。其他各方必须愿意并准备好。
信任对未来和社会都有影响——包括收益和成本。
信任不是一切。有时候，兴奋、一笔好交易、奖励或生存比信任更重要
信任不同于关心。你可以关心某人却不信任他们，反之亦然。
信任更多的是关于真实性(某人的价值观)而不是诚实。信任是关于理解；如果需要，让你保守秘密。
信任是难以捉摸的。我们对它越严厉，它就越躲避我们。

我对这些特征有一个单独的更深入的分析，但是对于这次讨论，我们可以将它们分成三个关键点。信任包括:

缺乏确定性和高度可变性。
对自我意识的需要，以及对他人和未来影响的认识。
灵活自律，愿意付出努力，但放弃控制的欲望。

那是棘手的工作。为什么我们还要担心信任？因为信任是无价的。它能够更快、更低风险地做出决策。它使具有不同自我利益和目标的不同群体能够合作实现更大的集体价值和机会。信任可以产生新的想法，并形成生态系统，将想法付诸行动并形成规模。

什么时候信任很重要？当我们在不确定的情况下或与我们不确定的人群或机构一起做决定时，这很重要。想想你从哪里获得关于冠状病毒、工作适应力或在家上学的信息和指导。我们根据已知的东西来导航“未知”的元素。基本上，我们对未来的决定是基于我们从现在和过去所能预测或推断的。信任有助于我们做一个精心计算的赌注，以驾驭风险和回报。这就是信任如此珍贵、令人害怕和令人兴奋的原因。

完全理解信任的关键是“感知的”价值或成本。还记得信任特征列表上的最后两行吗？对我们来说，很难对复杂的相互联系和一个情况的每个角度有一个完整的了解。我们的信任程度基于我们对现实的了解和理解，以及我们的局限和偏见。我们的感知。这就是为什么我们说后知之明是 20/20。这就是为什么我们在一次大采购后会后悔，或者后来意识到我们所认为的一笔好交易、一份好工作或一个好伙伴并不是这样。

我们不想被人耍，更不想让大家发现我们自己耍了。这种对我们脆弱性的社会认知让我们更加烦恼。我们对自己的信任能力失去了信任。 这就是为什么失信的成本如此之高且难以修复。

狡猾的骗子

我与技术决策者的大多数讨论似乎都集中在:

我如何区分真实和炒作？也就是说，哪种技术(5G、对话式人工智能、差分隐私)已准备好采用，适用于哪种用例？
我应该购买或投资什么公司和工具？
什么策略可以“让”消费者和企业信任我的产品，“让我们远离麻烦？”
我如何在不减缓成长的情况下把自己从“坏演员”或“错误”中分离出来？

所有实际和公平的问题。我们需要回答这些问题来做出日常决策。但是另一组重要的问题没有人问过我:我值得信任吗？用户或公众应该信任我吗？他们什么时候应该或者不应该信任我？

让我们打开这个。我们什么时候值得信任？基本上，个人或集体的利己主义是信任和值得信任的最大动力。这种自我利益可以是无形的，如我们的价值观、社会地位、品牌、声誉，也可以是有形的，如工作、财产、定居点、商业股份。但是成本和价值都是可以感知的。信任还取决于我们如何以及与谁一起填充这个公式。是习惯性自动的，一切照旧吗？它是否对多个利益相关者进行了深思熟虑和反思，是否考虑了长期影响和短期影响？现在，人工智能创新完全是关于自动化、采用率和估值。能让我们产生信任的变量在哪里？

我们需要停止将图灵测试作为人工智能的目标和获取新闻头条的方式。对人工智能的终极渴望不应该是它欺骗我们的能力。我们应该关注它帮助我们、理解我们和回应我们需求的潜力。在 Xiaoice 和 Zo 青少年聊天机器人的例子中，重点似乎是展示一个看起来像人的商业上可行的聊天机器人。一个写诗，办画展，很“时髦”，穿校服，不介意成年男人向她表白的聊天机器人。在技术的巧妙中，长期的成本迷失了。想一想在一个高度资助和宣传的产品中滥用少女角色及其固有的性别偏见，这个产品的制作历时五年多。有这么多的时间来改变或纠正航向。我们想知道为什么没有更多的女性对科技感兴趣。

我们如何增加破坏这种基本信任的成本，降低针对弱势群体或走捷径的产品、技术和企业的价值？目前，它们之所以繁荣，是因为有一个群体或人群愿意支付高价来使用这些产品。在我们解决这个问题之前，我们怎么能开始信任人工智能背后的人呢？在这些人的手中,“值得信赖的人工智能”的标签会成为方便的幌子并制造混乱吗？它会一点都不值得信赖吗？

我们对信任的态度是不是完全错误的？

照片由伯纳德·赫尔曼在 Unsplash 上拍摄

我们都知道，给一个聪明人一份没有约束的说服蓝图，就像给他们一份如何操作的指南。你认为我们最初是如何“迷上”并“沉迷”于技术的？对信任的担忧已经进入市场。产品、咨询服务、技术工具和领导力教练正在进入信任的业务和战略。

事实是，没有关心和同情的信任会导致对自我利益的信任，这意味着我们可以相信人们会受自我保护本能的引导，即使以他人为代价。没有尊重的信任导致傲慢和操纵。没有意识的信任可能是危险的。没有喜悦的信任，无聊。

这里是对 NPS 设计者和一些多样性和包容性项目的一些集体反馈——大多数人都明白。他们得到了在调查和培训中需要说的话(显性文化)和他们能够或应该如何表现(隐性文化)之间的差异。见鬼，我们教孩子们这个。我们说“不要撒谎”,然后当着别人的面撒谎，说我们的年龄、薪水以及为什么迟到。在这样的环境下，信任是如何发挥作用的？

员工信任隐性文化——通过观察领导在做什么。如果接受采访或在公共场合演讲，什么时候鼓掌，什么时候保持在他们的公关指导点上。但是爱德曼的调查结果显示普通大众也知道这一点。最终，我们都明白了。问题是我们还有什么其他选择，以及我们在多大程度上摆脱了我们的习惯模式去做一些事情。

***记住，信任是关于我们或对方的感知价值和感知成本。我们所能理解和看到的，作为我们的得失。*有时候随波逐流，随大流也是应该的。我们不能假设我们得到了他们的信任。你有没有听到有人说“它不知从哪里冒出来的”？但你比他们早看到了？很少有事情是凭空出现的——这取决于我们在追踪谁和什么。

这一切意味着什么？

如果有人出卖你的信任，赶紧跑。或者慢下来足够理解利益的对齐。因为他们可能会有利益冲突。如果有人向你展示如何骗取别人的信任，赶紧跑。除非你是一个游牧民族，并计划赚快钱和隐藏起来。那样的话，我不是给你建议的人。但如果你真的在深思熟虑地思考信任，那么首先从这个问题开始:我信任自己吗？为什么或什么时候我不值得信任？谁或什么可以帮助找出丢失了什么？练习你对自己的信任度。

问题和答案一开始可能会感觉不舒服。但是根据我的经验，我可以告诉你，它们也会给你一种解脱感。或者至少是清晰的。你不必去忏悔。肯定的，不要发微博。但是要知道自己的目标。如果你从事制造、购买或使用技术的行业，尤其是人工智能，在构思或决策阶段，问这些重要的问题。你有一个选择。人工智能系统既复杂又可靠；并使用经过彻底测试的、符合伦理道德的、准确的数据。也就是说，如果它们不是为了标记偏见或匿名或对数据源透明而设计的，系统就不会自动指出这些问题。当然，这并不是终点。人工智能系统正在发展。即使是用大量资源和对细节的关注构建的东西，也可能被其他拥有不同系统和不同目标的人重新构建、破解或打乱。

我们有科学和建筑评论，它们是很好的反思模型。但往往连认知多样性都没有。我让一些严肃、严厉的评论家评论了这篇文章。我还让一个不是来自技术领域的人，为了清晰起见，对它进行了审查。够了吗？

信任是结果。这是一个决定，一个措施，一个标准。与其试图建立信任，不如我们用责任和信任来设计？设计“具有信任的人工智能”是关于一个一致的、负责任的决策框架，该框架牢记关于受影响的人的考虑。

而不是“我们如何让人们信任 5G 或 AI，以便他们更快地采用它？”，如果我们问:

为什么人们不信任某种技术的使用——5G、人工智能、数据分析或神经技术？
哪些人或者哪些群体不信任？
他们为什么不信任它？
他们什么时候不应该相信它？
他们会失去什么？他们的担忧是什么？
是否咨询了该团体或该团体的支持者？
我们如何创新来解决他们的担忧？

我们能做什么？

我经常与积极而关切的人工智能专家、商业领袖、研究人员、教育工作者、工程师和产品经理交谈，他们问:但我能做什么？他们雄心勃勃，他们想在经济上和职业上做得更好。但他们厌倦了不得不妥协自己的价值观，或以他们认为存在根本缺陷的方式做事。他们问我，为什么我们一直让世界变得更糟。他们正在寻找替代品。他们希望重新审视我们的技术制造框架，而不影响他们的愿望。他们希望他们的领导人将这一转变作为优先事项。他们希望指标有所改变。他们希望别人改变。我知道，从很多方面来说，我过去和现在都是这样的人。

这是我告诉自己的:到 2030 年，人工智能预计将为全球经济增加超过 13 万亿美元。这意味着它将触及人类系统和环境的每个部分，将产生持久的影响，并将产生足够的收入，我们没有借口而不是带着责任和信任投资建设。监管监督会阻碍创新。我们甚至还没有提到资金的关系，这是许多利益冲突的根源。不要对推动问责制感到内疚，好像我们在某种程度上背叛了公司或经济。我们通过回归基本面——我们的价值观来帮助他们和我们。这一切到底是为了什么——人民。

这就是我告诉技术和商业领袖的:对我有用的是意识到缺少什么，并重新构建问题陈述。我们正走向认知超载。我们需要信任来帮助我们驾驭世界。无论是人工智能还是其他技术，如果我们没有办法看到或理解对所有利益相关者的影响，我们将会做出可怕的事情。我告诉他们不要低估或高估他们拥有的资源、权力和技能。不管他们知道什么或者有什么，利用它。向他人学习或交流想法。加入一个有着不同想法和共同价值观的人的社区。关心是可以的。关心很重要。让我们让关心变得可以接受。平衡它与我们的需求。找出如何满足我们成功的专业和智力驱动力，并创新平衡的饮食。让我们成为我们想成为的人，为我们想创造的未来做出贡献。问，我错过了什么？什么能让我更值得信任？谁能帮我弄明白？

这激励我启动了负责任的创新项目，并为产品和技术的构思、开发和评估创建了一个框架。但这仅仅是一个开始。我们不能单独或孤立地做到这一点。从生存到繁荣的转变必须成为科技文化的准则。如果我们要制造值得信赖的技术或人工智能，我们必须将信任整合到我们的流程中，并以值得信赖的方式制造它。但在此之前，我们必须花时间去理解信任，并问问我们缺少什么。为此承担责任。这是我们唯一可以相信的转变。

加州大学伯克利分校 MIDS 分校值得吗？

原文：https://towardsdatascience.com/is-uc-berkeley-mids-worth-it-5ac645aa79f8?source=collection_archive---------6-----------------------

我是如何在 MOOCs、证书和其他大学中选择这个数据科学硕士项目的，是否值得。

本周有人联系我，询问我对加州大学伯克利分校信息与数据科学硕士(MIDS)项目的看法。这是我过去一年一直在积极追求的非全日制在线硕士课程。“总的来说，我感兴趣的是，你是否会从价格和价值的角度推荐它，”他问道，“如果你研究了其他项目，你最终是如何选择 MIDS 的？”

(也见我入节目两年更新: 一个非全日制数据科学硕士项目如何改变我的人生)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

南大厅，加州大学伯克利分校信息学院的所在地。图片由维基共享，用户:Falcorian/CC BY-SA

“总的来说，我感兴趣的是，你是否会从价格和价值的角度推荐它——如果你探索了其他项目，你最终是如何选择 MIDS 的？”

两年前，当我评估包括伯克利在内的各种数据科学项目选项时，我也有同样的问题。在 MOOCs 和自学的时代，为什么有人要付出更高的成本去攻读正式的硕士课程？在硕士项目中，伯克利也不是最便宜的。伊利诺伊大学厄巴纳-香槟分校(UIUC)提供类似的课程，费用仅为 2 万美元，而伯克利的课程费用接近 7 万美元。那么是否情有可原呢？当我在网上搜索答案时，我只能找到一些过时的 Quora 帖子，这些帖子没有什么有用的信息。我今天快速搜索了一下，看到了同样的帖子。所以我想给你一个内幕消息，截止到 2020 年夏天。

这篇文章的目的是描述为什么我选择了这个项目，为什么它对我来说是值得的，作为一个已经完成了一半多一点的学生。这个项目对你是否有价值取决于你的个人情况和目标，但在分享我的情况时，我希望能让你的决定更容易。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我从数据分析师做起。在 Unsplash 上由 Carlos Muza 拍摄的照片

为什么我想学习数据科学

关于我:我的职业生涯一直处于商业判断和数据分析的交汇点。作为毕马威风险咨询业务和优步内部审计团队(财务和会计)中少数精通 SQL 的人之一，我将法律术语翻译成查询，从支持审计建议的数据中提炼故事。我使用本福德定律、关键词搜索和基本统计来识别欺诈计划和其他风险，并以用数据解决复杂难题为荣。

然而，我发现仅仅诊断过去的事件从长远来看是没有效率的，在智力上也是不令人满意的。到 2017 年，我已经尝到了学习基本 Python 给我的工作流带来的额外灵活性，这使我能够扩展到关系数据库之外。我亲眼目睹了我那才华横溢的同事丹尼尔·皮尔斯，用人工智能算法为一项调查提供了一个关键的证据。传统上专注于描述性或诊断性分析的风险管理行业正在适应更具预测性和规范性的分析。最新的欺诈监控工具利用机器学习来检测伪造文件或可疑的费用报销。我想站在这场革命的最前沿。

我开始通过 MOOC 在数据科学方面训练自己，但很快意识到它的局限性。首先，我必须建立自己的课程，但问题是我不知道自己不知道什么。我也很难找到高质量的内容来映射到我的学习计划中，因为我不知道如何评估它们。我尝试的课程往往侧重于工具，而我需要更多一点的帮助来培养数据科学思维。最后，我没有足够的动力或压力来让自己负责并完成我开始的课程。所以我决定寻找替代方案——数据科学硕士项目。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我要做一些决定。照片由莱蒂齐亚·博尔多尼在 Unsplash 上拍摄

我需要从数据科学项目中得到什么

具有品牌价值和信誉的合法硕士学位

如果我要奉献时间和金钱，这对我来说是不够的，但是其他人可以告诉我学到了一些东西。我考虑过更短、更便宜的 DS 证书课程，但我不知道它们会给我的简历增加多少可信度。因此，我决定专注于知名高等教育机构的硕士项目。

兼职和远程

我在优步的职业轨迹很棒，我不打算放弃。虽然发展 DS 技能很重要，但发展领导技能和领域专业知识也很重要。一个兼职项目将允许我保持我的收入，继续我目前的职业轨迹，并继续深造。

我不在乎学校在哪里，只要我能从旧金山的家里到学校。这就排除了芝加哥大学和华盛顿大学，这两所大学有兼职项目，但只在校园内。

技术技能进入门槛较低，但有机会学习

我主修商科，对分析略知一二。当然，在我的生活中，我写过一些关于循环的*，但是我不能评论任何数据结构和算法。我最后一次接受统计学的正规教育是在大学三年级，最后一次是数学，高中 IB 微积分。对我来说不幸的是，一些项目要求申请者熟悉线性代数。我想我可以从路易斯安那州立大学或其他地方自学，但我渴望开始学习，所以我很快排除了那些课程。这些包括 UIUC，UCLA 和约翰霍普金斯大学。*

我也不想太深入另一端，也就是商业分析。我已经知道商业分析。所以我排除了哥伦比亚大学这样的项目(面对面和在旧金山，但也是 8 万美元！)和印第安纳州。

网络和社区

我的哲学是，我不可能学到所有该知道的东西，但我可以随时打电话给朋友。因此，我想要一个能让我以有意义的方式与学生和教师交流的项目。这就是为什么许多 MOOCs 对我不起作用的主要原因。

伯克利吸引我的是它的社区。 MIDS 2017 年状态报告称:

2016 年，一项计划调查表明，72%的学生同意这一说法，“我觉得自己是我大学社区的一员”，83%的学生同意这一说法，“这个计划帮助我发展了与同学的关系网。”

我被卖了。

在 it 行业呆了一年后，我完全同意——远程学习不能阻止我完全融入社区。小型直播课堂(< =15 名学生)、与教师频繁的办公时间、关于各种主题的活跃 Slack 频道以及偶尔的本地聚会都增加了归属感。

最终的选择

根据我的电子表格，只有三所学校符合我的所有条件:圣母大学、西北大学和伯克利大学。因为我在伯克利完成了我的本科学业，并且喜欢上了它，所以它在我心中的分数自然就更高了。我还知道，如果有任何校园活动，我可以很容易地从旧金山访问。所以我决定先申请伯克利，其他的留在我的口袋里。我被录取了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我该怎么办？停止投资我的事业？没想到会这样。Avel Chuklanov 在 Unsplash 上拍摄的照片

伯克利的经历

2019 年 3 月拿到录取通知书后，我还是不确定。我只拿到了一份很少的奖学金，勉强够支付学费，并且需要自己掏腰包支付剩余部分，所以我犹豫了。我花了很多时间浏览 Quora，并在 LinkedIn 上联系现在或以前的 MIDS 学生。数据科学似乎是我可以在 YouTube 或 Coursera 上自学的东西，只要我能建立一个强大的投资组合，我就能在其中发展我的职业生涯。但是后来我反思了我过去几年的旅程，思考决定我必须知道什么是多么困难。我需要指导，我需要一个社区。所以我决定报名。“我总是能放下它，”我想。最坏的情况是，我会花一个学期的时间与美国顶尖公立大学的学生交流。我会带着对项目课程的良好理解离开，这样我就知道自己下一步该学什么了。

三个学期后，我对我的经历感到非常高兴。在项目的前几周，我开始将在学校学到的知识运用到工作中。去年夏天，我努力解释什么是置信区间，但是现在，我已经写了两篇统计学的小论文。今天，我可以训练 ML 模型，解释它们的内部工作原理，并应用超参数调整或维度缩减。然而，我成长的最重要标志是我的抱负。过去，我想成为一名精通数据科学的商业专家，但现在，我希望成为一名精通商业的数据科学家。我参加这个项目的时候想，如果我能和 ML 工程师明智地谈论这些概念，并讨论如何将它用于商业，那就足够了。今天，我正在考虑更深入地参与 ML 算法的职业。

学者们

伯克利分校在申请时对数学或编程没有硬性要求，但提供桥梁课程，并为建立坚实的基础提供支持。伯克利分校帮助弥合这一差距的能力是一项不可思议的资产，也是该项目的优势。它允许像我这样的商业人士带来有趣的观点，这样更多的技术人员可以向我们学习，反之亦然。MIDS 项目在管理思想、学科和背景的多样性和包容性方面非常出色。

内容的质量很高，这是不言而喻的。这些课程讲述永不过时的基础知识以及最新的数据科学趋势。从教授到大公司的顶级数据科学家，顶尖的导师们不断创新程序，以保持领先地位。

与 MOOC 不同，Cal 在项目中建立了问责制，使我可以轻松地每周投入 20-30 小时进行学习。只有 15 名学生参加的现场会议激励我及时完成所有的每周材料，以便我能够参与讨论。现场会议和办公时间给了我提问的机会，这是我学习的第三好方法。第二个最好的方法是通过做，这是由动手项目来完成的。我学习的最好方式是通过教学，通过注册成为一名编程课的助教，我也可以做一点——不完全是通过教学，而是通过提供对其他学生代码的反馈。如果这些还不够，我敬业的学生顾问会定期检查我，确保我拥有在 MIDS 成功所需的一切。

社区

信息学院还提供优秀的职业咨询服务。我已经和出色的劳里·哈斯克尔-沃纳——我们的职业顾问——进行了两次私人咨询，并从她的见解中受益匪浅。我们讨论了一些短期计划，比如提高我在 LinkedIn 上的地位和长期职业战略。她帮我联系了几个校友，他们可以就具体的话题给我进一步的建议。接受这种量身定制的高质量护理就像拥有了一位个人职业教练和导师。

最后但同样重要的是，社区参与度超出了我的预期。我交了很多朋友，因为有足够的机会与人们面对面交谈并了解他们。我喜欢学生主导的学习会议。我欣赏来自各行各业的学生:工程师、统计学家、教师、金融领袖、企业家和建筑师。Slack 增强了体验。我在 Slack 上做的第一件事就是寻求一些职业建议，于是很多学生都跳出来帮忙。我也喜欢#咖啡，#音乐，#酷数据-即，#伦理，和#不愚蠢的问题。来自世界各地、各行各业、各年龄段和各行各业的学生和教师分享他们的观点。挺好看的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

时间、金钱和努力工作？是的。转型？还有，是的。苏珊·d·威廉姆斯在 Unsplash 上的照片

那么，值得吗？

是的。

我很高兴我没有让价格标签阻止我追求我的梦想和我的职业生涯。亲爱的读者，我个人并不了解你，也不能说这对你是否会像对我一样富有成效。然而，我看到一群不同的聪明人正在享受这个项目。MIDS 似乎有适合每个人的东西。拥有博士学位或辉煌商业生涯的人；以前赢得过 Kaggle 比赛的人或者刚刚开始涉足 scikit-learn 的人；一个快到退休年龄的人或者一个刚从大学毕业的人。每个人的目标和旅程都与我不同，但在伯克利这里有适合他们的东西。

如果你正在读这篇文章，是因为你对 MIDS 持观望态度，我要说，去吧！如果你之前对在线研究生项目有任何疑问，请记住，MIDS 早在疫情时代之前就已经投资远程学习技术了。是的，在线学生得到了和其他伯克利学生一样的待遇和福利——图书馆、学生折扣、选举学生官员的权利，应有尽有。我甚至去伯克利拿了一张学生证，在博物馆展出，并用作 AC Transit 的免费乘车证。

这个项目给了我比我预想的更多的东西，对此我很感激。我唯一的遗憾是没有早点开始。

(注:经过进一步的研究，我发现了王巍在 2020 年 4 月写的这篇伟大的新帖。看看吧！)

(更新:看看这篇名为“ 的新文章:佐治亚理工学院 OMSA 分校 vs 加州大学伯克利分校 MIDS 分校 ”作者是我的同学和他的朋友。写于 2020 年 6 月。)

颠倒强化学习=模仿学习吗？

原文：https://towardsdatascience.com/is-upside-down-reinforcement-learning-imitation-learning-4a9d346f9f98?source=collection_archive---------53-----------------------

理解和实现 UDRL 算法

什么是颠倒强化学习？

我是在参加 NeurIPS 2019 的 RL 研讨会时发现这项工作的。老实说，这是我在会议上偶然发现的最酷的想法之一。你可以在这里看看我在会议上最喜欢的其他想法。无论如何，这个帖子是关于检查倒挂强化学习更多。你可以在这里阅读完整的论文，但是这里是摘要所说的:

传统的强化学习(RL)算法要么用价值函数来预测回报，要么使用策略搜索来最大化回报。我们研究了一种替代方法:倒置强化学习(倒置 RL 或 UDRL)，它主要使用监督学习技术来解决 RL 问题。在这里，我们提出了 UDRL 的第一个具体实现，并证明了它在某些情景学习问题上的可行性。实验结果表明，其性能可以与经过几十年研究开发的传统基线算法相媲美，甚至超过后者。

如果你想更深入地了解这篇论文，你可以观看这个优秀的视频。但是 TL；dr——他们设计了一种新的监督学习算法来解决强化学习任务。没有政策梯度，没有价值函数估计，只是简单的旧的监督学习。下面是论文中的一个图表，可以更好地说明这一点:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

行为功能试图预测的是— *根据这一观察，在这一期望的时间范围(总时间步长)*内，采取什么样的最佳行动来实现这一期望的回报(总回报)。它们不是学习/模拟奖励，而是被用作直接预测行动的输入(命令)。

为了更好地理解整个算法，我进行了一些快速实验。这篇文章记录了我的发现。

我特别想回答以下两个问题:

既然实现大多数 RL 算法是极其重要的，那么让这个算法运行起来有多容易呢？
只是巧妙伪装的模仿学习算法吗？

要解决的任务—稀疏月球着陆器

为了回答上述问题，我实现了算法来解决稀疏月球着陆器任务(论文中提到的任务之一)。任务是学习一个代理人能够成功地登陆月球情人，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我通过修改奖励函数将 OpenAI Gym 的“LunarLander-v2”环境手动转换为稀疏环境，如下所示:

0 奖励所有非终端步骤
最后一步的每集总奖励

实施说明

所有的学习组件都是使用 Pytorch 实现的
论文列出了他们在实验中扫描的所有超参数值。我根本没有调过音。只是选择了每一个的中间值。
模型架构:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 comet.ml 进行度量跟踪

这个实验的代码可以在这里获得。现在，让我们来看看实验结果。

让算法发挥作用有多容易？

回答——出奇的快。我能够在我的第三个(！)运行尝试；而不需要对超参数进行太多的修改。我不记得任何基于策略梯度的算法上一次出现这种情况是什么时候了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当然，这需要半信半疑，因为“月球着陆器”是一项相对简单的任务。但是如果你看看代码中实现的算法，你会同意这个算法简单得可笑！

只是变相的模仿学习吗？

我读这篇论文的第一印象是，这个想法听起来非常类似于模仿学习。考虑描述重放缓冲策略的论文中的以下摘录:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，随着训练的进行，通过设计，存储在缓冲器中的轨迹开始越来越像专家轨迹(高回报的剧集)。仅仅学习从状态到这些专家轨迹上的行为的映射(模仿学习)就足够了。这个想法实际上在之前的工作中得到更好的表达，叫做自我模仿学习。

为了测试这一假设，我进行了以下实验——试图通过屏蔽行为功能的命令输入(保持其他一切不变)来了解要采取的最佳行动。所以有效地，仅仅学习仅仅从观察中预测行动。事情是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

显然，将命令作为行为函数的输入会产生不同。我的猜测是，拥有这些命令有助于代理进一步区分不同类型的高回报轨迹，从而帮助它学习得更快。这显然需要在更复杂的环境中进一步测试，但我的微观实验结果绝对令人鼓舞。

实验的所有代码都可以在这个 Github Repo 上获得

这个帖子最初发布在 bprabhakar.github.io

你的分类器好吗？

原文：https://towardsdatascience.com/is-your-classifier-any-good-796050a36f9a?source=collection_archive---------64-----------------------

不要陷入错误的评价标准

本帖是本书的一部分: 用 Python 动手做量子机器学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者弗兰克·齐克特的图片，改编自电影《难忘的一夜》(1958 年，松林制片厂)

在本帖中，我们旨在预测一名乘客是否在泰坦尼克号沉船事故中幸存。但是我们甚至不看数据，而不是训练一个复杂的模型。通过这种方式，我们发现产生看似好的结果实际上毫无价值是多么容易。

预测泰坦尼克号上的幸存者是一项分类任务，因为有不同的结果值。具体来说，这是一个二元分类任务，因为正好有两个可能的预测(survived或died)。

在我们开发复杂的机器学习算法之前，让我们实现我们可以想象的最简单的算法。猜测的分类器。

随机分类器

我们导入随机数生成器(第 1 行)并初始化它(第 2 行)。

我们的分类器是一个将乘客数据作为输入并返回0或1作为输出的函数。与我们的数据相似，0表示乘客死亡，1表示乘客幸存。

为了使用分类器，我们编写了一个 Python 函数，为训练集中的每个项目运行分类器。

分类赛跑运动员

该函数将分类器函数作为第一个参数(我们可以稍后替换分类器)，将输入数据(如x)作为第二个参数(第 1 行)。

它使用 Python 的map函数来调用带有x中每一项的分类器，并返回一个结果数组。

让我们运行它。

运行分类器

[0, 1, 0, ... 0, 1, 1]

当我们使用train_input运行分类器时，我们会收到一个预测列表。

由于我们的目标是正确预测实际结果，所以我们需要评估预测是否与实际结果匹配。

让我们看看我们预测的准确性。

评估分类器

350 correct predictions out of 711\. Accuracy 49 %

我们定义另一个函数evaluate。它将我们算法的预测和实际结果作为参数(第 1 行)。

术语list(zip(predictions,actual))(第 4 行)创建了一个包含两个条目的列表。2 项列表是预测和相应的实际结果的配对。

我们从预测与实际结果匹配的列表中选择这些item(lambda item: item[0] == item[1])(第 3 行)。这些都是正确的预测。正确预测的列表长度除以乘客总数就是我们的Accuracy。

太好了！我们已经在一半的情况下(或多或少)是正确的。当从两个可能的标签中猜出一个时，这并不奇怪。

但是也许我们可以做得更好？我是说毫不费力。我们知道死亡的人比幸存的人多。如果我们总是预测一个乘客的死亡会怎么样？

总是预测有乘客死亡

437 correct predictions out of 711\. Accuracy 61 %

我们预测的准确率高达 61%。不算太坏，是吗？这个值，也就是两个可能的实际值之比，就是患病率。

让我们考虑一个不同的任务。假设你是一名医生，你的任务是预测病人是否患有癌症。你的病人中只有 1%患有癌症。如果你一直预测没有癌症，你的准确率会达到惊人的 99%!但是你会错误地诊断出实际上患有癌症的病人。由于缺乏治疗，他们将会死去。

也许仅仅预测的准确性并不能很好地衡量我们算法的性能。

评估是每个机器学习算法的一个主要部分。乍一看，这似乎是微不足道的。然而，决定正确的措施是非常重要的一步。当你朝着更好的性能优化你的算法时，你将不可避免地在你的评估函数中朝着更好的分数优化。

但是现在，我们保持简单。评估分类器性能的更好方法是查看混淆矩阵。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者弗兰克·齐克特的图片

总的想法是将预测值与实际值进行比较。在二元分类中，有两个可能的实际值:true或false。并且有两种可能的预测:true或者false。

有四种可能性:

真否定 (TN):一名乘客死亡被正确预测
假阳性 (FN):一名死亡的乘客被错误地预测为存活
假阴性 (FP):一名幸存的乘客被错误地预测死亡
真阳性 (TP):一名幸存乘客被正确预测

我们来看看predict death分类器的混淆矩阵。

预测死亡分类器的混淆矩阵

array([[437,   0],
       [274,   0]])

Scikit-Learn 提供了我们导入的confusion_matrix方法(第 1 行)。它将实际值作为第一个参数，将预测值作为第二个参数(第 3 行)。

它返回一个二维数组。在第一行，它显示了真阴性(TN)和假阳性(FP)。在第二行，它显示了假阴性(FN)和真阳性(TP)。

我们可以将目前测量的精度定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它不关心是否存在系统误差，例如算法不能正确预测幸存的乘客(真阳性)，只要它在正确预测死亡的乘客(真阴性)方面表现良好。

混淆矩阵为我们提供了分类器性能的更详细的度量。这些是:

精确
召回
特征
阴性预测值(NPV)

精度是“正面预测的准确性”。它只关注正面的预测，这些是乘客幸存的预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们看一下代码:

精确分数

The precision score of the predict_death classifier is 0.0

Scikit-Learn 提供了计算precision_score的功能。它将实际值列表和预测值列表作为输入。

因为我们没有一个正面的预测，所以我们的精确度是不确定的。 Scikit-Learn 将此解释为0.0的分数。

召回是“实际阳性的准确性”。它只关注实际的积极因素。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Python 中，它是:

回忆分数

The recall score of the predict_death classifier is 0.0

这一次，即使定义了recall(实际阳性的数量大于 0)，分数仍然是0.0，因为我们的分类器没有正确预测单个存活。当它总是预示着死亡时，这并不奇怪。

特异性是“实际底片的准确性”。它只看实际的负面(死亡)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

而“负面预测值”(NPV)是“负面预测的准确性”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这两个功能不是现成的。但是利用我们从混淆矩阵中得到的值，我们可以很容易地计算它们:

特异性和净现值

The specificity score of the predict_death classifier is 1.00
The npv score of the predict_death classifier is 0.61

函数specificity将混淆矩阵作为参数(第 1 行)。它将真阴性(matrix[0][0])除以真阴性和假阳性之和(matrix[0][1])(第 2 行)。

函数npv将混淆矩阵作为一个参数(第 4 行)并将真否定除以真否定和假否定之和(matrix[1][0])。

这四个分数提供了我们的分类器的性能的更详细的视图。

让我们也为我们的随机分类器计算这些分数:

随机分类器的分数

The precision score of the random classifier is 0.40
The recall score of the random classifier is 0.52
The specificity score of the random classifier is 0.51
The npv score of the random classifier is 0.63

虽然predict death分类器完全没有精确度和召回率，但它具有完美的特异性，并达到与我们测试数据集中的阴性百分比(患病率)相匹配的 NPV 分数。

随机分类器产生更平衡的分数。每次运行分类器，你都会得到一点点不同的分数。但是这些值似乎停留在一定的范围内。虽然这个分类器的精度通常低于0.4，但是 npv 高于0.6。

混淆矩阵和相关度量给你很多信息。但是有时候，你需要一个更简洁的度量标准。事实上，机器学习算法中的评估函数必须返回它可以优化的单个度量。

这个单一的测量应该揭露一个没有真正增加任何价值的分类器。

本帖是本书的一部分: 用 Python 动手做量子机器学习 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里免费获得前三章。

你的社区为抗击新冠肺炎做了足够的努力吗？

原文：https://towardsdatascience.com/is-your-community-doing-enough-to-fight-covid-19-aa745b424eb1?source=collection_archive---------45-----------------------

谷歌的移动性报告告诉我们什么是应对新冠肺炎的行为变化

根据美国疾病控制和预防中心的说法，防止新冠肺炎病毒传播的最好方法是与其他人保持足够的距离，至少 6 英尺。这有助于避免被感染者通过咳嗽、打喷嚏和说话时从鼻子或嘴里喷出的飞沫传播疾病。作为回应，许多国家鼓励居民呆在家里，只在必要或必要的工作时才离开。

上周，为了追踪人类行为如何因新冠肺炎而改变，谷歌发布了移动报告，该报告汇总了一段时间内匿名化的地理移动趋势。这些数据是通过手机定位历史记录获得的，可以跟踪多种类别的活动，包括零售和娱乐、杂货店和药店、公园、公交车站、工作场所和住宅区。通过这些报告，我们现在可以看到美国和全球的居家条例是如何影响行为的，以及我们可以在哪些方面继续做得更好以阻止这种传播。

全球行为的变化

根据 4 月 9 日发布的最新报告，减少人类互动的全球倡议正在对行为产生巨大影响。全球平均值显示，所有公共聚会活动减少，在家人数增加。具体而言，报告强调了以下几点。

零售和娱乐活动平均减少 60.5%
工作场所出勤平均减少 35.5%
杂货店和药店平均降价 38.6%
在家时间平均增加 16.8%

虽然这些数字代表全球平均水平，但在国家一级，我们看到对新冠肺炎的反应存在差异。下图描绘了目前谷歌数据集中包括的所有国家在居住空间花费时间的变化。

我们可以看到，尽管几乎所有国家都增加了在家的时间，但人们呆在家里的程度各不相同。巴拿马、玻利维亚、秘鲁和博茨瓦纳等国家已经做出了重大改变，居家活动增加了 34%以上。要查看其他类别的统计数据，如购物、工作出勤和参观公园，请滚动国家/地区。

在美国的影响

根据避免社交聚会和人与人之间近距离接触的建议，仅在美国，42 个州至少有 3 . 16 亿人受到地方政府的指示，尽可能待在家里。这相当于大约 95%的美国人口。谷歌的报告揭示了这些法令如何影响了美国各地的行为。

随着全国各地的餐馆、酒吧、商店和其他工作场所关闭，我们看到工作场所的出勤率平均下降了 40%，零售和娱乐活动平均下降了 49%。然而，人们仍然经常出于各种原因离开他们的家，包括因为他们是必要的工人，他们需要食品杂货和其他必需品，或者他们正在参观一个公园。在全国范围内，我们只看到居住时间平均增长了 13%，低于全球 16.8%的平均水平。下图显示了美国各地住宅活动的变化情况。在新泽西州和加利福尼亚州等州，我们看到住宅活动增加了 16%，而尚未实施居家条例的州，如阿肯色州和爱荷华州，住宅活动仅增加了 8%。

虽然上面的地图只显示了居住活动的变化，但我们看到居住活动和涉及公共互动的类别之间存在强烈的负相关。下面的热图显示，在人们居住时间越长的州，他们花在购物、工作和公共交通上的时间越少，这意味着他们接触病毒的频率越低。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传