TowardsDataScience 博客中文翻译 2020（九百九十六）

最新推荐文章于 2025-04-21 15:52:49 发布

绝不原创的飞龙

最新推荐文章于 2025-04-21 15:52:49 发布

阅读量2.5k

点赞数 24

分类专栏： MLM 文章标签： MLM

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

本文链接：https://blog.csdn.net/wizardforcel/article/details/142709625

版权

MLM 专栏收录该内容

3745 篇文章

订阅专栏

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

为什么以及如何将 Dask 与大数据结合使用

原文：https://towardsdatascience.com/why-and-how-to-use-dask-with-big-data-746e34dac7c3?source=collection_archive---------19-----------------------

作为一名数据科学家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源

如果你一直在关注我的文章，很可能你已经读过我以前的一篇关于 为什么以及如何使用拥有大数据的熊猫 的文章。

作为一名数据科学家， Pandas 是 Python 中用于数据清理和分析的最佳工具之一。

在清理、转换、操作和分析数据方面，它是真正的游戏规则改变者。

毫无疑问。

事实上，我甚至创建了自己的 工具箱，用于使用 Pandas 进行数据清理 。工具箱不过是用熊猫处理杂乱数据的常用技巧的汇编。

我对熊猫又爱又恨

不要误解我。

熊猫很棒。很强大。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

堆栈溢出流量到关于所选 Python 包的问题

对于数据清理和分析，它仍然是最受欢迎的数据科学工具之一。

然而，在进入数据科学领域一段时间后，我处理的数据量从 10MB、10GB、100GB 增加到 500GB，有时甚至更多。

我的电脑要么性能低，要么运行时间长，因为大于 100GB 的数据无法有效使用本地内存。

那时我意识到熊猫最初不是为大规模数据而设计的。

那时候我才意识到大数据和大数据的鲜明区别。

丹·艾瑞里教授的一个著名笑话:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(来源)

“大”和“大”这两个词本身是“相对的”，以我的拙见，大数据是指小于 100GB 的数据集。

现在，Pandas 处理小数据(通常从 100MB 到 1GB)非常高效，性能很少成为问题。

但是当你有比你的本地 RAM (比如 100GB)大得多的数据时，你或者仍然可以使用 Pandas 在一定程度上用一些技巧来处理数据，或者选择一个更好的工具——在这种情况下是 Dask 。

这一次，我选择了后者。

为什么 Dask 像魔术一样工作？🌟

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

达斯克

对我们中的一些人来说， Dask 可能是你已经熟悉的东西。

但是对于大多数有抱负的数据科学家或刚开始接触数据科学的人来说，Dask 可能听起来有点陌生。

这完全没问题。

事实上，直到我面对熊猫的真正局限，我才开始了解达斯克。

请记住，如果您的数据量足够低，并且可以放入 PC 的内存空间，Dask 不是必需的。

所以现在的问题是…

Dask 是什么，为什么 Dask 处理大数据比熊猫好？

⚡ ⚡️ ️Dask 以 Python 并行计算库而闻名

通过它的并行计算特性， Dask 允许快速有效的扩展计算。

它提供了一种简单的方法来处理 Python 中的大数据，这比常规的 Pandas 工作流程要简单得多。

换句话说，Dask 允许我们轻松地扩展到集群来处理大数据，或者缩减到单台计算机来通过利用 CPU/GPU 的全部能力来处理大数据，所有这些都与 Python 代码完美集成。

很酷不是吗？

就性能和可伸缩性而言，可以将 Dask 视为 Pandas 的扩展。

更酷的是，你可以在 Dask dataframe 和 Pandas Dataframe 之间切换，按需进行任何数据转换和操作。

大数据怎么用 Dask？

好了，理论到此为止。

是时候把手弄脏了。

你可以安装 Dask 并在你的本地 PC 上尝试使用你的 CPU/GPU。

B 但是我们在这里谈论的是大数据，所以让我们做一些不同的。

走吧大。

不要通过缩小到单台计算机来驯服“野兽”，让我们通过扩展到集群来发现“野兽”的全部力量，因为是免费的。

是的，我是认真的。

理解设置集群(例如 AWS)并将 Jupyter notebook 连接到云对于一些数据科学家来说可能是一件痛苦的事情，特别是对于云计算的初学者来说，让我们使用 土星云 。

这是我最近在尝试的一个新平台。

Saturn Cloud 是一个托管的数据科学和机器学习平台，可实现 DevOps 和 ML 基础设施工程的自动化。

令我惊讶的是，它使用了 Jupyter 和 Dask 到 scale Python 来处理大数据使用了我们熟知和喜爱的库(Numpy、Pandas、Scikit-Learn 等)。).它还利用了 Docker 和Kubernetes，以便您的数据科学工作可重现、可共享并可投入生产。

Dask 的用户界面主要有三种类型，即数组、包和数据帧。在下面的代码片段中，我们将主要关注 Dask Dataframe ，因为作为一名数据科学家，这是我们最常用于数据清理和分析的。

1.将 CSV 文件读取到 Dask 数据帧

import dask.dataframe as dddf = dd.read_csv('[https://e-commerce-data.s3.amazonaws.com/E-commerce+Data+(1).csv',](https://e-commerce-data.s3.amazonaws.com/E-commerce+Data+(1).csv',) encoding = 'ISO-8859-1', blocksize=32e6)

Dask dataframe 在正常文件读取和数据转换方面与 Pandas dataframe 没有什么不同，这使得它对数据科学家非常有吸引力，稍后您将会看到这一点。

这里我们只是读取了存储在 S3 中的一个 CSV 文件。因为我们只想测试 Dask 数据帧，所以文件大小很小，只有 541909 行。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

读取 CSV 文件后的 Dask 数据帧

**注意:**我们也可以在一行代码中读取多个文件到 Dask 数据帧，而不管文件大小。

当我们从 CSV 加载数据时，Dask 将创建一个数据帧，该数据帧是按行分区的，即行按索引值分组。这就是 Dask 能够按需将数据加载到内存中并超快速处理数据的方式— 它通过分区。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Dask 完成的分区

在我们的例子中，我们看到 Dask 数据帧有 2 个分区(这是因为在读取 CSV 时指定了blocksize),有 8 个任务。

**【分区】**这里简单地指在 Dask 数据帧内分割的熊猫数据帧的数量。

我们拥有的分区越多，每次计算需要的任务就越多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Dask 数据帧结构

2.使用`compute()`执行操作

现在我们已经将 CSV 文件读入 Dask dataframe。

重要的是要记住，虽然 Dask 数据帧与 Pandas 数据帧非常相似，但确实存在一些差异。

我注意到的主要区别是 Dask dataframe 中的这个compute方法。

df.UnitPrice.mean().compute()

大多数 Dask 用户界面是懒惰的，这意味着它们不会评估，直到你使用compute方法明确地要求一个结果。

这就是我们如何通过在mean方法后添加compute方法来计算UnitPrice的平均值。

3.检查每列缺失值的数量

*df.isnull().sum().compute()*

同样，如果我们想检查每一列的缺失值的数量，我们需要添加compute方法。

4.根据条件筛选行

*df[df.quantity < 10].compute()*

在数据清理或探索性数据分析(EDA)过程中，我们经常需要根据某些条件过滤行，以了解数据背后的“故事”。

我们只需添加compute方法，就可以做和在熊猫身上做的完全一样的操作。

然后嘣！我们得到了结果！

🚀使用 Python 创建 Dask 集群并大规模运行 Jupyter 的演示

既然我们已经大体了解了如何使用 Dask。

是时候看看如何在土星云上创建 Dask 集群并在 Jupyter 中大规模运行 Python 代码了。

我录制了一个简短的视频，向您展示如何在几分钟内在 Dask 集群中进行设置和运行 Python 代码。尽情享受吧！😊

如何创建 Dask 集群并在土星云上运行 Jupyter 笔记本

最后的想法

来源

感谢您的阅读。

从功能上来说，熊猫还是赢了。

在性能和可扩展性方面，Dask 领先于 Pandas。

在我看来，如果您的数据大于几 GB(相当于您的 RAM)，出于性能和可伸缩性的目的，请使用 Dask。

如果你想在几分钟内创建一个 Dask 集群，并大规模运行你的 Python 代码，我强烈推荐你在这里免费获得土星云的 社区版 。

一如既往，如果您有任何问题或意见，请随时在下面留下您的反馈，或者您可以随时通过我的网站或 LinkedIn 联系我。在那之前，下一篇文章再见！😄

关于作者

*Admond Lee 目前是东南亚排名第一的商业银行 API 平台Staq**—*的联合创始人/首席技术官。

想要获得免费的每周数据科学和创业见解吗？

你可以在 LinkedIn 、 Medium 、 Twitter 、脸书上和他联系。

* [## 阿德蒙德·李

让每个人都能接触到数据科学。Admond 正在通过先进的社交分析和机器学习，利用可操作的见解帮助公司和数字营销机构实现营销投资回报。

www.admondlee.com](https://www.admondlee.com/)*

为什么以及何时避免将 S3 作为数据湖的数据平台

原文：https://towardsdatascience.com/why-and-when-to-avoid-s3-as-a-data-platform-for-data-lakes-c802947664e4?source=collection_archive---------3-----------------------

如今，数据湖在大型企业中风靡一时。数据湖是源系统数据的原始副本和转换数据的单一存储，用于报告、可视化、高级分析和机器学习等任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:数据湖生态系统

对象存储(如 S3)正成为数据湖的首选平台，这有两个主要原因:

它们在云中提供廉价、耐用和几乎无限的存储
它们实现了计算和存储的分离，允许其中任何一个独立扩展

在这篇博文中，我将深入探讨对象存储的一些优势，这些优势是它们作为数据湖平台受欢迎的原因。我还将研究一些经常被低估的挑战，这些挑战困扰着许多数据湖用例中对象存储的使用。

对象存储的好处:耐用、便宜、几乎无限的存储空间

像 S3 这样的对象商店提供 11 个 9 的耐用性(99.9999999999%)和 4 个 9 的可用性(99.99%)，并且他们设法以几乎无限的规模做到这一点，价格低得令人难以置信，大约为每月 23 美元/TB。相比之下，本地数据仓库设备(DWA)在几年前非常流行。不包括企业支持，DWA 的成本为每 TB 数万美元。数百万美元的 DWA 合同通常只支持几百兆字节。

当 IT 领导考虑为他们的数据湖选择数据平台时，对象存储每月 23 美元的价格实在太诱人了。对于数据湖预计要容纳的大量数据(从数百 TB 到数 Pb ),使用最便宜的存储是有意义的。像 S3 这样的对象商店看起来(不正确，我们将在本文后面看到)比许多大型企业仍在使用的 DWA 具有千倍的价格优势。

对象存储的好处:存储和计算的分离

数据湖所需的存储规模使得使用像 DWA 这样将存储和计算结合在一个包中的体系结构极其昂贵。通过将存储和计算分离开来，我们可以在任何给定时间将适量的按需计算用于需要分析的数据。这大大降低了数据分析解决方案的总体成本。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2:存储和计算的分离

可以理解，所有这些优势对于推动 S3 和其他对象存储作为数据湖平台的流行至关重要。但是对象存储带来了许多没有得到足够重视的挑战。对于来源于 RDBMS 且经常刷新(每天/每小时)的数据来说尤其如此，这些数据构成了企业中高质量数据的主体。

对象存储的缺点:不变性

所有对象存储，包括 S3、GCS 和 Azure Blob 存储，都是不可变的。这意味着文件一旦写入对象存储，就永远无法编辑。用户只能硬删除旧文件并创建新文件，或者逻辑删除旧文件并创建新文件(版本控制)。

当使用 S3 作为来自 RDBMS 的、频繁刷新的数据的数据平台时，这导致为每个表创建大量的小文件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3:来源于 RDBMS 的数据的许多小文件的问题

随着时间的推移，插入、更新和删除操作越来越多，试图获得表的当前状态变得更加耗费时间和计算。大多数数据科学家回避这项复杂的任务，而是要求直接访问源系统，这违背了使用数据湖的初衷。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4:在 S3 上使用原始变更集的问题

U =更新，I =插入，D =删除

解决方案，第 1 部分:数据分区

一种解除最终用户合并变更的责任的解决方案是对数据进行分区，然后重写最近插入、更新和删除所针对的分区。这在一定程度上减轻了最终用户的负担。但是，性能问题仍然存在，特别是如果表有大量的列，而分析只需要这些列的一个子集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5:使用分区合并变更集

解决方案，第 2 部分:使用列存储

上述解决方案可以通过使用像 Apache Parquet 或 Apache ORC 这样的列格式来改进。列格式通过更好的数据压缩和将 I/O 限制在分析所需的列上，显著提高了性能。然而，从各种语言和工具(如 Python、R 或 Tableau)中读取 Parquet 文件仍然具有挑战性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6:列存储有助于提高性能

解决方案，第 3 部分:使用 SQL 接口简化访问

为了进一步构建这个解决方案，许多工程师在原始拼花文件上添加了 SQL 接口(如 AWS Athena 、 Presto 或 Spark SQL )。这使得最终用户的数据访问更加简化，他们现在可以跨他们喜欢的编程语言和工具(如 Python、R 或 Tableau)发出 SQL 查询。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7: SQL 接口简化了对数据湖中数据的访问

解决方案，第 4 部分:使用 Delta Lake 增加功能

上述解决方案可以通过使用类似于 Delta Lake 的开源存储层来再次改进。Delta Lake 进一步改进了 Parquet 格式，增加了对 ACID(原子性、一致性、隔离性、持久性)事务的支持，支持流和批处理用例的 lambda 架构，以及访问上一次刷新日期/时间(时间旅行)的数据的能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 8: Delta Lake 增加了事务、同步批处理和流用例，以及时间旅行

问题解决了？

没那么快！上面的架构确实代表了一个可行的解决方案，许多企业为能够设计和实施这样的解决方案而沾沾自喜。公平地说，能够大规模实现这一目标是一项不小的成就。然而，这种架构仍然受到许多问题的困扰，有很大的改进空间。将 S3 顶部的三角洲湖作为数据湖平台的关键问题包括:

该架构没有解决变更集的创建问题，而创建变更集是非常具有挑战性的
实现和支持企业级的弹性提取、转换和加载(ETL)解决方案非常复杂
编写 Parquet 和 Delta 文件需要额外的计算和技术知识，以大规模配置和运行 Apache Spark 等集群计算平台
SQL 接口访问(通过 AWS Athena 、 Presto 或 Spark SQL 等技术)需要额外的计算基础设施，从而增加了解决方案的整体复杂性和成本
该解决方案的复杂性使得支持成本高昂
S3 提供有限的元数据和标记功能
在 S3 中集成对象的表级或行级安全性，特别是对于大型复杂的企业来说，可能相当具有挑战性
最后但同样重要的是，这种平台的性能远远落后于它要取代的数据仓库设备的性能

G 考虑到隐藏的计算和支持成本、安全集成和性能问题，S3 作为来自 RDBMS、频繁刷新的数据的数据平台与其每月 23 美元/TB 的承诺相去甚远。一旦我们将所有成本加起来，它就会开始攀升到每月每 TB 数千美元的范围内。对于这样的钱，有更好的选择。

云规模的托管分析数据库，如雪花、谷歌 BigQuery 或 Azure Synapse Analytics 提供了两个世界的最佳选择。通过将存储和计算分开，它们提供了可与 S3 相媲美的存储成本，以及一个托管数据平台，该平台抽象出了实施云规模分析解决方案的复杂性。它们提供了与 S3 的 Parquet/ORC/Delta Lake 相似的 TCO，具有 AWS Athena/Presto/Spark SQL 接口，同时拥有更好的性能、安全集成和模式支持。他们还降低了运营开销，同时将技术&人才风险转移给第三方供应商。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 9:托管分析数据库相对于“对象存储+ Delta Lake + SQL 接口”解决方案的优势

那么来源于 RDBMS 的大部分静态数据呢？

来源于 RDBMS 的大部分静态数据(即，它在几周或几个月内不会改变)不会像来源于 RDBMS 的频繁刷新的数据那样产生太多的 ETL 计算和支持开销。然而，我的建议是，对于此类使用情形，相比基于 S3 的 Parquet/ORC/Delta Lake 存储，更倾向于云规模的托管分析数据库，因为围绕元数据管理、安全集成和性能的所有挑战和成本仍然存在。

半结构化数据呢？

大多数进入企业的半结构化数据(通过 XML、JSON 和 CSV 之类的格式)都有一个相当稳定的模式，可以被吸收到关系表中。大企业中的大多数此类数据经常被分析数据库摄取，如 AWS Redshift 或通过基于 S3 的 Parquet/ORC/Delta Lake storage 的 SQL 接口访问，如 AWS Athena、Presto 或 Spark SQL。对于这种使用情形，我的建议是考虑将存储和计算分开的托管分析数据库。

TCO 应该是你的北极星

最后，应该根据总拥有成本(TCO)来判断解决方案，考虑它们带来的功能和解决方案中固有的风险。如果两个解决方案具有相似的 TCO，但其中一个提供了更好的功能，那么选择该解决方案应该是显而易见的。此外，应仔细考虑与内部开发的解决方案相关的技术和人才风险。一般来说，对于大型企业来说，在合理的情况下，将技术和人才风险转移给声誉良好的供应商产品更有意义。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 10:平衡 TCO、性能、特性和风险

那么什么时候对象存储作为数据湖平台有用呢？

对象存储(如 S3)仍然是其他用例的优秀数据平台，如半结构化和非结构化数据，这些数据不能或不应该(出于成本或效用原因)被吸收到云规模的分析数据库中。例如，将图像、音频文件、视频、电子邮件、PowerPoint 演示文稿、Word 文档或 pdf 导入托管分析数据库是没有意义的。此外，许多云计算规模的分布式数据库使用对象存储(如 S3)作为数据接收接口，有些甚至使用对象存储作为后台内部管理的存储平台。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表 1:建议

在未来的帖子中，我们将深入讨论为什么将存储和计算分开的云规模托管分析数据库(如雪花、谷歌 BigQuery 或 Azure Synapse Analytics )与专门构建的 CDC 工具(如 Qlik Replicate 、 Oracle GoldenGate 或 HVR CDC )更适合企业数据湖中以 RDBMS 为来源、频繁刷新的数据。

免责声明:这是个人博文。这里表达的观点代表我自己的观点，不代表我现在或以前的雇主的观点。所有内容仅用于教育目的，不保证适用性。

为什么异常检测并不总能保存不平衡的数据

原文：https://towardsdatascience.com/why-anomaly-detection-wont-save-your-imbalanced-data-becb9dd71915?source=collection_archive---------19-----------------------

快速了解异常检测的失败并讨论替代解决方案

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第 0 节:简介

当一个事件的两个或多个互斥结果出现的频率相差很大时，就会出现数据失衡。例如，如果你的营销活动只有 0.001%的转换率(让我们保存退出业务的另一天)，那么你的转换客户与非转换流量是 0.001%比 99.999%。这是有问题的，因为如果您需要预测哪个客户可能会转换，您的模型将会错误地将所有东西都归类为多数类。让我们来看看我的客户的数据:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如我们所见，数据严重失衡，有 60 万条“非采纳者”记录，而只有 816 行“采纳者”记录。

(TL；博士: 数据已经过清理，并应用了不同技术的特征工程/转换，如套索选择、丢弃稀疏特征、空值插补等。管理团队决定将指标作为 ROC。因为这不是我们在本文中的重点，所以让我们继续理解数据已经被清理，目标/指标已经被定义。)

第 1 部分:基线常规培训

有许多解决方案，并且已经探索了许多“主流”方法来试图解决不平衡问题。我所说的“主流”是指:

对多数类进行欠采样，使其更接近稀有类(1:1、1:2、1:3、1:5、1:7…使用聚类分层重采样)
用合成数据过采样稀有类( SMOTE ， ADASYN ，K-means SMOTE…你说吧！)
复制稀有类几次(在训练集上效果惊人，但严重过度)
训练时在模型中给予稀有类更多的权重

将训练和测试分割成 80:20 的比例后，我能得到的最好结果是应用 1vs1 类比例的欠采样来训练RandomForestClassifier()**，这意味着每类有大约 650 条记录用于训练，测试集中大约有 160 条 1 类和 120，000 条 0 类。**该模型产生了 69.9%的 ROC 得分:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第 2 部分:异常检测

上述模型的性能不是很好，它只对大约 1300 条记录进行训练，并用于预测 120，000 条记录。当我们将训练集中的类别 0 从 480，000 条记录减少到仅 650 条记录以匹配更小的类别时，丢失了许多信息。因此，我们对数据进行了异常检测。

根据定义，异常检测将大多数类别训练为“规则事件”，并将尝试将罕见事件识别为不规则模式。对我们来说，这听起来几乎是一个完美的解决方案，让我们来看看:

首先，为了避免“维数灾难，我应用了核主成分分析 (KPCA)来浓缩数据的特征，并使用一类 SVM 来训练我们的异常检测模型。根据定义，KPCA 相对于 PCA 的最大优势在于其将非线性可分数据投射到高维空间并使数据可分的能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AUC_ROC = 0.5

该模型在 ROC 评分上只有 50%，这只是对二元分类器的随机猜测。我尝试了用不同的超参数进行多次迭代，例如，你可以调整“nu”参数成为真正的异常比率，在我们的例子中，它是 0.1%。但是没有什么能让 ROC 分数提高几个百分点，但是为什么…？

让我们通过在 3D 图上用前 3 个组件可视化核心主要组件来看一看:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由作者创建

黄点是转换客户(稀有类)，蓝点是非转换流量(多数类)，黄点与蓝点完美地融合在一起，没有区别，现在我们很清楚**“稀有”并不总是意味着“异常”，它可能只是意味着数据量较小，**因此，SVM 不可能在类之间绘制超平面。

根据 Heiko Hoffmann 博士的说法，KPCA 和一流的 SVM 通常会产生非常有竞争力的表现。这不适用于我们的情况，因为上面的 3D 图显示了数据的不可分辨性。如果数据可以转换到一个线性可分的空间，结果应该是这样的:

左:原创；上:PCA 下:KPCA；来源:https://rpubs.com/sandipan/197468

为了证明我的结果，我还尝试了另外两种异常检测技术:隔离森林和本地异常因素。毫不奇怪，它们不起作用。虽然我对异常检测没有很好地工作感到有点失望，但我并没有就此止步——必须有更好的方法来处理不平衡的数据和信息丢失。

第三部分:平衡装袋分级机

我们在第 1 节中了解到，大多数数据点在训练中没有使用，在没有任何合成数据的情况下，0 类和 1 类的 1:1 比率效果最佳。这迫使我们仅使用来自每个类别的 650 个数据点来进行训练，并且由于仅从类别 0 中提取了 650/420，000 ≈ 0.155%的数据点，这导致了巨大的信息损失。

****我们可以通过集合多个平衡模型来解决这个问题，并且每个单独的模型取多数类的不同子样本。它的工作方式与随机森林非常相似，不同之处在于 Bagging 分类器中的每个单独模型都从多数类中选取不同的样本，因此它会根据尽可能多的数据点进行训练，以提供更好的“覆盖范围”。该算法可以用下图来解释:

由作者创建

让我们来写代码(你可以在我的 Github 上找到完整的项目代码):

****

平衡装袋模型 ROC 比随机森林覆盖面积大，精度不变，ROC 得分从 69.9%上升了 3.5% 到 73.4% ，回忆从 76.1%上升了 8.6% 到84.7%太神奇了！😀

第 4 节:结论和进一步措施

总结一下，到目前为止，我们已经讨论了异常检测、KPCA 可视化以及平衡打包。我希望这篇文章能帮助你对以下主题形成一些好的想法:

异常检测在概念上如何工作
为什么有时异常检测不起作用，以及如何用清晰的可视化表示来检查问题
异常检测不起作用时处理不平衡数据的强大替代技术

如果您的项目有足够的时间，还有一些其他重要的主题值得探索，也有一些限制值得注意:

当当前数据没有产生最佳结果时，产生更好结果的最佳方式总是引入质量更好的额外数据。一个好的模型可以让你提高 3%的准确率，但是一个质量更好、设计更好的数据集可以让你提高 30%——“垃圾进垃圾出”！
为您的套装模型调整超参数
均衡增压、叠加、混合等。
主成分最优个数的网格搜索
在线使用模型时，考虑时间成本以获得更好的可伸缩性

祝你黑客愉快！！💪🏻

[1] H. Hoffman，核主成分分析用于新颖性检测 (2006)，HeikoHoffmann

为什么反粒子必须存在于自然界

原文：https://towardsdatascience.com/why-antiparticles-must-exist-in-nature-e9b67ac8983f?source=collection_archive---------35-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由来自 Pixabay 的 Gerd Altmann 提供。

为什么量子力学和相对论的结合使得反粒子的存在不可避免

在下文中，我将论证(遵循费曼)反粒子在自然界存在需要两个条件:第一是粒子的能量永远是正的，第二是自然界遵守相对论原理。

时空图的鸟瞰图

为了全面掌握本文的结论，需要对时空图(或闵可夫斯基图 ) 的几何性质进行解释。时空图是时空中粒子运动的图形表示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:二维光锥(来源)。

为了更好地理解时空图中间隔的可能类型，最好只使用两个维度，一个时间维度(纵轴)和一个空间维度(横轴)，如图 2 所示。观察者在图上的轨迹被称为世界线。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2:2D·闵可夫斯基图是一种用一个空间维度和一个时间维度描述宇宙中发生的事件的图表(来源)。

在闵可夫斯基图中，速度是曲线斜率的倒数。一个光子以光速 v = c 运动，一条 45 度线描述它(为了方便我们选择 c=1)。一个观察者以介于零(一条垂直线代表一个静止的粒子)和光速之间的恒定中间速度移动，沿着一条具有中间斜率的线移动。其他类型的世界线的斜率不能小于 1，这将它们限制在图 2 中由两条 45 度线(形成一个楔形)限定的区域内。观察者不能进入楔形区之外的区域。如果在这个外部区域有两个相互影响的事件，它们之间的信息会比光更快，因果关系会被破坏，因为事件的顺序会根据参考系而改变。这将在后面更详细地讨论。

什么是反粒子？

自然界中的每一种粒子都有其关联的反粒子 **。**反粒子与其关联粒子质量相同，但电荷相反。最著名的例子就是带正电的正电子(或反电子)。正电子是带负电的电子的反粒子。大多数标准量子场论书籍都以同样的方式定义反粒子。在这里我将遵循兰卡斯特和布伦德尔的方法，这相当令人耳目一新。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3:观测到的第一个正电子(向上的曲线)。正电子进入左下方的小室，被铅平面(粗水平线)减速，被外加磁场弯曲，然后向左上方弯曲。(来源)。

费曼-斯图克伯格:粒子在时间中向后运动

在 20 世纪 40 年代，理查德·费曼和恩斯特·斯塔克尔伯格(独立地)引入了将具有负能量的状态视为时光倒流的粒子的想法。我们现在称这些状态为反粒子。例如，在电磁场中带电粒子的运动方程(EOM)中

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 1:如果在电磁场中带电粒子的 EOM 中，改变时间和电荷的符号，等式保持不变。

一个人改变了时间的符号，他马上就能看到，这与电荷反转具有相同的效果。这意味着一个在时间中向后运动的粒子看起来很像一个带着相反电荷在时间中向前运动的反粒子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4:正文中描述的等价性(来源)。

让我简单提一下所谓的 CPT 定理，一个所有物理现象都遵守的基本对称性。CPT 分别代表电荷 C、宇称 P、时间反转 t，根据这个定理，在电荷共轭、宇称变换、时间反转下，物理定律不变。在我们目前的情况下，我们可以忽略 P，专注于 CT。解释反粒子的另一种方式是说它是 CT 对称的。

量子力学中的微扰理论

让我们考虑一个处于某种初始状态的粒子 ψᵢ 。在量子力学中，跃迁振幅和粒子跃迁的概率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

方程式 2:从空间和时间的起点到终点的转变。

分别由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 3:等式 3 中的概率幅度和相应的转移概率。2.

其中 K 被称为传播器。对应于传播子的格林函数为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

方程 4:对应于方程中传播子的格林函数。3.θ函数将因果关系嵌入格林函数。

请注意，因果关系是通过θ函数内置到格林函数中的，如果θ函数的自变量为负(如果最终时间大于初始时间)，则θ函数为零。

如果系统是时间平移不变的，传播器仅依赖于时间差t—t’。自由格林函数 G ₀由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 5:位置空间中的自由格林函数 G₀。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5:粒子从 ψᵢ到ψᵢ，没有任何相互作用。

上图描述了以下返回转换:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 6:一个非相互作用的粒子进行跃迁的跃迁振幅 ψᵢ→ ψᵢ是 1(什么也没发生)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6:扰动序列(来源)。

一个粒子对另一个粒子的散射，用一个势 V ( x ，t )的相互作用来描述。在存在相互作用的情况下，跃迁振幅或格林函数不能精确计算。然后使用扰动展开(对小 a 电位 V 有效):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

方程 7:微扰展开式，对 V 小有效。

现在，函数格林函数 G₀可以表示为动量空间中的积分:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 8:自由格林函数 G₀表示为动量空间中的积分。

两个相互作用

现在假设粒子与电势v(x*，t* )在点 x ₁和 x ₂.相互作用两次为了简单起见，让我们用 x. 来表示坐标对( x ， t )，以找到初始状态 ψᵢ 返回到 ψᵢ 的幅度。在两次相互作用之后，让我们遵循费曼并写出粒子遵循的三个步骤，即:

首先，处于初始状态的粒子 ψᵢ 在 x ₁与 V 相互作用，进入中间状态 m ，能量 E ( m )。
然后粒子从x₁→x₂自由演化为时间(t₂ - t ₁).与此步骤相关的自由格林函数由等式给出。5 或 Eq。8.在该步骤中，所有可能的中间(或虚拟)状态 m 被求和。
在 x ₂与 V 的第二次相互作用将状态转换回初始状态 ψᵢ.

我们获得:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 9:从 ψᵢ → ψᵢ 返回的振幅在势中是二次的。中间状态已经结束。

情商。9 可以写成将中间态作为平面波(注意省略了一些常数):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 10:等式。9 使用平面波作为中间状态。

因素 a 和 b 读作:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 11:等式中使用的系数 a 和 b。10.

其中能量由等式给出。8.因此中间状态是动量 p 和能量 E ( p )的粒子(参见费曼)。下图说明了这一过程:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7:二次贡献跃迁振幅 ψᵢ → ψᵢ(基于 来源 )。

由于我们对粒子返回到其初始状态的概率感兴趣(在电势 V 中达到二阶),我们对等式给出的直接跃迁(没有任何 V s)的振幅求和。其中一个对应于等式给出的 V 散射。10，并将结果平方。概率(直到 V )变为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 12:回归概率展开到 v 中的二次项。

傅立叶变换的一个小插曲

一个函数f(τ)的傅立叶变换等于它分解成成分频率 ω (注意傅立叶变换不仅限于变量 t 和ω)。傅立叶变换输出一个复函数 ω 。它的模表示原函数 f ( τ )中各频率的量。逆傅立叶变换从其频域表示合成原函数 f ( τ )(参见维基百科)。数学上，傅立叶变换及其逆变换由下式给出:

等式 13:时频傅立叶变换及其逆的定义。

下图说明了从时间到频率的傅立叶变换。

图 8:单位脉冲函数(t 的一个函数)的傅立叶变换及其傅立叶变换( 源 )。

反粒子的必然性

为了证明反粒子的必然性，我们假设所有的能量都是正的(见费曼)。然后，我们将动量积分转换成方程式。12 由以下给出:

情商。14:方程 12 中的动量积分

对能量进行积分 ω=E ( p )并定义一个函数 F ( ω )使得 F ( ω )=0 对于 ω < m. 注意，T25x₁， x

图 9:函数 F( ω)。

情商。14 变成了:

等式 15:一个仅包含正频率的傅里叶分解函数。

跟随费曼，考虑以下定理。函数 f ( t )只能分解为正频率(如等式。15)，根据这个定理， f ( t )对于任何有限的时间范围t = t₂-t₁*不能为零，除非它对于所有次都相同地消失。*

现在让我们把这个定理应用于我们目前的情况。首先，固定空间坐标 x ₁和 x ₂并考虑 ω 的依赖型动量积分。

但是对于一个固定的 x 的₁来说，动量积分 Eq。当第二坐标 x ₂位于 x ₁.的光锥之外时，14 不能等于零我们的结论是。14 必须包括含有类空间隔的非零振幅(运动速度超过光速的粒子)。

图 10:具有类空间隔的光锥。

但是正如我们在引言中解释的，类空间隔具有依赖于帧的事件顺序。因此，在另一个参考系中，一些中间粒子被视为“在时间中“传播”的粒子(参见图 11)。现在，为了结束讨论，让我们给粒子加上一个电* 电荷。如上所述，根据费曼-斯图克伯格的解释，这些在时间上向后移动的中间(或虚)粒子相当于在时间上向前移动的反粒子！*****

图 11:光锥内外运动的必然性。

为了使论点更清楚，让我们详细研究图 11。假设我们换到一个新的(带撇的)参考系中，其中₂让我们看看会发生什么。在新的参考系中，直到 t = t ₂只有一个运动粒子 ψᵢ 。然而，在 t ₂，电势 V 产生了两个粒子，其中一个似乎在时光倒流。然后在 t ₁，原始粒子和向后运动的粒子相遇并消失。换句话说，两个粒子在新的参考系中相互湮灭。

图 12:显示两个配对生产事件的气泡室图像。在顶部，看不见的伽马射线产生了 e⁻ e⁺对(由磁场引起的螺旋轨迹)。第二个 e⁻e⁺对，在底部，使用伽马射线的所有能量(源)。

因此我们得出结论，这两个条件(能量正性和相对性)意味着粒子对可以被创造和湮灭！

我的 Github 和个人网站 www.marcotavora.me 有一些其他有趣的材料，既有关于物理的，也有关于数学、数据科学和金融等其他主题的。看看他们！

为什么 Apache Airflow 是管理数据管道的最佳选择

原文：https://towardsdatascience.com/why-apache-airflow-is-a-great-choice-for-managing-data-pipelines-48effcce3e41?source=collection_archive---------8-----------------------

一瞥使气流比它的前辈更好的能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Unsplash 上由 Seika I 拍摄的照片

Apache Airflow 是一个开源调度程序，用来管理你的日常工作。这是一个很好的工具，可以组织、执行和监控您的工作流，使它们无缝地工作。

阿帕奇气流解决了很多前人面临的问题。让我们先了解一下架构，然后我们来看看是什么让气流更好。

熟练的技艺

Dag(有向无环图)表示气流中的工作流程。DAG 中的每个节点代表一个需要运行的任务。用户提及特定 DAG 需要运行的频率。用户还可以为 DAG 中的每个任务指定触发规则。例如，您可能希望在之前的某个任务失败后立即触发警报任务。

让我们试着理解气流的各种成分。

核心组件

气流主要由以下部件组成-

调度程序
网络服务器
执行者
后端

调度程序

它负责根据提到的频率安排您的任务。它会查找所有符合条件的 Dag，然后将它们放入队列中。如果 DAG 出现故障并且启用了重试，则计划程序会自动让该 DAG 重试。可以在 DAG 级别限制重试次数。

网络服务器

网络服务器是气流的前端。用户可以从用户界面启用/禁用、重试和查看 DAG 日志。用户还可以在 DAG 中深入查看哪些任务失败了，失败的原因是什么，任务运行了多长时间，以及任务上次重试的时间。

这个 UI 让 Airflow 优于竞争对手。例如，在 Apache Oozie 中，查看非 MR (map-reduce)作业的日志是一件痛苦的事情。

执行者

它负责实际运行一个任务。执行器控制哪个工作线程运行一个任务，并行运行多少个任务，并随着任务的进展更新任务的状态。

您可以在由 Celery 或 Dask 或 Kubernetes 管理的多个工人上运行您的任务。

这些任务是从队列中提取的，队列可以是 Redis 或 RabbitMQ。

默认情况下，Airflow 使用 SerialExecutor，它在本地机器上一次只运行一个任务。不建议在生产中这样做。

后端

Airflow 使用 MySQL 或 PostgreSQL 来存储配置以及所有 DAG 和任务运行的状态。默认情况下，Airflow 默认使用 SQLite 作为后端，因此不需要外部设置。不建议将 SQLite 后端用于生产，因为可能会丢失数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

气流部件

那么，是什么让气流成为数据管道的合适调度器呢？

监视

气流提供了多种监测方法。您可以从 UI 中看到任务的状态。它会在 DAG 失败时发送一封邮件。如果任务违反了定义的 SLA，您也可以发送电子邮件。还可以从 Airflow UI 本身查看任务的日志。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

气流 DAG UI

血统

这项功能是最近在 Airflow v1.10 版中推出的。Lineage 允许您跟踪数据的来源、数据的变化以及数据随时间的移动位置，如 Hive 表或 S3/HDFS 分区。

当你在存储器中读写多个数据任务时，这非常方便。用户需要为每个任务定义输入和输出数据源，并在 Apache Atlas 中创建一个图表，描述各种数据源之间的关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Apache Atlas 实例图示例(来自https://atlas.apache.org/#/QuickStart))

传感器

传感器允许用户基于特定的先决条件触发任务。用户需要指定传感器的类型和检查条件的频率。例如，当特定分区(如日期)可用时，您可以使用 HDFS 分区传感器来触发任务。

用户化

Airflow 还允许用户创建自己的操作员和传感器，以防现有的丰富生态系统不能满足您的要求。我写了一个 SparkOperator，因为官方不允许我调整所有参数。所有代码都是用 Python 写的，这使得任何开发者都可以轻松集成。

除了上面提到的所有好处，Airflow 还可以与 Hadoop、Spark 等大数据生态系统中的所有服务无缝集成。由于所有代码都是用 Python 编写的，开始使用 Airflow 只需要几分钟。可以看看官方快速入门指南。

您还可以探索 https://databand.ai/的更强大的设置，以监控由 Apache 气流驱动的数据管道。

[## 数据带-数据管道可观察性| Dag 和 ML 的可观察性

从数据源到机器学习模型，全面了解您的数据管道。请求演示跟踪所有管道…

databand.ai](https://databand.ai/)

为什么德国和意大利的新冠肺炎统计数据如此不同？

原文：https://towardsdatascience.com/why-are-covid-19-statistics-so-different-for-germany-and-italy-ee5bf376f461?source=collection_archive---------4-----------------------

德国似乎是新冠肺炎的一个例外，因为德国的感染率相对较高，但病死率极低(0.4%)，尤其是与意大利(9.5%)相比。

前言:

我在周末写了这篇文章的第一稿，因为我对这两个国家的数据似乎存在差异感到非常惊讶，并希望更好地了解是什么导致了这种差异。在完成这篇文章后，我不确定我是否应该发表它，因为我不喜欢意大利和德国非常相似但时移发展的可怕结论。所以我在周一和周二更新了数据，只是想看看情况是否有显著变化。他们没有。

我的分析表明，意大利领先德国 7 到 19 天。我认为实际数字更接近范围的高端。这一假设很大程度上基于实施的检测与报告病例的比率(德国每例 13.1 次检测；意大利为 3.9)以及人口年龄组差别不大的事实。

我的分析还表明，由于可能有许多未被发现的病例，意大利大大高估了其病死率。

第一章。当前事实

当前感染
当前死亡人数
当前病死率

当前感染:

2020 年 3 月 24 日:

让我们先来看看两国的感染人数。在撰写本文时，报告的感染人数如下(基于来自约翰·霍普斯金大学的数据):

**义大利:**63927
德国:29056 人

随时间发展(2020 年 2 月 24 日—2020 年 3 月 24 日):

现在让我们来看看这两个国家的发展情况。我们可以看到，随着时间的推移，这两个国家的感染人数显著增加，这一点大家都很清楚。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**来源:**自己可视化。来自约翰·霍普斯金大学的数据截至 2020 年 3 月 24 日

当前死亡人数:

2020 年 3 月 24 日:

在写这篇文章的时候，以下人数被报道死于该病毒(基于来自约翰·霍普斯金大学的数据)

**意:**6077
德国:123 票

随时间发展(2020 年 3 月 1 日-2020 年 3 月 24 日):

与感染相比，新冠肺炎首例死亡病例的出现有一定的滞后性，这也是我们关注 3 月 1 日以来数据的原因。意大利已经有数千人死亡，而德国的死亡人数在下面的图表中几乎不存在。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**来源:**自己的可视化。数据来自约翰·霍普斯金大学截至 2020 年 3 月 24 日。与意大利相比，德国的死亡人数确实显得微不足道。

当前病死率(CFR):

为了计算病死率，我们用报告的死亡人数除以报告的感染人数。然而，我们应该意识到有两种偏见在起作用:

未解决的病例:很不幸，一小部分目前被感染的人将会死亡。未解决病例的存在导致低估 CFR 。
**未确诊病例:**几乎可以保证很多感染病例没有上报。因此，可能大大高估了 CFR 。虽然未检测到的病例数量因国家而异，但一项研究表明 86%的病例可能未被检测到。

让我们来看看计算出的病死率:

**意大利:**6077/63.927 ~ 9.5%
德国:123 / 29.056 ~0.4%

第二章。假设

看着这些数字，我大吃一惊。它们对我来说没有任何意义。我开始研究并发现了几个我想研究的领域:

假设 1: 意大利，平均来说，比德国要古老得多。
假设 2: 在这两个国家中，考试的数量不成比例。
**假设三:**意大利领先曲线，或者换句话说，德国落后。

意大利比德国历史更悠久

人们经常引用意大利是世界上第二老的人口。老年人口肯定可以解释这两个国家不同年龄组病例分布的差异。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**来源:**自己可视化。数据基于RKI-报告、RKI-仪表板(德国)和ISS-报告(意大利)。意大利的病例是在 10 年队列中报道的。然而，由于德国人更为集中，我把他们作为 x 轴。为了改变意大利人的群体，我假设了一个线性分布。这意味着意大利 30-39 组报告病例的一半被分配到 15-34 组，另一半被分配到 35-59 组。

研究这个说法的时候我惊呆了。德国的中位年龄(45.9)与 2015 年的意大利(45.9)一样高，2018 年更高(德国:47.1 /意大利:45.5)，现在更高(德国:47.8 /意大利:46.5)——基于当前中情局的《世界实况报道》。

所以，也许年龄群组分布不同？我从经济合作与发展组织的统计数据页面中提取数据，并比较了这些群体，发现他们非常相似。意大利确实有一条稍微偏右的长尾巴。即“35-59 岁”人群比“15-34 岁”人群多 2%左右。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**来源:**自己的可视化。数据来自。

进一步的研究当然可以花在这两个国家的社会动态方面，例如，年轻的成年人多久去看望他们的父母或者甚至和他们住在一起。然而，虽然我认为它可以解释一些差异，但它不能说明一切。

管理的测试数量不成比例

据说德国的考试率非常高。毫无疑问，德国分散的技术先进的实验室(见视频 : 2:26)有助于德国的测试能力。然而，意大利也不是没有测试过。他们已经做了很多。

来自的和的的考试数据。对德国来说，最近一次“官方”测试是在 3 月 15 日。然而，也有人说每周有 160，000 次测试的能力，这使我们看到了绿色条。

虽然管理的测试的绝对数量很有趣，但我认为将每个检测到的案例管理的测试的数量作为测试强度的代理也是有意义的。对于 3 月 22 日，该比率大致如下:****

意大利:232，222 例(总检测数)/ 59，138 例(检出病例)~ 3.9 例
德国:327，000(总检测数)/ 24，873(检出病例)~ 13.1

由于测试的周转时间，这里可能有一些不准确，但总的来说，数字似乎证实了德国的测试比意大利更广泛。这使得我们有理由假设德国抓住了更多的轻微病例，而意大利可能偏向于已经表现出严重症状的更严重的病例。这一假设符合声明(3 月 10 日)的说法，即意大利只是在测试危急病例。换句话说，意大利的未确诊病例数可能远高于德国。如前所述，更多的未识别病例将高估病死率。

意大利走在了潮流的前面

虽然我认为前面的两个论点提供了一些关于严重不同的病死率的解释，但我认为现实要简单得多。

人类思维很难理解指数增长，这就是为什么有人可能会认为早期关于感染和死亡的图表看起来不太相似。

然而，如果我们从另一个有利的角度来看，我们将两国的第 0 天重新设定为不同的一天，那么发展看起来惊人地相似。

意大利在传染病方面走在了前面

让我们看一张图表，比较德国从 2020 年 3 月 1 日开始与意大利从 2020 年 2 月 23 日开始的累积感染情况。

****来源:自己的可视化。数据来自约翰·霍普斯金大学截至 2020 年 3 月 24 日

这些结果意味着，如果我们将意大利一周前(七天)的感染数据与德国的数据进行比较，模式看起来非常相似。

意大利走在了这条曲线的前面——死亡

现在让我们比较一下德国从 2020 年 3 月 9 日开始与意大利从 2020 年 2 月 20 日开始在累积死亡方面的发展。

****来源:自己的可视化。数据来自约翰·霍普斯金大学截至 2020 年 3 月 24 日

这意味着，如果我们将 19 天前意大利的死亡人数与德国的数据进行比较，模式看起来又非常相似。好消息是，最近德国曲线似乎有些变平。

结论:

1)意大利走在了潮流的前面

在我看来，意大利在比较累计死亡人数时领先 19 天，在比较感染人数时领先 7 天。我认为，鉴于在德国进行的更广泛的测试，死亡和感染的滞后不同这一事实是完全合理的(即，意大利的真实感染人数可能要高得多，因此我们必须追溯到更早的时间，以找到匹配的时期)。

因此，根据死亡人数对不同时期进行比较更有说服力，也可能更能反映现实。虽然在多重先决条件的情况下，尸检和死因归属可能会有一些差异，但我确实认为，即使考虑到这些差异，我们也不会看到非常不同的情况。

我只是希望，作为一个国家，我们可以很好地利用这个开端，并以某种方式避免最糟糕的事情发生。

2)意大利高估了他们的 CFR

对我来说，从分析中可以明显看出，意大利有许多轻微的病例过去没有、现在仍然没有被注意到和检测到。因此，在计算病死率时，它们没有记录在准确的分母中。准确的病死率将会大大降低。

如果你想知道新冠肺炎教是如何在德国传播的，看看这个图片吧:

** [## 德国新冠肺炎发展的交互式可视化

在这一点上，德国对新冠肺炎在地区层面上的发展没有很好的形象化，所以我决定…

towardsdatascience.com](/an-interactive-visualization-of-the-covid-19-development-in-germany-2b87e50a5b3e)**

数据:

** [## 德国/意大利比较

可比数据感染，百分比德国，意大利，德国，意大利 0-4，128，158，0-4，0.7%，0.3%…

docs.google.com](https://docs.google.com/spreadsheets/d/1ywbNPQXCLhU6S6xJOHZXgdwhOZc_qfBVR2z-Zn-ARk4/edit?usp=sharing) [## fbo sler/covid 19-德国-意大利-对比

回购以创建介质商品的数据。为 fbo sler/covid 19-德国-意大利-比较开发做出贡献，由…

github.com](https://github.com/FBosler/covid19-germany-italy-comparison)**

为什么眼球运动如此有趣？

原文：https://towardsdatascience.com/why-are-eye-movements-so-damned-interesting-76bf293a7bde?source=collection_archive---------38-----------------------

“扫视”是 2000 年来让科学家和哲学家着迷的古怪行为。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 1:**Reuter ophtrope，一种 19 世纪的模型，用于研究响应肌肉动作的眼球运动。克里斯蒂安·乔治·西奥多·鲁埃特，公共领域，通过维基共享

我在研究生院的第一次实习是在劳伦斯·斯塔克博士的眼球运动研究实验室。我的父亲(一个真正的医生)来访，我很兴奋地展示了实验室。他似乎被满墙的老花眼杂志迷住了。但在长时间的专注之后，他说:“老花眼？你变老了；你需要老花镜。还有什么好说的？”我发现很难不同意这一点，所以我努力解释为什么我发现眼球运动如此有趣。

然而，对眼球运动的研究在整个科学史上发挥了关键作用，并且不可避免地与视觉和知觉的研究交织在一起，成为心理学、神经科学和控制论等新兴领域的熔炉。几千年来，眼球运动吸引了一些最伟大的人物，包括亚里斯多德、托勒密、盖伦、阿尔哈曾、达芬奇、培根、笛卡尔、亥姆霍兹和谢灵顿。

也许最有影响力的古人是佩格蒙的盖伦(公元 129-200 年)。他是古代最多产的作家之一，他现存的作品超过 100 万字。(他也是罗马皇帝马可·奥勒留、路奇乌斯·维鲁斯、康茂德、塞普蒂米乌斯·塞维鲁和卡拉卡拉的私人医生。)盖伦使我们第一次详细了解了肌肉收缩。他认识到肌肉以激动剂/拮抗剂对的方式工作，并推测它们是由流经神经的“动物精神”驱动的。他解剖了恒河猴，详细描述了六块眼外肌的组织和结构，甚至还进行了矫正斜视和白内障的手术。对于公元 200 年来说还不错。

在接下来一千年的大部分时间里，数学和科学的大部分进步都可以归功于“伊斯兰黄金时代”。阿拉伯数学家ḥasan·伊本·阿尔海萨姆(拉丁化阿尔哈曾)扩展了亚里斯多德、托勒密和盖伦的思想，并且是第一个将这些理论应用于假设检验的“科学方法”的人。在接下来的一千年里，他的贡献领先或预见了许多发展。他推断，视觉是光线照射到视网膜上的结果，而不是从眼睛发出的。他计算了空间中存在的一个表面，即单眼视觉(两只眼睛看到相同的图像)。阿尔哈曾(以及托勒密)也指出，眼球运动要么是共轭的(相同)，要么是分离的(相反)。在 19 世纪，这一现象被正式确立为“海林定律”，并继续成为神经科学和心理学研究和争论的重要话题。(稍后将详细介绍这一点。参见图 5。)

阿尔哈曾受埃及哈里发的委托，治理阿斯旺的尼罗河洪水。但他的计划被证明是行不通的，他被哈里发 Al-Hakin bi-Amr 阿拉逮捕。在软禁期间，阿尔哈曾写下了他的七卷本《光学之书》。这被广泛认为建立了光学作为第一个现代科学学科，阿尔哈曾经常被称为“光学之父”他的著作在 200 年后首次被翻译成拉丁文，并在 1571 年出版后对文艺复兴时期的科学家产生了广泛的影响。

西方科学最重大的进步是意大利(大约 1280 年)发明了矫正眼镜，但眼球运动在文艺复兴时期重新受到关注。列奥纳多·达·芬奇创造了数百个眼睛和大脑的解剖研究(使用牛，因为人体解剖是被禁止的)。他是第一个发现视神经穿过大脑半球的人(图 2)。约翰尼斯·开普勒在视网膜图像方面的工作扩展了阿尔哈曾的想法。就连弗朗西斯·培根也对眼球运动有所评论，尽管不可否认，这不是他最好的作品:

眼睛以同样的方式移动；因为当一只眼睛移到鼻孔时，另一只眼睛就从鼻孔移开。原因是同意的运动，在精神和部分精神是强大的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2: 在没有人体解剖的情况下，莱昂纳多·达·芬奇绘制了详细的图画，描绘了眼睛、心室系统和神经的结构和功能(大约在 1508 年)。注意，他正确地识别了视神经穿过大脑半球的视交叉。图片来源:皇家收藏信托女王伊丽莎白二世陛下 2019。

眼睛和科学革命

对于历史爱好者来说，勒内·笛卡尔对这一领域产生最持久的影响可能不足为奇。通过他对视网膜光学、反射弧和眼球运动力学的开创性研究，他提供了第一个完整的神经生物学观点。笛卡尔物理学是不折不扣的机械论，将企业置于一个可测试的科学基础上，并引领了跨越生物学几个分支的科学革命。

例如，他的眼部肌肉手术的“气球理论”(1664 年)，开启了一项长达 300 年的探索，以揭示肌肉收缩的机制。笛卡尔提出肌肉由来自中央储库(脑室[图 3])的液压流体提供动力。他的理论昙花一现，在 1667 年被 Jan Swammerdam 推翻，他证明肌肉收缩时体积不变。(从这一点开始，对典型肌肉的研究过渡到了更方便的蛙腿。)加尔瓦尼(1791 年)证明了电可以引发肌肉收缩，从而产生了电动理论(并激发了玛丽·雪莱的弗兰肯斯坦 ) 中的动画。蛋白质折叠和弹簧理论统治了这个领域 100 年。现代的滑动灯丝理论是由安德鲁·huxley⁴.在 1954-1969 年提出的顺便提一下，安德鲁·赫胥黎获得了诺贝尔生理学和医学奖，但不是因为他在肌肉方面的工作。他和艾伦·霍奇金在 1952 年开发了神经动作电位传播的数学模型。他同父异母的哥哥阿尔多斯·赫胥黎写了《美丽新世界》。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 3:勒内·笛卡尔的肌肉收缩气动理论。**勒内·笛卡尔的‘气球(液压)肌论’1664 年。笛卡尔假设大脑中的脑室是液体的储存库。图片:维基共享

为什么要眼球运动？

眼球运动的科学吸引力是什么？除了我们对视觉的自然迷恋，动眼系统作为一个研究系统拥有三个独特的优势。

首先，与科学中的几乎所有其他事物不同，眼球运动的目标或目的是显而易见的。它们受到有意识和无意识的控制，允许对反射、意志控制以及心理过程进行研究。

第二，动眼系统几乎是可以想象的最简单的机械系统。人的眼球几乎是球形的，眼睛不与环境进行物理交互(它不需要举起任何东西)。这大大简化了用于模拟其操作的动力学方程。眼睛由 6 块眼外肌共同控制。在很大程度上，水平眼球运动是由一对肌肉(内侧和外侧直肌)驱动的。垂直运动和回旋运动只是稍微复杂一些。例如，上斜肌使用由腱环形成的滑轮，滑车(图 4A)，有效地平衡肌肉力量，同时反转其方向。另一个有趣的花絮:猫头鹰和鹰拥有完整的 6 块眼外肌，尽管事实上它们几乎不能移动它们奇怪形状的眼睛(图 4B)。猫头鹰的头部运动类似于哺乳动物的眼睛运动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 4:眼部肌肉的解剖。a .**6 块眼肌 b .猫头鹰只能在眼窝内移动眼睛 2 度左右。图鸣谢:(A) MBBS:爱学习【https://lovetostudymbbs.wordpress.com/(B)马丁，G.R. (2017)。是什么驱动了鸟类的视觉？票据控制和掠食者探测使飞行黯然失色。神经科学前沿 11 : 619

第三，只有少数几种不同的类型的眼球运动:

1.迅速扫视:眼睛的快速“跳动”,以改变眼睛在空间中的位置，就像阅读时一样。"扫视"是法语中"混蛋"的意思。人类婴儿会迅速扫视，但不会跟踪运动。

2.追踪运动(平滑追踪、视动、全场追踪):追踪眼球运动的缺陷是精神分裂症**、**自闭症和其他疾病的证据。

3.聚散:双眼同时向相反方向运动，以保持双眼视觉。聚散的一个极端例子是“斗鸡眼”

4.前庭眼反射:当头部转动时，眼睛反向转动以稳定凝视。三个前庭半圆管检测角加速度，充当生物陀螺仪。VOR 的紊乱会导致晕动病和眩晕。

…以及眼球运动:

5.调节:通过重塑镜片来改变焦距。

6.瞳孔:缩小瞳孔以降低光线强度。头部外伤会导致不对称的瞳孔反应。

正如我们将看到的，这 6 个运动由独立的控制系统驱动，但在功能上是集成的。简单的眼球运动动力学允许集中、渐进的研究，经常导致远远领先于生理学和神经生物学其他领域的突破。

眼球运动的规律

眼睛运动本质上是二维的，但是眼睛可以以三个自由度运动(水平、垂直和旋转)。眼部肌肉本身的解剖结构很难阻止眼睛做出一些非常怪异的事情(想想变色龙)。这一观察导致了一系列的研究来理解为什么他们不。在 19 世纪，将观察结果之间的几乎任何关系都视为自然“法则”是一种时尚因此，这个时代见证了几个“眼球运动定律”的发现，逐渐形成了一种理解，即支配眼球运动的是神经生物控制，而不是机械约束。

东德尔定律(弗朗西斯库斯·科尼利厄斯·东德尔斯 1818-89)

如果眼睛运动是围绕轴的简单旋转，45 度倾斜的眼睛运动将与眼睛/视网膜旋转 10 度的相同位置的两次运动(水平，然后垂直)非常不同。唐德定律指出，对于任何一个凝视方向，眼睛的 3D 空间方位是唯一的，并且与眼睛如何到达该凝视方向无关。

上市定律(约翰·贝纳蒂克·利斯廷 1808–1882)

Listing 定律指出，通过从一个特定的“主要”参考方位开始，然后绕着位于与主要方位的凝视方向正交的平面内的轴旋转，可以达到所有实现的眼睛方位。换句话说，唐德定律告诉我们，眼睛的最终方向独立于眼球运动的路径，而列名定律告诉我们那个方向是什么。

为了将这些规律可视化，科学家们建立了复杂的物理模型来研究眼睛的旋转和眼肌的活动。第一台这样的设备的发明者克里斯蒂安·乔治·西奥多·鲁埃特称之为“眼底镜”(图 1)。唐德定律和李林定律都可以在这个模型上得到证明。肌肉收缩或伸展的程度在模型后面的标尺上测量。其他版本使用悬吊重物来制造肌肉张力。

赫尔曼·赫尔姆霍茨(1821-1894)

该领域的一个统一人物是博学的赫尔曼·赫尔姆霍茨。今天，他可能因为对电磁学、亥姆霍兹波 equation⁶和流体力学中的亥姆霍兹定理的研究而更加出名，但是他对生理光学和眼科学的全面研究可能有更大的 impact⁷.

Helmholtz 通过实验证实了 Listing 定律，将不同眼睛位置的视觉后像与 Listing 的预测进行了比较。他发明了检眼镜，医生用来检查你眼睛的熟悉设备。他也是第一个测量神经信号速度的人(在当时，神经信号被认为是瞬时的，就像电一样)。

他的学生可能更有名，包括海因里希·赫兹和诺贝尔奖获得者阿尔伯特·迈克耳孙和马克斯·普兰克。他的另一个学生是威廉·马西米兰·冯特(1832-1920)。在实验室工作期间，冯特发展了他在实验方法方面的技能，并开发了一种先进的眼底镜设计。他确立了自己作为极具影响力的神经生理学家的地位。冯特是第一个自称为“心理学家”的人，也经常被称为“实验心理学之父”。反过来，冯特在其职业生涯中培养了多达 170 名博士生，在智力上开拓了两个领域——神经科学和心理学。

赫林定律(卡尔·埃瓦尔德·康斯坦丁·赫林 1834–1918)

赫林的等神经支配定律指出，两只眼睛的眼球运动总是相等的，但方向不同。在共轭眼球运动(迅速扫视和平滑追踪)中，眼球同等地一起运动。对于分离运动(如聚散)，神经支配是相等的，但相反。这意味着什么是违反直觉的，但很容易证明。考虑将双眼重新注视新目标的任务(图 5)。最简单的解决方案是独立地改变眼睛的位置。但是，眼睛根据赫林定律移动，两只眼睛移动到新的视觉方向，然后在相反的方向(聚散度)重新建立双眼视觉。这是托勒密观察的形式化，阿尔哈曾进一步证明了眼球运动受到某种神经控制逻辑的限制。也许令人惊讶的是，在快速眼动睡眠期间，海林定律被违反了，在大多数时间里，个体的眼球运动或多或少是相互独立的。这与梦通过眼球运动来想象场景的观点相矛盾，“除非每只眼睛都在体验不同的 dream⁸"(Fig.”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5: 描绘了在眼睛独立运动或眼睛遵循赫林的均等神经支配定律的情况下，重新激发穆勒刺激的预测。维基共享 E4zase1vrvlo6pe (2016)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 6:睡眠期间快速眼动(REM)不协调——违反了赫林定律。鸣谢:周伟民、金伟民(1997)。快速眼动睡眠期间双眼眼球运动不协调。Exp Brain Res1997117(1)😗*153–60。

和许多伟大的科学家一样，海林和亥姆霍兹既是同事又是对手。亥姆霍兹认为海林定律是习得行为；赫林认为这是本能，或者说是“天生的”每个人都独立地推导出双眼单视界，即在两个视网膜上具有相同解剖差异的空间点的轨迹，或单一视觉的点(首先由阿尔哈曾描述)。赫林发展了视觉超敏锐理论，展示了一组光感受器的分辨率如何超过单个感受器的大小。他还提出了色觉的“对手理论”(亥姆霍兹提倡托马斯·杨和詹姆斯·克拉克·麦克斯韦的替代、三色受体理论)。

谢灵顿定律(查理斯·斯科特·谢灵顿 1857–1952)

19 世纪的最后一个定律是谢灵顿的相互神经支配定律，其中对抗肌的动作伴随着对抗肌的相互放松。这实质上是在现代神经生物学的背景下重申笛卡尔的气球理论。他还引入了本体感觉这个术语，来描述动觉第六感(“肌肉感觉”)，从而发现了检测肌肉拉伸、张力和速度的感觉神经元，如高尔基腱器官和肌梭。谢灵顿因为在神经元功能、突触通讯和反射方面的工作获得了诺贝尔奖。

20 世纪早期:理论生物学的突破

20 世纪中期，随着生理学的两项最高成就，更多的难题迎刃而解:(1)神经传导的霍奇金-赫胥黎模型(除其他外，该模型解释了控制由亥姆霍兹测量的神经信号速度的生物化学过程)和(2)肌肉收缩的赫胥黎滑动细丝模型，该模型也解释了肌肉的力-速度和长度-张力关系。电生理记录技术的发展使得研究人员能够测量单个神经元产生的信号。

与此同时，麦卡洛克和皮茨 1943 年的论文展示了神经元网络如何像计算机一样执行逻辑和数学运算。1949 年，唐纳德·赫布(Donald Hebb)提出了突触修改的第一条规则，展示了简单的过程如何能够负责根据经验重新连接网络——从而开创了计算生物学和神经网络的新领域。

控制论

电生理学与所有组件(机械设备、肌肉和神经元)的模型相结合，提供了在“系统”水平上研究神经肌肉控制的独特机会。这使得研究人员能够更深入地研究神经回路，以了解眼球运动命令在大脑中是如何规划、协调和执行的。

1948 年，诺伯特·韦纳将这个新兴领域定义为控制论，即“动物和机器中控制和交流的科学研究”。他的见解是，为分析信号和控制系统(在电气和机械工程中)而开发的大量分析方法可以用来理解神经生物控制。

控制论中最重要的成果之一正是我的顾问拉里·斯塔克的工作。当然，这项工作与眼球运动有关。他通过应用频率分析和控制 theory⁹ ⁰.诱发振荡，测量了瞳孔反射中神经反馈的时间延迟了解延迟的持续时间和神经信号的速度有助于确定电路的位置。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7:快速扫视和平滑追踪运动的结合。平滑的追踪系统反应大约快 50 毫秒。猴子的扫视和平滑追踪眼球运动。 J. Physiol 。 191 ，第 609–631 页

由于四种眼外眼运动的每一种都有不同的潜伏期，表明不同的上游神经处理和独立的控制系统(VOR 50-100 毫秒，平滑追踪 100-130 毫秒，聚散度 160-180 毫秒，迅速扫视 200 毫秒)，因此还需要更多的研究。事实上，赫林定律暗示了这一点。例如，当眼睛开始跟踪一个目标时，平滑跟踪系统首先开始跟踪方向和速度，随后是矫正性(“追赶”)迅速扫视，以聚焦在目标上(图 7)。

同时代的人(特别是约翰·霍普金斯大学的大卫·罗宾逊)开始将电生理学与控制理论结合起来，研究参与计划和执行眼球运动的单个神经元。这使得控制系统的定量的、可测试的电路图的创建成为可能，这些控制系统涉及产生迅速扫视、平滑追踪、VOR 和聚散度眼球运动。

罗宾逊关于扫视反馈控制的里程碑式的工作是在猕猴身上完成的——与盖伦解剖的猕猴是同一物种。他创造的另一个模型(图 7)是一个综合平滑追踪和 VOR 控制的可能模型，尽管它绝不是唯一的。这些模型表明，眼睛运动是由反馈控制系统驱动的，其中运动神经元被驱动以最小化目标速度或位置与实际速度或位置之间的误差。要么这是使用控制理论研究眼睛的一个愉快的意外，要么是大自然效率的证明。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 8:集成了 VOR 和平滑追踪系统的系统模型。鸣谢:罗宾逊，D.A. (1981)。控制系统分析在眼球运动神经生理学中的应用。安。修订版神经科学4:463–503

在我的实验室轮岗几年后，我与另一位电子工程教授(也是罗宾逊的同事)爱德华·凯勒一起工作，他正在研究涉及迅速扫视的规划和执行的猴子脑干神经元的群体行为。大脑的一个区域，即上丘，保持着一个不是视觉差异或几何位置的空间图，而是眼睛位置和感兴趣的目标之间的误差信号的空间图(图 9)。这里，与运动神经元不同，决定眼球运动幅度的是神经活动的位置，而不是其强度。下游的传出通路将这个空间信号转换成运动神经元所需的时间控制信号。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 9:15 度角时上丘 2 层中的二维群体活动。斜向扫视。SC 在对数空间图中编码迅速扫视的幅度和方向。每个部分都显示了在丘运动图上的分布活动。顶部:突发神经元层中表现为恒定轮廓曲线的活动。底部:同样表示构建的神经元层。左:扫视开始前 100 毫秒。中间:迅速扫视开始时的活动分布。右侧:扫视结束。鸣谢:安德森，R.W .，凯勒，E.L .，甘地，新泽西州&达斯，S. (1998)。猴子上丘二维扫视相关群体活动。神经生理学杂志，80:798–817

对较低脑干活动的电极记录似乎表明，眼球运动是在受试者意识到之前进行的，这激起了关于自由意志的辩论。一个更令人欣慰的解释是，大脑不断参与运动控制的应急计划。

那又怎样？

许多遗传、医学和心理疾病可以通过眼球运动的异常来诊断⁴.在我的母校，眼球运动是一年级验光学生的必修课，因为他们有可能诊断未知的医疗状况，如中风或脑肿瘤。因为大多数人从来不去看神经科医生，所以早期发现的唯一机会是去找验光师。简单的眼球运动测试也是普通体检的一部分。

psilocybin 的使用有效地降低了位置反馈系统的“增益”,因此受试者在观看场景时将只移动 20%的眼睛。60%的精神分裂症患者表现出不自主的眼球震颤，即眼睛的快速来回抽动。随着大量饮酒，平稳的追踪系统开始失效，眼睛会以不稳定的眼球运动进行追踪(正如标准的现场清醒测试所揭示的)。在最初的 4-5 个月，婴儿不能产生跟踪运动。

你自己试试吧，下次家里有新成员的时候。通过测试宝宝的眼球运动来逗乐你的朋友或打扰公婆。在最初的六个月里，你能引起的只是扫视性的眼球运动。但是，与清醒的婴儿相比，无论你给婴儿喝多少酒，他仍可能通过现场清醒测试。

你还觉得眼球运动没意思吗？

我放弃了。你就像我爸爸一样。

=结束=

罗素·安德森 在媒介上发表了几部科学伪史。他拥有加州大学电子工程学士学位和生物工程博士学位。他的教授中至少有 5 人研究过眼球运动(劳伦斯·斯塔克、埃德·凯勒、史蒂夫·雷曼、埃德温·刘易斯和史蒂文·海宁)。他在实验室讲授拉里·史塔克的“眼球运动”课程，担任生物控制论的编辑，并在史密斯-凯特尔维尔眼科研究所与埃德·凯勒一起进行博士后研究。离开学术界后，他在 HNC Software、J.P. Morgan、Halifax Bank of Scotland、Opera Solutions、KPMG 和 IBM 等公司工作了 20 多年，构建商业预测解决方案……脑子里总是想着眼球运动。

问题/评论:anderson.transactionanalytics@outlook.com

参考文献:

1。即使对伯克利来说，斯塔克医生也是个怪人。他是三个看似不相关的系的教员:生理光学(视光学学院)、神经科学(UCSF)和电气工程(UCB)。尽管他自己没有博士学位。作为二战加速计划的一部分，他在 21 岁时获得了医学博士学位。他在朝鲜战争中短暂行医，然后进入学术界。

2。培根，女(1561-1626)。在:弗朗西斯培根的作品。j 斯佩丁，RL 埃利斯，DD 希思，编辑。伦敦。1857 年(第 628 页)

3。科布，M. (2002 年)。《时间线:驱除动物精神:简·斯瓦默达姆论神经功能》。自然评论神经科学。**3(5)😗*395–400。

4。赫胥黎和尼德格尔克(1954)。“活肌纤维的干涉显微术”。性质。(4412):971–973

5。马丁，G.R. (2017)。是什么驱动了鸟类的视觉？票据控制和掠食者探测使飞行黯然失色。神经科学前沿 11 : 619。

*6。*亥姆霍兹方程采用∇(f)=-k f，*的形式，对空间波传播和扩散等问题有广泛的应用。

7。亥姆霍兹，H. (1910)。生理光学论文。纽约:多佛

*8。T49 周，王维明(1997)。快速眼动睡眠期间双眼眼球运动不协调。Exp Brain Res1997**117(1)😗153–60。

9。斯塔克和谢尔曼，下午(1957)。合意瞳孔对光反射的伺服分析研究。 J .神经生理学 20 :17。

10。为了更好地近似，眼球运动可以被建模为二阶线性系统。这是偶然的，因为有更完整的数学理论可以用于分析。另一方面，斯塔克教授向我保证，“上帝把一切都设计得像二阶线性微分方程。”

11。富克斯，1967 年。猴子的扫视和平滑追踪眼球运动。 J .生理学。 191 ，第 609–631 页

12。罗宾逊，D.A. (1981)。控制系统分析在眼球运动神经生理学中的应用。安。修订版神经科学4*:463–503*

13。安德森，R.W .，凯勒，E.L .，甘地，新泽西州&达斯，S. (1998)。猴子上丘二维扫视相关群体活动。 *J .神经生理学，*80:798–817。

14。 Srivastava，a .、Ahmad，O.F .、Pacia，C.F .、Hallet，M. &伦古特区(2018)。迅速扫视和运动的关系。运动障碍杂志***11(3)***93–106。

为什么神经网络如此强大？

原文：https://towardsdatascience.com/why-are-neural-networks-so-powerful-bc308906696c?source=collection_archive---------16-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通用逼近定理

众所周知，神经网络非常强大，它们可以用于几乎任何统计学习问题，并取得很好的结果。但是你想过为什么会这样吗？为什么这种方法在大多数场景下比很多其他算法更强大？

和机器学习一样，这有精确的数学原因。简单来说，一个神经网络模型所描述的函数集合是非常庞大的。但是描述一组函数是什么意思呢？一组函数怎么可能很大？乍一看，这些概念似乎很难理解，但是它们可以被恰当地定义，从而解释为什么某些算法比其他算法更好。

作为函数逼近的机器学习

我们来抽象一下观点，公式化一下什么是机器学习问题。假设我们有了数据集

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中x⁽ᵏ⁾t5】为数据点， y ⁽ᵏ⁾ 为与该数据点相关的观测值。观察值y*⁽ᵏ⁾t13】可以是一个实数，甚至是一个概率分布(在分类的情况下)。任务很简单，就是找到一个函数 f(x) ，其中 f(x ⁽ᵏ⁾ ) 约为 y ⁽ᵏ⁾ 。*

为此，我们预先确定一组参数化的函数，并选择最适合的参数配置。例如，线性回归使用函数族

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作为参数函数族，以 a 和 b 作为参数。

如果我们假设有一个真实的底层函数 g(x) 描述了 x ⁽ᵏ⁾和 y ⁽ᵏ⁾之间的关系，这个问题可以表述为一个函数逼近问题。这使我们进入了近似理论的美丽但非常技术性的领域。

近似理论入门

很可能你一生中遇到过几次指数函数。它的定义是

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 e 是著名的欧拉数。这是一个超越函数，基本上就是说你不能用有限多次的加法和乘法来计算它的值。然而，当你把它输入计算器时，你仍然会得到一个值。这个值只是一个近似值，尽管它通常足以满足我们的目的。事实上，我们有

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一个多项式，因此它的值可以显式计算。 n 越大，越接近真实值。

逼近论的中心问题是为这些问题提供一个数学框架。如果你有任何函数 g(x) 和一族从计算方面更容易处理的函数，你的目标是找到一个足够接近 g 的“简单”函数。本质上，近似理论寻找三个核心问题的答案。

什么叫“足够近”？
我可以(或应该)用哪一组函数来近似？
从一个给定的近似函数族中，哪一个函数是最合适的？

如果这些听起来有点抽象，不要担心，因为接下来我们将研究神经网络的特殊情况。

作为函数逼近器的神经网络

所以，我们来重申一下问题。我们有一个函数 g(x) ，它描述了数据和观察值之间的关系。这并不确切，只是对某些值而言

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 g(x ⁽ᵏ⁾ ) = y ⁽ᵏ⁾.我们的工作是找到一个 f(x)

从数据中归纳知识，
并且在计算上可行。

如果我们假设所有的数据点都在子集 X 中，也就是说

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们想要一个函数，其中数量上确界范数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

越小越好。您可以通过绘制这些函数、给图形包围的区域着色并计算所述区域沿 y 轴的最大扩展来想象这个量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

即使我们不能评估任意值的 g(x) ，我们也应该始终致力于在这种更广泛的意义上近似它，而不是要求 f(x) 只适合已知的数据点 xₖ 。

所以，问题给出了。问题是，我们应该用哪组函数来近似？

单隐层神经网络

从数学上讲，具有单个隐藏层的神经网络被定义为

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中φ是非线性函数(称为激活函数),例如 sigmoid 函数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

和

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数值 x 对应的是数据，而 wᵢ 、 bᵢ 和 vᵢ 是参数。是函数族

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

足以逼近任何合理的函数？答案是响亮的是！

通用逼近定理

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

全盛时期的通用逼近定理:)资料来源:Cybenko，g .(1989)“sigmoid 函数叠加的逼近”，控制、信号和系统的数学，2(4)，303–314。

1989 年的一个著名结果，叫做普适逼近定理指出，只要激活函数是类 sigmoid 的，并且要逼近的函数是连续的，一个单隐层的神经网络就可以逼近到你想要的精度。(或者学习机器学习术语中的 it。)

不要担心确切的定理看起来很难，我会详细解释整个过程。(事实上，我故意跳过了像密集这样的概念，以使解释更清晰，尽管不那么精确。)

**步骤一。**假设要学习的函数是 *g(x)，*连续。我们先固定一个小数字 ε 在函数周围画一个 ε 宽的条纹。 ε 越小，结果越好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

步骤二。(最难的部分。)找到表格的一个函数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

完全在条纹内。该定理保证了这种F(x)的存在，因此这类函数被称为通用逼近器。这是神经网络令人敬畏的地方，赋予了它们真正的力量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然而，有几个警告。例如，该定理没有提到 N，即隐藏层中神经元的数量。对于小的 ε ，这可能非常大，从计算的角度来看是不好的。我们想尽可能快地计算预测，计算一百亿项之和肯定不好玩。

第二个问题是，即使这个定理保证了一个好的逼近函数的存在，它也没有告诉我们如何找到它。虽然这可能令人惊讶，但这在数学中是非常典型的。我们有非常强大的工具来推理某些对象的存在，而不能够明确地构造它们。(有一个数学学派叫建构主义，拒绝泛逼近定理的原始证明之类的纯粹存在性证明。然而，这个问题是根深蒂固的。如果不接受非构造性的证明，我们甚至不能谈论无限集合上的函数。)

然而，最大的问题是，在实践中，我们永远不会完全知道底层功能，我们只知道我们观察到的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有无数种可能的配置可以任意地很好地适合我们的数据。他们中的大多数都可怕地概括了新数据。你肯定知道这种现象:这是可怕的过度拟合。

权力越大，责任越大

事情是这样的。如果你有 N 个观察值，那么你可以找到一个完全符合你的观察值的 N-1 次多项式。这没什么大不了的，你甚至可以用拉格朗日插值显式写下这个多项式。然而，它不会推广到任何新的数据，事实上这将是可怕的。下图展示了当我们试图将一个大次数的多项式拟合到一个小数据集时会发生什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

同样的现象也适用于神经网络。这是一个巨大的问题，而通用逼近定理没有给我们任何关于如何克服这个问题的提示。

一般来说，函数族越有表现力，就越容易过拟合。权力越大，责任越大。这被称为偏差-方差权衡。对于神经网络，有很多方法可以减轻这种影响，从 L1 正则化权重到减少层数。然而，由于神经网络的表达能力如此之强，这个问题总是在后台隐约出现，需要持续关注。

超越通用逼近定理

正如我所提到的，这个定理没有给出工具来为我们的神经网络找到一个参数配置。从实用的观点来看，这几乎和通用近似性质一样重要。几十年来，神经网络不受欢迎，因为缺乏有效的计算方法来拟合数据。有两个基本的进步，使它们的使用变得可行:反向传播和通用 GPU-s。有了这两个技术，训练大型神经网络就轻而易举了。你可以用你的笔记本训练最先进的模型，甚至不用流汗。自从通用逼近定理以来，我们已经走了这么远！

通常，这是标准深度学习课程的起点。由于其数学上的复杂性，神经网络的理论基础没有被涵盖。然而，通用逼近定理(及其证明中使用的工具)非常深刻地揭示了为什么神经网络如此强大，它甚至为工程新架构奠定了基础。毕竟谁说只允许我们组合 sigmoids 和线性函数？

如果你喜欢把机器学习概念拆开，理解是什么让它们运转，我们有很多共同点。看看我的博客，我经常在那里发表这样的技术文章！

为什么银行应该真正使用人工智能——到昨天

原文：https://towardsdatascience.com/why-banks-should-be-truly-using-ai-by-yesterday-8153e29f8b33?source=collection_archive---------47-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

头埋在沙子里图像 1 归属

想象一下，你在南非好望角北部的丛林中，看着一只鸵鸟被几只老虎跟踪。鸵鸟意识到这种威胁的存在，并不担心，因为它知道该做什么:把头埋在沙子里，老虎就会离开。

这就是今天的零售银行，鸵鸟是一家零售银行，老虎是仅由移动人工智能驱动的挑战者银行(更不用说亚马逊了)。

根据商业内幕，40%的千禧一代根本不会去实体银行。大多数人实际上认为参观分行是荒谬的。零售银行业务模式显然与当今的经济、技术和消费者统计数据不同步。

已经受到累积的不良贷款(NPL)的创伤，手头不仅仅是数字化的问题，也不仅仅是在移动设备上提供包装为 Android 或 iOS 应用程序的网络银行服务。虽然面向消费者的数字银行不是什么新鲜事，包括 ATM 和传统的网络银行服务，但人工智能驱动的银行业下一步的时间已经到来，这确实是一大步。

做什么？

从本质上讲，我们现在处于一个不同的现实中，数字化与人工智能相结合，需要作为一种新范式的变革性实施工具来迫切解决。LinkedIn 上关于英国十大初创公司的帖子反映了这一现实，其中提到的 60%的公司都属于金融科技挑战者领域。

那么，该怎么办呢？不能指望银行高层领导和/或董事会成员了解人工智能以及在何处、如何以及何时利用人工智能。然而，最终他们会做出决定，不做任何事情的风险远远大于做一些事情的风险。

提议的方法

让我们概述一个可行的方法。首先，需要建立一个组织结构单位，直接向高层(首席执行官和/或董事会)报告。作为一个由技术人工智能“远见者”又名首席人工智能官(CAIO)领导的人工智能任务组，这位领导者需要是一个具有真实世界实际人工智能经验的实干家(不一定专注于银行/金融)。

CAIO 的领导者然后将创建一个小团队，每个团队成员将解决一个特定的人工智能技术，这将需要 web、移动和 IOT 实施和分发渠道(即“人工智能优先”)。这种组织结构本身将反映银行新的人工智能战略。

因此，让我们从好处、实施细节和现实世界的例子方面来看一下目标领域的初步建议组合以及相应的每个团队成员的组合。

团队成员 1

作品集:对话式人工智能

目标:打造银行的基础数字助手

描述:问题的核心，银行的数字助理将最终占据中心舞台。它将深深植根于人工智能推理和自然语言理解和生成。它需要能够处理:

*关于财务管理的复杂问题
*客户支持互动
*教授客户基础知识(比如如何幽默地开一个账户)
*在物理分支机构进行老式回访的机器人技术

一个例子是卡斯托

团队成员 2

投资组合:人工智能 CRM /个性化

目标:建议和提供定制的产品和服务，通过创建客户角色来提供个人和个人的客户体验，销售总是更接近。

描述:除了余额、投资和贷款之外，银行还持有大量的客户数据。此外，通过在线和离线购买、网站访问、通过信息亭的互动、电子邮件交流和移动应用程序，可以获得与实时客户行为相关的大数据。

这些数据是一座金矿，通过基于预测性机器学习的人工智能算法来挖掘，这些算法可以识别客户性别、收入、年龄、购买行为、首选服务位置和交互模式之间的相关性。

所有上述内容都可以输入到企业人工智能 CRM 中，然后该 CRM 将作为一个中心参考点，从该参考点还可以:

*个性化内容(关注微元素)
*根据之前的互动，使用新的高度相关的广告重新定位客户
*实时事件个性化，即如果购物车被放弃该怎么办
*将情感分析应用于产品客户评论并相应地重新定位
*客户细分以实现个性化定位

团队成员 3

投资组合:机器学习:不良贷款/风险管理

目的:评估账户的风险状况，识别潜在的不良贷款

描述:不良贷款(NPL)是一种违约贷款，即借款人没有在规定的期限内支付预定的款项。
AI/ML 算法可以自动为客户分配 NPL 风险评分，作为反映整体风险、活动异常和高风险行为的总评分的一部分，以动态预测潜在的 NPL。

识别风险后，可以采取预防措施，例如:

*增加风险评估的频率
*增加担保品
*要求提前还款

总体而言，不良贷款预测可以降低风险、降低准备金并提高盈利能力，使该团队成员的工作可以直接量化为底线利润。

团队成员 4

产品组合:生物识别

目标:人工智能驱动的认证/安全

描述:人工智能生物识别技术，如面部和语音识别，利用大量数据来微调身份验证。安全隐患是巨大的，不言而喻的，但这项技术也可以帮助客户服务。

例如， Natwest 利用自拍在几分钟内开立活期账户。新客户提交自己的照片和带照片的身份证。通过人工智能驱动的实时生物识别检查，两张图像进行比较，以验证身份。这大大提高了效率，减少了欺诈性申请。

团队成员 5

投资组合:银行即服务

目标:创建一个使用银行 IT 系统的第三方开发者和创新者社区

描述:亚马逊和谷歌大概是(！)考虑在某个时候成为银行。规避这一问题的一个方法是允许第三方安全地访问账户数据(在获得同意的情况下),以增强银行提供的服务，使小型合格的利基供应商能够进行富有想象力的创新。这可以通过建立一个平台来实现，通过该平台来开发和提供银行批准的网络、移动和 IOT 应用程序，就像 iStore(苹果)和 Play Store(谷歌)一样。通过这个数字生态系统，银行客户将能够将金融服务集成到他们的产品中，并构建他们自己的可扩展银行产品。

团队成员 6

投资组合:交易/财富管理

目标:实现算法交易

描述:根据实时更新的短期股票价格预测，实现基于机器学习的潜在股票交易选择。人工智能监控成交量峰值、移动平均线突破、趋势和支撑/阻力突破以及极端的日内波动。基于交易的实时预测。

结论

技术，尤其是人工智能，正在撼动银行业。对于任何想要在 2030 年左右生存的零售银行来说，除了规划和实施一条拥抱和最大化人工智能技术优势的前进道路，别无选择。

外卖

使用人工智能技术作为实施工具来全面改造银行可以通过创建人工智能战略任务组来完成，该任务组将开发和实施人工智能战略，包括与使用最适合的可用人工智能技术相关的具体行动。

其目标是大幅提高特定业务领域的绩效和效率，如客户互动和支持、贷款、证券和投资。

在所有实施领域，开发的软件将与其他领域相互作用，形成人工智能引擎，该引擎本身将与其他遗留银行系统相互作用，从而形成新生银行业务的主干。

关于作者

【https://www.fortuitapps.com】最初发表于。

BatchNorm 有效的真正原因

原文：https://towardsdatascience.com/why-batchnorm-works-518bb004bc58?source=collection_archive---------30-----------------------

了解“损失情况”如何随着批量标准化而变化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源

归一化技术是我们在分析任何形式的数据时拥有的一些伟大的工具，调整分布的均值和方差的简单操作导致深度神经网络中各种归一化技术的灾难性成功，其中之一是著名的批量归一化 Ioffe 等人。

每个人都听说过:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ioffe 等人的算法-1。

目前，对 BatchNorm 成功的最广泛接受的解释，以及其最初的动机，与所谓的内部协变量转移(ICS)有关。非正式地，ICS 指的是由对先前层的更新引起的层输入分布的变化。据推测，这种持续的变化会对训练产生负面影响。BatchNorm 的目标是减少 ICS，从而补救这种影响。

在易勒雅斯等人的文章中，作者提出了一个观点，即批处理范式的性能增益和内部协变量移位的减少之间似乎没有任何联系。或者说这种联系充其量也是脆弱的。事实上，他们发现在某种意义上，BatchNorm 甚至可能不会减少内部协变量偏移，并证明在自然条件下，损失和梯度的 Lipschitzness(基本上是损失表面及其梯度的平滑度)在具有 BatchNorm 的模型中得到改善，因此证明 BatchNorm 以一种基本的方式影响网络训练:它使相应的优化问题的前景明显更加平滑。

这里，我们将分析误差空间权重为二次的模型的误差表面的二阶属性，然后重新对表面进行参数化，以便根据输入协方差矩阵的特征谱进行分析，并由此使用结果来推断为什么批处理范数可能会提高收敛速度，以及为什么它会使网络在初始化时保持不变。

对于在权重空间 {W} 中搜索误差函数 E(W) 最小的最优值 W* 的各种学习算法，基于梯度下降，它们的性质由 E(W) 曲面的二阶性质控制。

对于这种分析，我将集中于神经网络的单层，其中 X(N x 1) 作为这一层的输入向量，并且 W(1 x N) 是这一层的权重，并且 Y(1 x 1) 是这一层的输出，为了方便考虑均方误差:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

p 是数据集的大小

很明显，误差曲面在权重上是二次的，因此将其重写为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 R 定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 Xui 是第 u 个输入向量(Nx1)的第 I 个分量，因此 R 显然是第 N 个 x N 个输入协方差矩阵。

*Q 是一个 N 维向量，*定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

c 只是一个常数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在 E(W) w.r.t. W 的梯度是 J(E) = RW-Q 而二阶导数的海森矩阵显然是 H = R

最小化 E(W) 的解空间 W* 显然包含梯度为零的条目，因此该解空间是线性方程解的子空间

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(来自 J(E) =0)

现在，这种 RW=Q 是线性代数( Ax=b )中常见的一类问题，工程应用中的很多问题都可以用这种格式公式化，然后分析 A 的本征谱来解决。

由于解空间 W* 是 RW=Q 的解的子空间，现在如果 R 的所有列都是独立的，因此 R 具有满秩，很明显，这个子空间塌陷到一个点(唯一解)。

现在这一切都很好，但是我们为什么要这样做？

当损失曲面的权重为二次时r的特征向量定义了 E(W) 的主轴(这可以从“噪声和振动的主动控制(Colin Hansen，Scott Snyder)】section-6.5.2)⁵
中研究，我们可以通过下式计算曲面在任一单位向量 u 方向的二阶导数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

选择为 H (=R)的特征向量，我们可以得到 E(W) 在主轴方向的二阶导数，从矩阵对角化可知，将是 H (= R ) 的特征值。

我们已经用 R 和我们的 Hessian = R 表示了我们的梯度，并且由于我们可以用 R 定义 E(W) 的主轴，我们将在包含我们的误差表面的空间上进行 2 个变换:

通过基本平移，以解决点为中心

旋转，我们要把这个 V* 旋转到 *E(W)* 的主轴上，这样就可以分析主轴方向上的黑森。现在，如果我们将一个矩阵乘以一个向量，就会产生一个空间变换(从旋转、平移到将空间压缩成一个点)。为了实现旋转，**我们将把 *V 乘以特征向量矩阵 R* ，包含相互正交的归一化特征向量 R ，将这个矩阵命名为*(通用约定)，显然这个矩阵将是正交的，并且列的维数将与 W 相同，所以:**

完整的转变将是:

基于此，我们的方程 E(W) 被重新参数化为:

其中 D 正好是对角线上含有 R 特征值的对角矩阵(也叫矩阵对角化) E_o 正好是 E(W)。*

记住 V 还是一个矢量，但是VV的每一个分量都代表了误差面对应的主轴。****

然后，

**λ_j 是 D 的第 j 个对角元素，也是 R(=H)的第 j 个特征向量的特征值

和

𝛿(j,k)=1 代表 j=k，其他地方代表 0

显然，输入协方差矩阵的特征值给出了误差表面的二阶导数。

将这两个结果放在一个矩阵中给出了作为对角特征矩阵的 HessianD，(H = D)*，因此*

由于梯度下降的基本权重更新规则是:
*= V(k+1)——*ηJ(E(V))*
V(k+1)= V(k)——η D * V(k)***

V(k) 是第 k 个时间步长 V 的值。

V 是 N x 1 向量，这导致 N 解耦方程(由于 V 中的每个分量都是正交的)，并且由于 V=U(W-W) ，对于最优解 V 衰减到零，因此每个分量沿着主方向 as 演化*

Vj(0) 是初始化时 V 的第 j 个分量

现在，为了使 V j 在多个时间步长(k > 0)上收敛到零，具有正幂的项的幅度必须小于 1，因此

| 1-ηλ_ j*|<1
0<η<2/λ_ j**

由于这只是指数衰减的公式，V j 在特征时间内衰减到零

对于 η 在(1/ λ_j ，2/λ_ j)
1-ηλ_ j*范围内为负，因此收敛为振荡行为，步长较大**
对于范围(0，1/ λ_j )内的 η ，
步长较小，收敛需要较高的 k 值(时间步长)
那么，如果 η = 1/ λ_j ，如果这样的选择是可能的，那么在单次迭代中就达到了收敛。

现在，如果所有特征值相等，λ_ j =λ，对于所有 1 < =j < =N ，由于 H=D ，收敛在单个步骤中达到，其中:

η= 1/λ

但是这种高度对称的情况很少发生。从几何学上讲，如果误差曲面 E(W) 的横截面是 N 维空间 {W} 中的超球(由环绕主分量形成的超球，这些特征值相等，它们被同等地拉伸或压扁，因此是超球)，就会发生这种情况，但这是非常罕见的。 E(W) 截面为椭圆形，沿不同主方向有不同的特征值。

根据上述等式，η必须在(0，1/ λ_mx 和 λ_mx 之间选择，λ_mx 是输入协方差矩阵的最大特征值，最慢的时间常数为

最小步长η*= 1/λ*_ max给出:

沿非零曲率最小的主方向衰减(基本上是非零特征值最小的特征向量，即 λ_mn )。

这清楚地表明对于权重为二次的误差曲面，学习动态由 Hessian 的特征值分布控制。

既然我们知道这个，为什么停在这里，让我们在这里检查特征谱。

假设输入分量，即**【Xi】对于所有 1 < =i < =N 是独立的，并且每个分量是从均值【m和方差 v 中提取的(为了方便起见，考虑一个输入的所有分量在数值上具有相同的均值和方差)。我们将 p 作为数据大小，将 N 作为向量维数，假设α****= p/N***(量化训练集的比率)，得到本征谱如下(本征谱的完整推导可以在 I. Kanter、Yann Lecun 和 A. Solla 1991 的联合著作中找到)*

来自 LeCun 等人的等式-13。

在哪里

对于 λ ∈ ( λ -， λ +)，谱是连续的，那么在 p 和 α 趋于无穷大的极限内， λ- =λ+ = v

现在应该清楚的是，如果 p < N ，则 R 的独立列的数量将等于p .*R 不会是满秩的，因此 *N、中总共有( N-p 个特征值将为零，从而导致对于所有零特征值(基本上是谱)的权重为 1-α的δ函数贡献
当输入有偏置，即 m≠0 时，会出现一个大的 N 阶孤立特征值，称为 λ _ N 。这一点可以清楚地理解，考虑
的结构 R 为p→∞极限，
1。所有非对角元素都等于 m (两者均值的乘积)
2。所有对角线元素都等于 v+m**

因此，特征向量U _ N =(1…1)对应于特征值

∫R * U _ N =(Nm+v) U _ N***

和其他所有 N-1 特征值等于 v ，(怎么？满足 trace® =特征值之和= N(m + v) 的事实)，此外，谱的连续部分在λ- = λ+= v 处折叠成δ函数，作为 p - > inf，并且只有一个值(= λ_ N )大于 λ +。

如果 m =0，即无偏置的居中输入，显著降低 λ _ N ，则 λ _ N 的最大部分被消除，并且由于 λ _ N 最大(λ_ max，降低其值会影响 t_mx****

因此，很明显，有偏输入会产生较大的特征值，并导致收敛缓慢，为了消除这种情况，可以将输入居中，
或者，根据我们之前的等式，另一种处理方法是使用与 N (被观察神经元的输入数量)成反比的个体学习率。

所有这一切清楚地证明了以下几点

对于损失面，梯度依赖于 i/p 协方差矩阵和权重，但 Hessian 在给定主轴方向(这里是第 I 列 U )是常数，只依赖于 i/p 协方差矩阵
偏置输入减缓收敛
输入协方差矩阵的大特征值(与其他特征值相比很大，但不是绝对大)也会减缓收敛
误差曲面的 Hessian 特征值谱受输入分量分布方差的控制
通过很好地控制协方差矩阵的特征值，可以使用大的学习率

就批次而言:

我们知道“相对”大的特征值(基本上，外围特征值)损害了收敛性，并且批处理范数抑制了这些异常值(基于戈尔巴尼和 al.⁴的特征谱图)，指出了 BN 工作的原因之一

图 6 来自古尔巴尼等人 al.⁴，y 轴显示 λ_mx / λ_mn 其中 λ_mx 和 λ_mn 分别是 Hessian 的最大和最小特征值。

戈尔巴尼和 al.⁴的图 7 显示了批次规范和无批次规范的损失表面的海森特征谱

在这个博客的第一部分，我们有一个分析的原因，为什么“相对”大的特征值伤害，戈尔巴尼和 al.⁴显示在梯度能量方面。通过分析(图表和附录 E)，他们表明，如果没有批次范数，在时间步长 t 计算的“随机”梯度的方向与朝向最优值的方向不一致，相反，它主要位于主特征向量的子空间中，并且主要与朝向最优值的方向正交。但是在批量范数之后，梯度方向几乎与主特征向量
正交，并且更好地对准最优点的方向。因为，当梯度在主特征向量的方向上对齐时，只有那些分量得到训练，而其他分量(具有低特征值)需要时间来训练(因为梯度主要朝向其他方向，主特征向量的方向)，并且梯度在具有低特征值的方向上的投影很小，因此收敛很慢。即使在上面这里，正如我们计算的t =(1/ηλ)，对于给定的η，low λ 需要更多的时间，现在这个 λ 基本上是在给定特征向量方向上的二阶导数，小意味着更平坦的区域。并且，这些具有小λ的方向贡献了几乎 50%的 Hessian 特征值的 L1 能量*

基本上，这些小特征值对损耗很重要，最佳路径由这些方向组成。

图 11 来自戈尔巴尼和 al.⁴，y 轴是损失梯度在最主要特征值方向上的投影的范数与损失梯度的范数之比，显然，在非 batchnorm 模型中，损失梯度主要在最主要特征值的方向上

上一点是关于 Hessian 特征值的 L1 能量(此处为 λ _i)，现在讨论梯度的能量(梯度能量基本上由梯度向量的协方差的特征谱描述)，因为小的特征值大约包括 Hessian 特征值的 50%的 L1 能量，几乎所有的梯度能量都集中在异常值所跨越的子空间中。所以基本上，特征值小的那些组成了梯度能量的一小部分，但是根据第二点，它们很重要，所以这使得整个收敛过程很慢。

戈尔巴尼和 al.⁴的图 12，y 轴是损耗梯度向量与损耗向量本身的内积，很明显，在非批处理网络中，“随机”损耗梯度与实际损耗方向正交

如前所述，收敛完全取决于这些特征值，相对异常值的缺失允许使用基于【λ_ MX】的微调学习速率，因此使得网络对于初始化不变。**
降低协方差矩阵的特征值(通过保持协方差矩阵接近单位矩阵，例如在 BatchNorm 中)允许更高的学习速率，如上所示
批处理范数据说使所有权重的训练以相等的速率发生，它的发生是因为那些特征值不具有任何离群值，如以上所述，所有参数的相同学习速率((=1/ λ_mx ))将给出相同的收敛速率。
批范数也可以被视为重新参数化误差表面，使其在每个方向上更平滑

[1]:“批量归一化:通过减少内部协变量偏移加速深度网络训练”(https://arxiv.org/pdf/1502.03167.pdf)

[2]:“批处理规范化如何帮助优化？”(https://arxiv.org/pdf/1805.11604.pdf)

[3]:“协方差矩阵的特征值:在神经网络学习中的应用”(http://yann . le Cun . com/exdb/publis/pdf/le Cun-kanter-solla-91 . pdf)

[4]:“基于 Hessian 特征值密度的神经网络优化研究”(https://arxiv.org/pdf/1901.10159.pdf)

[5]:“噪声和振动的主动控制(柯林·汉森，斯科特·斯奈德)(https://books.google.co.in/books?id=COfqBgAAQBAJ&pg = pa 403&lpg = pa 403&dq = of+特征向量+of+输入+相关性+矩阵+定义+of+误差+曲面&source = bl&ots = jksc 91 oc _ 1&SIG = acfu 3u 2 xd 6 e 2 ar 4 qziymyqyxsgzwlhmd

为什么选择大数据？

原文：https://towardsdatascience.com/why-big-data-bf0d65933782?source=collection_archive---------21-----------------------

术语大数据可以描述为大量结构化和非结构化数据。大数据这个术语相当新。甚至在术语出现之前，公司已经使用电子表格、反馈表格和图表处理了几十年的大规模数据集，以跟踪客户的见解和趋势。如今唯一的不同是，我们有合适的工具和技术专家来获得大数据的好处。

是什么引发了大数据这一术语…

大约在 2005 年，当社交媒体开始流行起来并且大约在 2010 年有 50 亿部手机在使用的时候，人们意识到每天产生多少数据。我们可以肯定今天会有更多的数据产生，希望你能理解。脸书、Twitter、LinkedIn 等社交媒体平台上的数十亿社交媒体用户每天产生大约 250 万 TB 的数据。手机，我们安装在手机上的应用程序也是大数据的主要来源，这些大数据每时每刻都在为我们的核心做出贡献。谷歌现在平均每秒处理超过 40，000 次搜索(每天 35 亿次搜索)！。它是否让你想到上个月，去年你在谷歌搜索了多少次？所有这些都导致了对严重增长的预测。每年全球数据的 40%和全球 IT 支出的 5%。如此多的数据确实推动了数据科学领域开始保留其自身和当今的商业世界。

那么是什么让大数据有价值呢？

正是应用以及大数据如何服务于人类需求，让大数据变得有价值。大数据允许我们建立更好的模型，从而产生更高精度的结果。我们正在目睹公司如何营销自己和销售产品的巨大创新方法。如何管理人力资源？如何应对灾难？和许多其他应用，基于证据的数据正被用来影响决策。

举个例子，你们可能都在 YouTube 上有过这样的经历，他们保存了我们已经观看的视频的详细信息，并根据我们使用 YouTube 的兴趣和行为来展示下一个要观看的视频。这缩小了我们必须经历的巨大选择范围。因此，正如 YouTube 一样，其他企业也可以利用技术，根据实际消费者发出的信号，做出更明智的决策。大数据使商业人士能够听到每个消费者的声音，而不是普通消费者的声音。

你可能已经注意到，在使用脸书的时候，出现在你面前的广告是基于你过去通过浏览器搜索的内容，以及你在帖子上分享和评论中讨论的内容。这就是惊人的大数据的工作方式。现在，许多公司，包括沃尔玛、塔吉特百货和亚马逊，都使用这些信息来个性化他们与客户的沟通，这反过来又能更好地满足消费者的期望，让客户更满意。也就是说，大数据实现了个性化营销。消费者通过 Twitter 或脸书等社交媒体网站产生大量可公开获取的数据。通过这些数据，这些公司能够看到他们的购买历史，他们搜索了什么，他们看了什么，他们去过哪里，以及他们通过喜欢和分享对什么感兴趣。

因此，通过检查大规模和各种数据集，即所谓的大数据，可以发现隐藏模式等信息。未知的相关性、市场趋势和客户偏好，可以帮助组织做出明智的业务决策。这将导致组织更聪明的业务活动，更有效的运作，更满意的消费者和更高的利润。

Thomas H.Davenport 在他的报告“大公司的大数据”中提到，公司通过以下方式从大数据中获得价值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

大数据分析给公司带来的好处-按作者分类的图表

当存储大规模数据时，使用 Hadoop 和基于云的分析公司等大数据技术可以减少他们微不足道的成本。此外，他们可以找到更有效的方式来开展业务。借助 Hadoop 和内存分析的速度以及识别新数据源的能力，企业可以立即处理分析信息，这有助于企业根据学习结果立即做出决策。举例来说，如果客户改变了他们的偏好，服务很可能会变得不那么有效。组织可以利用大数据做的另一件事是开发基于数据的新产品和服务。大多数在线公司采用这种方法，因为他们显然需要使用基于数据的产品和服务。LinkedIn 就是一个例子，他们正在使用大数据和数据科学家开发一个庞大的产品和功能列表，包括你可能认识的人、你可能喜欢的群体、乔布斯可能感兴趣、谁查看了我的个人资料等。这些产品可以吸引数百万新客户加入 LinkedIn。最后，大数据业务决策还可能涉及其他分析领域，如供应链、风险管理或定价。让大数据决策变得更智能的原因是，使用外部数据源来改进分析。例如，在供应链决策中，公司越来越多地使用外部数据来捕捉和衡量供应链风险。

大数据的应用

大数据具有巨大的潜力，可以在许多应用领域实现更高精度的模型。这些高度精确的模型正在影响和改变商业。这里我只举几个例子。我们都熟悉的一个领域是推荐引擎。这些引擎利用用户模式和产品特性来预测最佳匹配产品，以丰富用户体验。如果你曾经在亚马逊购物，你知道你会得到基于你以前的购买和搜索的推荐。同样，网飞会根据你的收视历史推荐你观看新的节目。

公司使用的另一种技术是情绪分析，或者简单地说，分析对事件和产品的感受。举个例子，在亚马逊，我可以在购买前阅读评论，也可以写评论。通过这种方式，可以通知其他客户。最重要的是，亚马逊可以跟踪特定产品的产品评论和趋势。例如，他们可以判断一个产品评论是正面的还是负面的。由于这些评论是用英语或其他语言写的，它使用了一种叫做的自然语言处理技术，以及其他文本分析方法。同样，亚马逊可以分析个人或公众对这种产品的总体看法。这就是为什么情感分析经常被称为观点挖掘。每当重大事件发生时，比如选举，新闻频道就充斥着 Twitter feed 分析。品牌利用情感分析来了解顾客对其产品的态度，积极的、消极的、中立的。这很大程度上依赖于自然语言处理的使用。

移动设备无处不在，人们几乎总是随身携带手机。移动广告对企业来说是一个巨大的市场。平台利用移动设备中的传感器，如 GPS，并基于这种海量数据提供实时的基于位置的广告，提供折扣。这一次，让我们想象一下，我买了一栋新房子，碰巧在家得宝几英里范围内。给我发送关于油漆、货架和其他与新家相关的购买的移动优惠券会让我想起家得宝(最大的家装零售商之一)。我很有可能会去家得宝。

每个企业都想了解他们的消费者的集体行为，以捕捉不断变化的景观。一些大数据产品通过开发模型来捕捉用户行为，并允许企业为其产品锁定正确的受众，从而实现这一点。或者为未知领域开发新产品。考虑这个例子。在对他们工作日的销售进行分析后，航空公司可能会注意到他们上午的航班总是售完，而下午的航班则低于容量。该公司可能会根据这样的分析决定增加更多的早间航班。请注意，他们不是使用个人消费者的选择，而是使用所有购买的航班，而不考虑是谁购买的。然而，他们可能会决定更密切地关注这些消费者的人口统计，利用大数据在其他地理区域添加类似的航班。

随着基因组测序技术的快速发展，生命科学行业正在经历生物医学大数据的巨大吸引力。这些生物医学数据正被许多应用程序用于研究和个性化医疗。在个性化医疗之前，大多数没有特定癌症类型和阶段的患者接受相同的治疗，这种治疗对一些人来说比其他人更有效。这一领域的研究使分析大规模数据的方法得以发展，以开发适合每个人的解决方案，从而假设更有效。患有癌症的人现在仍然可以接受标准的治疗计划，例如手术切除肿瘤。然而，医生也可以推荐一些个性化的癌症治疗方法。与许多其他领域一样，生物医学大数据应用的一大挑战是我们如何整合多种类型的数据源，以进一步深入了解问题。

大数据的另一个应用来自植入智能城市的大量传感器的互联网络。通过实时分析传感器生成的数据，城市可以为居民提供更好的服务质量。它有助于改善日常生活，例如更有效地管理交通流量或最大限度地节约能源。

总结一下，大数据出现的时间并不长，但是这些属性把我们带到了一个数据时代。跨行业的大型组织正在加入这种数据经济。大多数公司不是将传统数据和大数据分开，而是将它们结合起来，形成一个新的综合体。最后，重要的是要记住，大数据的主要价值不是来自原始形式，而是来自对数据的处理和分析，以及从分析中得出的见解、产品和服务。

本文的动机来自加州大学圣地亚哥分校的 Coursera 课程系列“大数据专业化”。如果有什么要添加或修改的，欢迎在下面评论。

为什么大数据需要小数据

原文：https://towardsdatascience.com/why-big-data-needs-small-data-a312aafcdad8?source=collection_archive---------34-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们现在可以无与伦比地访问大量自动生成和收集的数据，这些数据代表了传统调查方法几乎不可能复制的样本规模。人们兴奋地告诉我们，许多重大的股权问题，特别是代表权问题，将成为过去，因为我们可以利用这些庞大的数据集。

在 We All Count，我们同意大数据是一种宝贵的资源，但我们认为大数据无法解决一些非常重要的问题。我们认为，大数据真正令人兴奋的是能够将大数据集的效率和能力与小的精选数据样本的意图结合起来。

什么是大数据？

“大数据”这个术语有很多不同的定义。美国人口普查是大数据吗？这是一个庞大而全面的数据集。大型国际数据集是否合并自各种来源，如联合国或世界银行数据集、大数据？中型手机应用程序的实时数据是大数据吗，因为它有很多数据点？

出于我们的目的，我们将把大数据定义为:真正庞大的数据集——以兆字节而非千兆字节衡量——包含自动生成的数据点，如在线行为、购买、居住位置、“喜欢”、搜索等。想想谷歌，脸书，亚马逊。想想大通银行，万事达卡，沃尔玛。想想优步，美国电话电报公司，网飞。

这些数据集对我们的世界有着巨大的破坏性影响。它们是工业革命规模上的可能性的转变。他们也有一些重大的股权问题。

大数据力量

在数据科学中，给定分析的统计强度通常受到样本量的限制或支持。如果您想要找到关于整个人口的问题的答案，您需要获得关于该人口的统计相关百分比的数据。大样本本身就很昂贵，因此很难获得大量人群的答案。现代统计学的大部分重点是发现和改进统计方法，以实现高度的统计可靠性。这项研究还证实，样品的质量与其数量同等重要。

假设您想了解您所在城镇的人们更喜欢在沃尔玛购物还是在线购物。同样的费用，你可以在你的城镇随机抽取 100 人进行调查，或者你可以在沃尔玛停车场露营，询问 1000 名受访者。你可以清楚地看到，简单地增加样本量而不考虑公平的代表会极大地扭曲你的结果。

随着大数据的出现，我们突然有了大量的样本。大数据不是使用整个人口的一小部分，而是为我们提供人口的大量切片作为样本。例如，一项关于总统选举的全国盖洛普民意测验可能有 1500 名受访者，(请记住，这些受访者是经过精心挑选的，用于解释这些结果的统计方法非常强大)，而脸书有大约 2 . 44 亿美国人的实时数据。这是一个超过 10 万倍的样本。

你可以通过如此巨大的样本量获得的统计优势，再加上大量数据的最新性质，可以让我们感觉我们可以以近乎预言的确定性来回答统计问题。较小的公司、地方政府和非政府组织非常渴望利用大数据的力量，这是理所当然的，因为它可以为政策决策、影响研究和有效性提供令人难以置信的洞察力。棘手的是，大数据总是由具有特定目的和特定授权的收集者收集的。那个任务十有八九是为了赚钱。

由于大数据的规模及其对大多数股权问题的不人道的冷漠，大数据粉丝将其视为股权问题的银弹。亚马逊的数据收集算法正在进行调整，以实现利润最大化，而不是针对某个种族或性别的销售最大化。如果沃尔玛发现它的数据收集过程忽略了所有潜在的女性顾客，它会立即改变。同样，对于一个可能包括 30%的美国公民的数据集，很容易感觉样本量如此之大，以至于它必须至少包括人口中所有类型的人的一些代表。

大数据和股权的两个问题

亚马逊生成关于亚马逊客户的数据。手机应用程序会生成拥有智能手机的人的数据。优步有乘坐优步的人的数据。与精心制作的传统样本相比，大数据有一个固有的表示问题:它自动不包括它不关心的人。

此外，由于样本规模如此之大，大数据集中了最多产的数据提供商的影响。这意味着，如果你在亚马逊上购物很多，并在优步乘坐很多次，你的数据会比那些只有资源偶尔或从不做这些事情的人被计算在内。

因此表示和权重是大数据需要克服的两个挑战。企业有赚钱的使命，所以这对他们来说没什么，但那些同样关心寻找解决方案的人如何利用这些数据呢？

两全其美

让我们假设你是多伦多市的地方政府。你想知道在哪里扩建你的地铁系统。对大多数多伦多人来说，什么样的新地点最有意义？你的“刷卡”输入系统有一个非常大的数据集，所以你可以看到地铁、电车和公交车上人们的各种数据。您还希望使用优步的海量数据集来补充您的信息:这将允许您查看大量的市民样本，以及他们在哪里使用除公交以外的其他交通方式。

你知道你的两个大数据集并不代表每个人，你没有关于既不乘坐公交也不乘坐优步的人的信息，比如司机、行人或负担不起这两种选择的人。您也知道这些数据集集中了最频繁用户的影响，并且必须确保您在统计上考虑到这一点。你的预算有限，你可以把它花在一项昂贵但严格的调查上，这项调查具有良好的代表性，但样本量较小，或者你可以用这笔钱访问优步的大规模和具有统计意义的数据集，即使有一些股权问题，你可能会得到一个更坚定的答案。

或者你可以利用两个的力量。大数据提供的是惊人的效率。没错，运行收集、存储和分析如此海量数据的大型系统是昂贵的，但每个数据点的成本比传统调查方法便宜许多数量级。这些节省可用于补充大型数据集，并使用其他统计方法填补代表性缺口。我们可以用省下来的钱进行一次更小规模、更有针对性的调查，专门从我们的大数据不代表的人那里获得答案。

我们可以使用交通数据，优步数据以更有针对性的方式进行我们自己的研究，以确保我们为所有利益相关者做出最公平的决定，而不忽视大型数据集的预测或权威力量。今天忽视大数据就像忽视蒸汽机而偏爱马车一样，功率和效率的差异是无可争议的。另一方面，假设大数据将自动解决公平问题，而它并没有被设计成这样，这是一厢情愿的想法。通过关注公平，并利用严格的统计方法来充实和重新衡量大数据，我们可以两全其美。

原载于 2020 年 1 月 10 日【https://weallcount.com】。

“我们都算” 项目分享例子，构建工具，并提供培训和教育，旨在帮助更好地理解数据，以便我们可以使数据对每个人更加透明和公平。因为你做数学题的时候，我们都算。

为什么生日蛋糕意味着饼状图永不消亡

原文：https://towardsdatascience.com/why-birthday-cakes-mean-that-the-pie-chart-will-never-die-e128e390017?source=collection_archive---------33-----------------------

数据可视化大师强烈反对饼图，但大众永远不会被说服——也不应该被说服。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由露丝·布莱克在 iStockphoto 上拍摄

在那些从事数据可视化工作的人当中，表达他们对饼状图的厌恶几乎是一种通过仪式，甚至可能被视为一种职业责任，人们会看到他们发出严厉警告，要求他们不惜一切代价避免使用饼状图。我不相信。事实上，我的演示文稿和仪表盘都包含它们，我还在培训课程中教授其他人构建它们。我是一个叛逆者，一个实用主义者，还是饼状图是“邪恶的”这一信息存在根本性的错误？

为什么所有的仇恨？

《数据即圣经》“量化信息的可视化展示”的作者爱德华·塔夫特曾被《纽约时报》称为“数据的达芬奇”,他曾说:

“唯一比饼图更糟糕的是其中的几个”——爱德华·塔夫特

持这种观点的不止他一个人。由数据可视化领导者撰写的无数书籍、文章和博客文章用同样充满激情的标题宣传相同的信息。看看科尔·努斯鲍默·克纳弗里克的《死亡到饼状图》和斯蒂芬·诺的《把馅饼留到甜点》。

他们的论点是，人类的大脑并不具备测量角度的能力(这是构建饼图的基础)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 LibreTexts 数学库

我们的大脑旨在快速处理信息并赋予其意义，但它用于处理信息的属性类型是相似性、接近性和封闭性。它们被称为前注意属性或感知的格式塔法则，Elijah Meeks 写了一系列关于这些如何应用于数据可视化的文章——点击这里查看。有 7 个属性，但角度不在其中。

正是这一点促使数据记者兼 Insider 数据高级编辑 Walter Hickey 在他的一篇博客文章中这样写道:

“饼图无疑是数据可视化历史上最糟糕的信息传达方式。”—沃尔特·希基

测量角度很难。测量和比较多个角度就更难了。我不否认这一点。这就是为什么我们在学校学会了使用量角器，也是为什么我们中没有人会考虑手工制作一个饼状图。

但是…

当你出生时，你的大脑不知道如何给字母、单词和句子赋予意义——你是被教导的(我假设你在这方面已经达到了相当不错的技能水平，否则你不会读这篇文章)。饼状图也是如此，尽管背景不同。

为什么我认为饼图很棒

从我们出生的那一刻起，我们的家庭就向我们强调庆祝我们和我们亲近的人的生日的重要性。庆祝活动的中心总是生日蛋糕。我们很快了解到切片的大小是一个重要的度量。小时候，数量总是胜于质量，所以快速识别并获得最大份额提供了竞争优势。同样重要的是，如果你有兄弟姐妹，确保我们得到的任何一份至少比我们兄弟姐妹的大。或者，如果你出生在一个控制狂的家庭，像我一样(我可能是最大的罪魁祸首)，你会拿出尺子或量角器来确保每个人都得到完全相同大小的一块。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当面对以饼图形式呈现的数据时，这对我们未来的业务环境非常有利。只要切片大小明显不同，并且不太多(记住，我们的大脑一次只能保留大约 5 位信息)，那么我们就可以很好地解释数据。

斯蒂芬·诺曾经说过:

“数据可视化是抽象信息的图形显示，有两个目的:理解和交流。”—斯蒂芬·诺

我相信这真的是争论的关键。呈现数据是为了向观众传达信息。诚然，作为一种呈现数据的方法，饼状图是我们大脑处理起来更复杂和更困难的方法之一，但就像人类的语言一样，我们从出生就开始练习，所以我们天生就理解这种类型的可视化。正是这种熟悉超越了格式塔法则，并将饼图提升为向商业受众传达数据的最有价值的图表类型之一(与条形图并列)。

(带上网络仇恨者和网络流氓……)

我不是叛逆者，我接受饼图的内在缺陷，但我也是一个相信观察胜过理论的科学家。在我 20 年展示数据和教授数据可视化的经验中，听众更难理解认知上更简单的饼状图类型的替代品，如树状图和华夫图(尽管我很喜欢它们)。条形图和饼图是所有图表类型中默认的和最多产的，这并不是偶然的。

当精度是关键时，选择条形图——它在比较数值时总是做得更好，但是当你试图制作的数据和点允许时，请随意使用饼图。

这并不是说我提倡饼状图或其表亲甜甜圈图的自由支配。让我对你的数据失去兴趣的最简单的方法就是展示一个 3D 的、爆炸式的饼状图，但那完全是另一回事了。注意良好的信息设计是至关重要的——图表的所有元素都必须支持对受众信息的有效传达。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由各种通过谷歌

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由各种通过谷歌

设计你的图表，不管它是什么类型，最大限度的清晰和交流是关键。饼图不是“邪恶的”，不需要避免，实际上可以成为你的数据可视化工具箱中的一个巨大资产，因为它们很容易被你的观众消费(双关语)。

为什么黑洞会发光

原文：https://towardsdatascience.com/why-black-holes-emit-light-908cdef80153?source=collection_archive---------11-----------------------

霍金辐射背后的物理学的简单解释

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片标准普尔大卫马克德皮克斯贝

根据爱因斯坦的经典引力理论，黑洞是一个具有极强引力场的时空区域，任何东西都无法逃离(甚至光也不行)。结果黑洞只能吸收物质。这个性质的结果是黑洞的大小永远不会减少。然而，当考虑到量子效应时，这种情况发生了巨大的变化。正如本文将展示的，由于其表面附近量子场的真空波动(所谓的事件视界，黑洞发射出粒子，如光子(光的粒子)、中微子等。因此，黑洞并不是完全黑的！这一突破性发现的作者是著名的英国物理学家斯蒂芬·霍金。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:有史以来第一张黑洞图像。这个特殊的黑洞位于星系 M87 的中心。我们在图像中看到的是来自围绕黑洞旋转的热气的排放物(来源)。

粒子是由静态黑洞发出的预测让物理学界大吃一惊。霍金之前的工作表明旋转的黑洞产生粒子。但是与他的预期相反，在没有旋转的情况下，不会产生粒子，他发现甚至静止的黑洞也会产生粒子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2:斯蒂芬·霍金和他的开创性论文(来源)。

在本文中，我将遵循 Mukhanov 和 Winitzki 对二维时空中无质量标量场的 Hawking 温度的推导(在 4 维时空中的推导可以在 Hawking 的原始论文中找到)。

霍金辐射的物理起源

霍金辐射起源的标准解释如下。一般来说，量子涨落的特点是不断产生虚粒子-反粒子对。在黑洞视界附近经常发生的是，两个粒子中的一个穿过视界，而另一个粒子作为霍金辐射逃逸。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3:正如文中所解释的，当一对粒子在黑洞附近产生，其中一个落入黑洞时，另一个粒子作为霍金辐射逃逸(来源)。

虽然这种解释是普遍存在的，但它并不精确地对应于实际的计算，这将在这里解释。关于这个问题更详细的讨论，见施梅尔策和贝兹。

史瓦西黑洞

史瓦西黑洞是不旋转的球对称黑洞。它是最简单的黑洞，只包含一个参数，它的质量m .**2D史瓦西线元在球坐标中表示为:**

方程 1:二维的史瓦西线元素。

有关上述表达式的详细解释，请参见下面的文章。

** [## 循环虚时间和温度之间的神秘联系

一个显而易见的事故可能蕴含着物理学上的一个巨大谜团

towardsdatascience.com](/the-mysterious-connection-between-cyclic-imaginary-time-and-temperature-c8fb241628d9)

情商。1 似乎表明在史瓦西度规中有两个奇点(时空中引力场变为无穷大的位置)，一个在 r =0，另一个在 r = 2 *M，*即所谓的史瓦西半径。更具体地说，代入 r = 2 *M，*线元素的两个分量变成:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 2:在 r=2M 时计算的(t，r)坐标中的史瓦西度规张量的分量。

然而，正如下一节将要展示的，史瓦西黑洞唯一的物理奇点位于 r =0。在 r = 2 M 处的明显奇点实际上仅仅是一个坐标奇点，可以通过转换到一个新的坐标系统来消除。为了说明这一点，我们将引入所谓的克鲁斯卡尔–塞克雷斯坐标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4:由史瓦西黑洞产生的引力透镜(在远程光源和观察者之间发生的物质对光的弯曲)，该黑洞穿过星系的视线平面(源)。

克鲁斯卡尔-塞克雷斯坐标

Kruskal–sze keres 坐标如下所示。首先定义“乌龟坐标”r*(r)和对应的乌龟光锥坐标:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 3:乌龟坐标和乌龟光锥坐标的定义。

注意 r 在 r = 2 M 处是单数。这意味着在 r = 2 M 处也是奇异的乌龟光锥坐标不覆盖被定义为黑洞内部的r2M*的区域。为了覆盖整个史瓦西黑洞时空，我们需要再次改变我们的坐标系。这个新坐标系将是Kruskal–Szekeres 光锥坐标的解析延伸，定义如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 4:克鲁斯卡尔–塞克里斯光锥坐标。

线元素变成:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 5:等式中 Kruskal–Szekeres 光锥坐标中的线元素。4.我们注意到 r=2M 处的奇点不存在。

现在和 Eq 比较一下。1.我们看到，选择这种坐标系，史瓦西半径 rT21 = 2M*处的奇点消失。因此，如前所述， r = 2 M 是坐标奇点(坐标系的一种手段)而不是物理奇点。这意味着当自由落体的观察者穿过半径 r = 2 *M，他不会感觉到任何异常。

现在，请注意，Kruskal–Szekeres 光锥坐标具有以下有效域:-∞ < u < 0 和 0 < v < ∞。这些坐标不包括区域r<2M*。换句话说，它们只在黑洞外有效，对于r>2m .然而注意，线元素 Eq。5 对于所有-∞ < u < ∞和-∞ < v < ∞都是定义良好的，覆盖了所有的史瓦西时空。然后我们必须解析地扩展坐标 u 和 v 以包括值 u > 0 和 v < 0。*

在 Mukhanov 和 Winitzki 之后，我们可以使用等式根据原始坐标( t，r )来表示新的、克鲁斯卡尔-塞克雷斯光锥坐标( u ， v )。第三第四第五。我们得到以下两个关系:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 6:根据 t 和 r. 的 Kruskal–Szekeres 光锥坐标

假设我们解析地继续 u 和 v ，这些关系将对所有史瓦西黑洞时空有效。

为了获得著名的史瓦西黑洞的 Kruskal-Szekeres 图，我们引入了两个新的坐标，即

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 7:坐标 u 和 v 的定义。

现在，为了覆盖整个图表，我们必须扩展坐标( u ， v )。将扩展变量( u ， v )用原始坐标( t ， r )表示，我们得到两组坐标，即:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 8:史瓦西黑洞几何上的两组 Kruskal–Szekeres 坐标。顶部的一对坐标覆盖了黑洞的外部( r > 2 M) ，而底部的一对坐标覆盖了其内部( r < 2 M) 。

Kruskal-Szekeres 图如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5:Kruskal–Szekeres 图，其中轴是坐标(T，R)。史瓦西黑洞时空被分成四个渐近区域 I、II、III 和 IV。常数 r 的曲线是双曲线，常数 t 的线是直线(来源)。

请注意几个重要特征:

我们看到( u ， v )零测地线是斜率为π/4 和-π/4 的线
来自 Eq。6、超曲面 r = const 对应于 T - R 平面中的以下双曲线:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 9:超曲面 r = const 对应于 T - R 平面中的以下双曲线。

来自 Eq。6、对于r>2M，我们有uv<0，这就暗示了双曲线 r =常数由等式。9 是时间型的。对于 r < 2 M 则相反， uv > 0 和双曲线 r =来自等式的常数。9 个是类似太空的。所以只有在黑洞之外，史瓦西坐标 r 才有通常的解释。**
从等式中的第二个表达式。6、我们看到曲面 t =常数用直线表示。对于 r < 2 M (黑洞内)时间 t 成为空间坐标。在外面， t 仍然解释为时间。不严格地说，在视界内部，空间和时间被有效地互换了！
在 T 的两个值处出现两个奇点:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

方程 10:对应于 r=0 的两个类空奇点。

超出两个 r = 0 曲面的区域不能被这些坐标覆盖。

量化

为简单起见，让我们写出二维弯曲时空中纯量无质量场的作用:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

方程式 11:具有度规张量 g 的弯曲二维时空中无质量标量场的作用。

S 对应的标量场方程可以用光锥乌龟坐标或者 Kruskal–Szekeres 光锥坐标来写。在这两种情况下，它是两项的总和:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 12:根据光锥乌龟坐标和 Kruskal–Szekeres 光锥坐标写出的对应于上述动作 S 的标量场等式。

这是 S 的共形不变性的一个结果(在我之前的一篇文章中有更详细的解释)。 A s 和 B s 是行为良好的函数(有和没有“~”)。下面的解决方案就是一个简单的例子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 13:这个解表示从黑洞传播出去的右移模式(相对于史瓦西时间 t)。

根据光锥乌龟坐标书写的史瓦西线元素由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 14:用光锥乌龟坐标书写的史瓦西线元素。

在离黑洞很远的地方，这条线元素变成了:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 15:上面 r → ∞的线元素。

我们看到，在离黑洞非常远的地方，静止观测者的适当时间与等式中的 t 重合。15.因此，该观测器将具有正 ω 的模式(相对于 t 的频率)与粒子相关联(参见 Mukhanov 和 Winitzki )。

像通常在量子场论中一样，我们根据创造和湮灭算符来扩展场:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 16:确定相关的产生和湮灭算符的场ϕ的展开。(LM)代表向左移动的模式。

对应于 b 湮灭算符的真空被称为 Boulware 真空，根据远离黑洞的观测者的观察，它不包含任何粒子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

方程式 17:boul ware 真空。

正如我们之前看到的，光锥乌龟坐标只覆盖了史瓦西黑洞时空的一部分(在视界之外)，Boulware 真空在视界上有奇异的行为，因此它在物理上是不成立的。此外，相应的能量密度将在视界处发散，量子涨落将产生强烈的逆反应，这将使弱扰动经典引力场的基本假设无效。

与光锥乌龟坐标相反，Kruskal–Szekeres 光锥坐标覆盖了所有的 Schwarzschild 黑洞时空，并且在事件视界处定义明确(非奇异)。在地平线附近，Kruskal–sze keres 坐标中的线元素为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 18:地平线附近 Kruskal–sze keres 光锥坐标中的线元素。

因此，穿过视界的观察者与相对于 T 频率ω > 0 的模式相关联。再次扩大领域，如方程式。16 我们得到:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

等式 19:使用 kruskal–szekeres 光锥坐标定义相应的产生和湮灭算子的场ϕ的扩展。和以前一样,( LM)和以前一样代表左移模式。

非奇异真空态现在具有有限的能量密度，导致量子波动的小逆反应，让经典引力场保持应有的微扰。克鲁斯卡尔真空，遵守

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

方程式 20:克鲁斯卡尔-塞克里斯真空所遵循的条件。

因此，可以用黑洞附近的“真正”真空来鉴别。

现在，对于远处的观察者来说，克鲁斯卡尔-塞克里斯真空包含了粒子！它们的数量密度可以精确地按照我以前的一篇文章结尾的步骤得到，链接如下。我们需要做的唯一修改就是将加速度 a 替换为 1/4 M 项(即所谓的表面重力)。

[## 当量子场遇到引力:Unruh 效应

加速度和温度之间的关系

towardsdatascience.com](/when-quantum-fields-meet-gravity-the-unruh-effect-69d03783d6bb)

然后，我们获得由远处观察者测得的热光谱和相应的霍金温度的以下表达式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

方程 21:远处观测者测得的热谱，以及相应的温度(所谓的霍金温度)。

霍金辐射非常暗淡，被落入我们目前识别的所有黑洞中的大量热气体发出的辐射淹没。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6:一颗恒星发出的炽热物质流被一个被尘埃环包围的黑洞吞噬的示意图。

这可能是它还没有被观察到的原因之一。来自 Eq。21，我们看到只有质量极小的黑洞才会发出强度可测量的霍金辐射。

我的 Github 和个人网站 www.marcotavora.me 还有一些其他有趣的材料，既有关于物理的，也有关于数学、机器学习、深度学习和金融等其他主题的。看看吧！**

小的就够了，为什么还要费心部署一个巨大的神经模型呢？

原文：https://towardsdatascience.com/why-bother-deploying-a-huge-neural-model-when-the-small-one-is-enough-47b9a2da8df1?source=collection_archive---------57-----------------------

性能优于原始技术的模型压缩技术

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

西蒙·米加吉在 Unsplash 上的照片

深度神经网络是一种强大的机器学习方法。它在许多任务中有着非常出色的表现，包括视觉识别、自然语言处理以及语音识别。建立一个在下游任务中表现良好的深度神经网络通常需要拥有数百万甚至数十亿个参数。Krizhevsky 的模型赢得了 ImageNet 的图像分类竞赛，它有超过 6000 万个参数，只有五个卷积层和三个全连接层[1]。

部署具有这些巨大参数的模型需要大量资源和计算开销。而有时目标设备具有有限的资源，并且计算将是繁重的，尤其是对于实时应用或具有在线学习算法的应用。那么，我们如何在减小模型尺寸的同时，实现与原来更大的模型相同的性能呢？我们能否以某种方式将知识从大模型转移到小模型？

在这篇文章中，我们将通过模型压缩技术将知识从庞大的神经模型转移到较小的神经模型，而不会显著降低性能。对神经模型进行模型压缩可以通过使用参数共享和修剪或者通过使用知识提取来完成。我们将会看到它们的区别、优点和缺点。

参数共享和修剪

参数修剪和共享的思想是通过探索模型参数的冗余。通过检查原始模型参数，我们希望去除冗余和不敏感或不重要的参数，同时仍然保证原始模型的性能。在丢弃冗余参数后，具有 50 个卷积层的 ResNet-50 具有超过 38 亿个参数，可以节省超过 75%的参数和 50%的计算时间[1]。进行参数共享和修剪的三种技术是量化和二值化、参数修剪和共享以及结构矩阵。

**量化和二值化。**这种技术的思想是通过减少存储每个权重的位数。这种技术的极端情况是进行二进制化(使用 0-1 权重值)，如 BinaryConnect、BinaryNet 等。这种技术的缺点是使用大型 CNN，如 GoogleNet，会大大降低模型的准确性。
参数修剪和共享。就像名字一样，这种技术试图在一个预先训练好的 CNN 中去除冗余和无信息的权重。然而，在全连接层中使用这种技术可能会消耗大量内存。可以通过减少整个网络中的参数和操作的总数，或者通过使用哈希函数将权重分组用于参数共享，来去除权重。
结构矩阵。为了修剪完全连接的层，我们可以应用具有更少参数的矩阵乘法。这将减少记忆成本，也加快了推理和训练阶段的时间。但是，加入矩阵乘法可能会给模型带来偏差；因此，它可能会影响性能。即使找到合适的结构矩阵也很困难，因为没有理论上的方法来推导它。

由于所有的技术都试图删除一些模型参数，因此很难保持性能不下降。

知识蒸馏

与试图降低权重的参数剪枝和共享不同，知识提炼试图在更紧凑的模型(学生)中再现繁琐模型(教师)的输出。以便学生模型能够以与教师模型相同的方式进行归纳。不正确答案的相对概率显示了模型的泛化倾向。比如一张汽车的图像，可能有极小的概率被误认为是公交车，但这个概率还是比误认为是食物要大。

由于概率告诉我们关于教师模型的性能，我们然后可以使用这些概率作为目标标签来训练学生模型以转移概括能力。这些概率被称为软目标。

“当软目标具有高熵时，它们为每个训练案例提供的信息比硬目标多得多，训练案例之间的梯度差异也小得多，因此小模型通常可以在比原始笨重模型少得多的数据上训练，并使用高得多的学习率。”[2]

为了训练学生模型，我们可以使用相同的训练集，或者使用与教师模型不同的训练集。图 1 显示了知识提炼是如何工作的。我们通过在训练时使用软损失来更新学生模型。但是，向学生模型提供有关硬标签的信息可以显著提高其性能。因此，我们不是使用软损失来更新学生模型，而是使用硬损失来更新它。硬损失是由带有基本事实标签的硬预测产生的熵损失。在训练学生模型时，我们使用软损失和硬损失的加权平均值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图一。使用教师模型中的软目标传递知识插图[图片来自作者]

在 MNIST 数据集上，该模型即使在用于训练学生的训练数据缺失的情况下也能取得很好的效果。这种方法也适用于大型数据集。它表明，对于包含 1 亿张带标签图像的 15000 个类别的内部谷歌数据集 JFT 来说，进行知识提取可以更快。作者将数据集分成 61 个专家模型(具有子集训练数据的小模型)，每个模型中有 300 个类别。在较小的专业型号上，培训只需要几天时间，而不是几个星期。这些专家模型所做的其他改进是，与笨重的模型相比，准确性提高了 4.4%。

看到这种知识提炼的结果可能会引发一个问题*“这种方法会在每个数据集上都表现良好吗？”*。通过研究浅线性和深线性分类器的特定情况[3],知识提炼的成功有三个关键因素:

数据几何。第一个特征是我们用来训练模型的数据分布的几何属性，即类分离。类别分离对风险的收敛速度有直接影响。结果表明，多项式次数越高的数据越有效，学生获得的风险越低。
**优化偏差。**不仅在知识提取阶段，优化偏差通常也会影响训练阶段的收敛速度。在这种情况下，使用梯度下降非常有利于最小化学生目标。
**单调性强。**至于当我们增加训练数据的数量时，神经网络中的训练通常如何更好地工作，这也适用于这里。如果通过增加训练数据的数量来降低学生模型的风险，知识提炼将会起作用。

根据这些实验的结果，作者假设类似的特性也发生在非线性分类器中。尽管知识提炼取得了成功，但它也有一些缺点。其中之一是这种技术只能应用于具有 softmax 函数的分类任务，这限制了它的使用。另一个是，有时模型假设过于严格，无法使不同方法的性能具有竞争力。

参考资料:

[1]程，杨，王，周，张，2017 .深度神经网络的模型压缩和加速综述。 arXiv 预印本 arXiv:1710.09282 。
[2]辛顿，g .维尼亚尔斯，o .和迪安，j . 2015。从神经网络中提取知识。 arXiv 预印本 arXiv:1503.02531 。
[3] Phuong，m .和 Lampert，c .，2019 年 5 月。走向理解知识的升华。在机器学习国际会议上(第 5142–5151 页)。

我以为动物住在动物园里？从模型动物园中选择计算机视觉模型

原文：https://towardsdatascience.com/why-build-a-model-if-you-can-steal-one-computer-vision-without-training-models-c259a165cd90?source=collection_archive---------48-----------------------

入门

使用预先存在的计算机视觉模型进行对象检测

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

戴加·埃拉比在 Unsplash 上的照片

在我的上一篇博客中，我讨论了计算机视觉的一些基本概念，以及如何使用 OpenCV 创建面部识别过滤器。但是如果你想在图像中检测除了人脸以外的东西呢？有两种可能的前进方式:

**训练你自己的模型:**如果你有很多图像准备好要识别的物体，使用 OpenCV 的内置函数(如 k-Nearest-Neighbors)或更强大的机器学习库，如 PyTorch 和 TensorFlow ，你可以建立自己的模型。然而，这意味着你需要成百上千的图片来显示你感兴趣的物体。为这些创建模型也需要时间、硬盘空间和计算机能力。你还需要已经有各种计算机视觉训练算法的知识，如区域卷积神经网络(R-CNN)，更快的 R-CNN，你只看一次(YOLO)。
**使用预先存在的公开可用模型:**网上有许多资源可以帮助您在程序、应用或动态分析中构建对象检测。在我的上一篇博客中，我利用 OpenCV 预先训练的人脸和眼睛的 haar 级联模型快速构建了一个有趣的人脸过滤器。像脸书·艾的 Detectron2 等 Python 库有强大的预训练模型准备就绪(通常被称为模型动物园)。许多人在上下文中的公共对象(COCO) 图像数据集上接受训练。或者，你可以在网上找到预先训练好的模型，导入深度学习框架，如 PyTorch 或 TensorFlow，如ModelZoo.co等网站。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ga 在 Unsplash 上拍照

上述选项中的后一种显然灵活性和可定制性要差得多。因此，如果你试图在一幅图像或一段视频中发现一些非常独特的东西，最好还是走自己的路线。但是，根据您项目的目标和需求，使用来自模型动物园的现有模型可能对您有利，因为它可以节省您的时间、精力和硬盘空间。例如，在我的上一篇博客中，这个项目的目标并不是真的需要训练我自己的面部识别模型。我想看看能不能造出一个很酷的滤镜戴在人们的脸上。如果我试图训练我自己的模型，我将需要找到或创建一个面部图像数据集(这本身需要时间)，然后训练模型。但是，我所需要的是哈尔瀑布，然后我准备去。因为对象检测是一项如此常见的任务，所以使用我现有的工具要有效得多。更进一步说，许多模型很容易实现，根本不需要实际了解它们是如何工作的，也不需要太多关于计算机视觉的知识。这对于只需要对象检测功能并需要专注于其他任务的软件工程师来说特别好。

选择适合您的型号

有这么多模型可供选择，你如何知道在你的项目中使用哪一个？还是应该完全训练你自己的模型？以下是一些需要考虑的事项:

它有你需要的功能吗？有些模型只是帮助你在检测到的物体周围画一个方框，而其他模型可能会帮助你检测物体的更多独特特征，如人的四肢。但是可能没有一个模型是最适合你的，尤其是当你有一个特定的项目时。例如，也许你想检测狮子狗的图像，而不是其他品种的狗。Detectron2 使用 COCO 图像的基线狗检测算法可能会帮助您识别图像或视频中的狗，并丢弃猫的图像，但它不会完全让您达到目标。一种方法是从已有的模型出发，构建你自己的模型。
**训练一个新模特是多余的吗？**因为如此多的物体探测任务都是相似的，我是不是要重新发明轮子来创造一个全新的模型？对于像面部识别或文本检测这样的普通任务来说尤其如此。当然，用这些任务来练习训练是一个很好的编码/建模练习，但是当项目的最后期限即将到来并且已经有太多已经存在的时候，这是多余的。
**够快吗？**许多模型都是使用 R-CNN)、更快的 R-CNN 和 YOLO 等算法构建的。一些算法速度更快，而另一些算法在内存方面效率更高。如果你试图处理视频中的实时图像，一定要使用更快的 R-CNN 或 YOLO。许多模型动物园列出了速度和内存指标供您考虑(这里是探测器 2 的)
**是否足够注重细节？**使用 YOLO 算法构建的模型非常快，但有时会以牺牲特异性为代价。因此，YOLO 非常适合视频直播，但可能很难找到远处的人群。根据您试图检测的内容，确保您的模型有能力做到这一点。
**是否符合你的技能水平？**有些模型和 python 包很好拿。我的上一篇博客使用 OpenCV 轻松实现了 haar 级联。但是，请确保您拥有使用您的模型的技能和能力。这似乎是显而易见的，但是你很容易贪多嚼不烂。一些模型可能需要您可能不熟悉的 python 包，或者需要您理解您没有遇到过的概念。我确实遇到过这种情况，当我试图使用某个地方的一个模型时，我感到力不从心。

总的来说，选择一个模型，无论是你创建的还是你发现的，很大程度上是关于平衡效率(计算机的和你的)和任务要求你的详细程度。

为什么构建数据科学解决方案很复杂，但不是以您认为的方式

原文：https://towardsdatascience.com/why-building-a-data-science-solution-is-complex-but-not-in-the-way-you-think-4dccc31a9074?source=collection_archive---------56-----------------------

这不全是关于技术和算法

数据科学很复杂，从数据中获取价值很难，大多数数据项目都失败了。这些都是我们在尝试交付数据科学解决方案时感受到的痛苦。在与业内不同的人交谈后，数据团队在该领域面临的最常见挑战通常被认为是构建数据科学解决方案的复杂性。这种说法有些道理，但我认为，对于为什么它如此复杂，人们普遍存在误解。如果没有对复杂性来源的正确理解，我们将继续努力实现价值。

对于那些使用真实数据处理业务问题的人来说，我们知道与此相关的痛苦和复杂性。从数据中传递价值是困难的，因为数据是杂乱的，因为统计假设在实践中并不总是成立，因为有时我们甚至没有正确的数据来回答问题。然而，尽管我们喜欢认为数据科学的复杂性来自技术挑战，但我认为真正的复杂性在其他地方。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由吕山德·袁在 Unsplash

我们在解决什么问题？

我们多久会停下来问自己这个问题？不幸的是不够经常。我敢肯定，我们都有丰富的学习经验，在过去，我们花了太多的时间来构建一个解决方案，却没有解决我们想要解决的问题。不是我们不知道如何构建正确的解决方案，而是当我们专注于技术问题时，我们不善于跟踪更大的画面。我们经常花太多的时间讨论一个解决方案在技术上是否设计良好，而没有足够的时间来验证这个解决方案是否解决了我们试图解决的问题。

不管你的解决方案有多好，你的模型预测有多准确，或者你有多少测试覆盖率，如果它没有解决正确的问题，它仍然是一个无用的解决方案。最大的复杂性之一是了解您试图解决的业务问题，因为有时您没有数据科学问题，当然数据科学解决方案对您没有任何好处。

你是做数据的还是做科学的？

数据科学的普及是由捕获、处理和分析大量数据的能力引发的，机器学习的核心前提是，使用大量数据和简单的算法将比使用少量数据的复杂模型产生更好的结果。即使这些是业内广泛接受的信念，我们仍然看到公司更多地关注科学，而不是足够的数据。数据科学家获得了丰厚的报酬来测试不同的算法和调整超参数，但现实是算法并不是解决方案的复杂部分。另一方面，清理数据、理解如何捕获数据以及如何使用数据的细微差别和含义，以及从杂乱的数据中得出有意义的特征，这些任务受到了行业的反对，好像这是数据科学家应该做的事情。数据科学的复杂性在于数据，然而我们却没有在这方面花费足够的时间和精力。虽然我们通过做更好的科学获得边际效益，但如果我们使用更好的数据，我们会获得更大的改善。

你在建造正确的东西吗？

构建数据科学解决方案与构建软件解决方案没有什么不同，重要的是解决方案需要解决问题。我们不使用网飞，因为他们有一个伟大的微服务架构，我们不使用 LinkedIn，因为他们有一个分布式流媒体平台，我们当然不使用谷歌，因为他们有一个强大的容器编排系统。技术很酷，作为一个书呆子，我理解玩技术的吸引力甚至冲动，但它们只是工具，拥有更多工具并不能帮助你提供正确的解决方案。

我们需要专注于从数据中提供价值，也许我们需要一个机器学习模型，也许我们需要一个仪表盘，或者也许我们只需要一份简单的周报。找到支持您需求的技术是首要任务，只有在我们解决了核心问题后，其他一切才是重要的。我们喜欢花时间来检验我们的设计，自动化 CI/CD 管道和优化性能，虽然这些事情很重要，但如果我们的解决方案不起作用，它们就没有任何意义。想想看，如果网飞没有你想看的节目，但他们告诉你他们有一个架构良好的系统，你是否还会订阅他们的节目。

你打算怎么办？

最后的复杂性在于我们在构建解决方案后如何处理它。数据科学可能给了我们更好的工具，但归根结底，它只提供了一堆数字。这些数字可能会告诉我们有价值的信息，例如我们的客户是否会流失，他们有兴趣购买什么产品，或者我们如何才能最好地与他们沟通。但它们只是数字，除非我们用它们做一些事情，我们需要将解决方案付诸实践，以从我们的数据中获得价值。部署和使用一个普通的解决方案远比一个永远见不到天日的伟大解决方案更有价值。

构建数据科学解决方案来解决我们的问题无疑是复杂的，能够提供这些解决方案的公司比竞争对手更有优势也就不足为奇了。人们很容易认为，这些公司之所以成功，是因为它们解决了问题的所有技术复杂性，但如果我们退一步，我们也应该认识到，它们的成功不仅仅是因为技术能力。他们清楚地了解他们要解决的问题，他们了解他们正在处理的数据，他们专注于构建正确的东西，最重要的是，他们正在将解决方案付诸实践。因此，如果您想要成功地为您的问题构建数据科学解决方案，请确保您了解真正的复杂性在哪里。

如果您喜欢我的内容，请在 https://jchoi.solutions/subscribe注册更多内容

为什么建立机器学习模型就像烹饪一样

原文：https://towardsdatascience.com/why-building-a-machine-learning-model-is-like-cooking-4bed1f6115d1?source=collection_archive---------48-----------------------

逐步比较

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自 Pexels 的 Andrea Piacquadio 的照片

W 当我第一次成为数据科学家时，我意识到机器学习是一个模糊的概念，人们听说过但不太理解。我努力用一种非技术人员也能理解的方式来解释机器学习。

快进到今天，我突然意识到，建立一个机器学习模型就像烹饪——一项人人都可以参与的普遍活动，除非你对烹饪的想法是把冷冻晚餐扔进微波炉。事不宜迟，让我带你了解构建机器学习模型就像烹饪一样。

1.数据准备

建立机器学习模型的第一步是准备数据。根据数据基础设施的不同，这可能涉及从各种来源提取原始数据并加载到数据库中。在成熟的公司中，数据在数据库中，数据科学家只需要找到模型所需的数据。

同样，烹饪的第一步是获取原料(数据)。你可能需要去杂货店买家里没有的食材(从各种来源拉)。

2.探索性数据分析

接下来，数据科学家研究数据以分析趋势，删除重复和缺失值等不良数据，并将其转换为可用于建模的形式。对于可用的形式，我的意思是如果模型期望每个用户一行，那么数据需要被聚合和转置以满足这个需求。

类似地，你必须探索配方成分，以决定你是想用新鲜的还是冷冻的，或者如果你在商店找不到的话，用替代品代替。食谱可能要求配料在加入菜肴之前进行预混合或预烹饪(转化为可用的形式)。

3.选择一个模型

第三步，根据建模问题选择一个模型算法。

这类似于选择烹饪方法——烤、炸、蒸等。

4.训练模型

现在，数据科学家将使用选定的算法来训练模型。为了确定模型的准确性，从训练中拿出一部分数据来评估模型使用从未见过的数据预测结果的能力。

同样，你按照食谱烹饪你的菜肴，并把它的味道与你过去做过的菜肴进行比较。

5.评估模型结果

数据科学家检查模型结果，并根据结果，使用另一种模型算法重复步骤 3 和 4。有时，数据科学家可能需要从步骤 1 重新开始，以评估是否可以引入任何新数据来改进模型结果。

根据你对菜肴味道的满意程度，你可以调整你的烹饪方法或者用不同的材料重新开始。

6.参数调整(可选)

可以调整模型参数以提高精度，但如果模型结果可以接受，这是一个可选步骤。

在烹饪中，如果你对菜肴的味道不满意，可以调整配料或调味料的比例。

7.将模型部署到生产中

使用历史数据训练模型。在模型被训练之后，它将被投入生产，在那里它被用来使用当前的数据预测未来的结果。

同样，一旦你准备好了你的菜，并且对它的味道感到满意，你就可以把它端给你的家人和朋友了。

8.模型再训练

这是很少提到的最后一步。已经投入生产的模型偶尔需要用更多的最新数据重新训练。模型使用某个时间点的数据来预测未来的用户行为。如果用户行为随时间变化，模型就不能捕捉到这一点，预测精度就会下降。由于疫情，这一点尤其如此。用户行为在 2020 年发生了巨大变化，使用一年前的数据建立的模型预测将受到影响。

我想到的最贴切的烹饪比喻是，如果你的菜需要季节性的或关键的配料，而这些配料并不容易获得。在这种情况下，你使用了一种接近的替代方法，但是这道菜没有原来的食谱好。

下次你听数据科学家谈论他们的机器学习模型时，我希望烹饪成为你的通用翻译器。

你可能也会喜欢…

[## 我如何使用机器学习模型来生成可操作的见解

将数据科学与数据分析相结合

medium.com](https://medium.com/swlh/how-i-used-a-machine-learning-model-to-generate-actionable-insights-3aa1dfe2ddfd) [## 如何将机器学习成果转化为商业影响

向高管解释模型结果

towardsdatascience.com](/how-to-translate-machine-learning-results-into-business-impact-d0b323112e87)

为什么要建立人工智能去中心化自治组织(AI DAO)

原文：https://towardsdatascience.com/why-building-an-ai-decentralized-autonomous-organization-ai-dao-85d018700e1a?source=collection_archive---------15-----------------------

为什么大多数传统商业组织都处于危险之中(商业模式，AI 代理等。)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

帕特里西奥·达瓦洛斯在 Unsplash 上拍摄的照片

除了实施人工智能的复杂挑战，一些公司已经开始分析建立人工智能分散自治组织(AI DAOs)的可能好处。

在我最近的任务中，我必须帮助创建新的商业模式，确定正确的人工智能方法，并为创建几个人工智能 Dao 概念证明创建路线图。事实上，我们认为这些数据驱动的全自动化组织将在未来几年成为大多数传统组织的主要威胁。

在这篇文章中，我将帮助你理解我们所说的去中心化自治组织(Dao)的含义，从商业模式的角度看它们的战略重要性，以及人工智能在 Dao 崛起中的关键作用。

分散自治组织

让我们从定义本文的关键概念开始。

(道 ):通过编码为计算机程序的规则运行的组织，称为智能合约。(1)

DAO 的目标是创建一个没有“人”的层级管理也能运行的组织。

理论上，人类和组织之间的任何交互都可以表示为一个契约。基于区块链技术的智能合同(信息传输和合同执行)使我们能够基于云构建这些类型的组织。目标是能够自动化所有的管理和行政职能。一个 AI DAO 的 AI 方面可以与自主做出决定的独立代理相关。

Dao 不仅代表了一场技术革命。事实上，人工智能道可以使用人工智能代理创造自己的产品和服务并出售，而利润将归人类所有。我相信，一旦普遍收入在几个国家开始实施，DAOs 将会发挥重要作用。

三种涉道方式。

1.可以买股票/加密货币/代币
2。他们可以授予你
3。您可以让他们为 DAO 执行特定的任务

收入部分可以与主动或被动工作相关。例如，查找 bug、开发软件或 DAO 要求的任何任务。被动工作可能意味着共享某些东西，比如你的计算机处理周期、存储，甚至是你的数据。

事实上，DAO 是一种实现令牌所有权、契约义务和业务逻辑规则的计算机算法。当所有这些事情结合起来，我们就获得了一个自主的、数据驱动的、透明的公司，通过智能合约在虚拟股东之间分配价值。

智能合同: 一种自动执行的合同，买卖双方的协议条款被直接写入代码行。守则和其中包含的协议存在于一个分散的区块链网络中。 ( 2 )

根据我的经验，只有少数分散的自治组织(Dao)已经存在，但是它们的规则已经作为智能契约建立起来了。组织可以执行行动，但我没见过独立决策的系统。大多数时候，它遵循智能合约开发人员编写的规则。

我们的目标是建立一个不需要人力投入的组织，不仅能很好地运作，而且能对其结构进行独立的深思熟虑的改变。

战略重要性

出于几个原因，我们相信开发 DAO 的能力将是未来的基础。与目前的组织相比，Dao 有几个竞争优势。

由于缺乏层级结构，道安内部的创新过程与传统组织相比可能要好得多。在一个道中，每个创新的想法都可以由任何人提出，并由整个组织考虑。

从运营成本来看，让人类处于边缘，同时受益于自动化和人工智能独立代理是一个重大的游戏规则改变者。

Dao 代表了商业组织发展的一个新阶段。我们认为几种技术(人工智能、区块链等)的融合。)不仅会创造新的商业模式，还会创造新的组织类型，与我们的一些业务部门展开竞争。

因此，大公司开始预测 Dao 的影响是非常关键的。我们还希望看到越来越多的小型独立 Dao，每个人都可以轻松地投资其中。出于这个原因，创建我们自己的 AI DAOs 并与我们的客户分享所有权可能是战略性的。这种转变将对客户和组织之间的互动方式产生重大影响。

由维塔利克·布特林制作

我们可能会进入一个时代，在这个时代，大多数公司都可以由人工智能(未来可能是 AGI)来运营，并相互交流。这种潜在的“人工智能对人工智能的经济”(3)对我们现有的商业模式构成了重大威胁。由于与 Dao 相比缺乏竞争力，许多公司可能会消失。我们问自己这样的问题:

面对一个更好地利用数据并且运营成本更低的组织，我们如何保持竞争力？
我们的客户会对销售类似产品的爱道有什么反应？
”
能否建立“内部”艾道，将客户转化为投资人？

新的业务模式、路线图和使用案例

理论上，我认为 AI DAOs 是有史以来最具成本效益和最开放的商业模式。由于 DAOs 的性质(不需要员工或执行经理)，这些组织可以在几乎不可能的利润率上生存，并且只需要覆盖现有的成本。

任何企业都可以从一个有着道一样雄心的模式中获益。

我们的路线图是逐步实现 AI DAO 概念。它可以从一小部分管理和行政角色的自动化开始，但随着公司变得更加数据驱动，智能合同处理越来越复杂的任务，这些百分比将随着时间的推移而增加。

此外，我们将 DAOs 视为一个在其实现中具有一定纯度的构造。会有这样的情况，一家公司中只有 10%的人是这样运作的.

说到具体的用例，我选择/确定了以下几个:

用例# 1——营销 一种人工智能方式，其中人工智能选择最好的公司或用户来投放广告。在每个营销周期之后，人工智能会评估投资回报率，并相应地调整其营销行动。这个想法是通过反馈环创造一个良性循环，帮助组织不断适应。
用例 2——Art 使用生成模型(gan ),我们可以创建 AI DAOs 来交易他们的作品，并将利润作为加密货币令牌分配给他们的股东。人工智能可以识别新趋势(社交媒体上的 NLP)，创建自己的对象(3D 打印)，并使用自主代理在线销售(特定网站)。利润将使用加密货币进行分配。
用例#3 —自动售货机
与自动售货机相关的 AI DAO 不仅可以用来取钱和送点心，还可以用这些钱自动重新订购商品。这台机器还将管理清洁服务，并自行支付租金。它没有管理器，所有这些流程都预先写入了代码。( 4 )

谈到商业模式，我们正处于一场大规模革命的边缘。事实上，人们将有可能同时选择数百种不同的商业模式并为之做出贡献。

我们设想在未来，人们可以搜索他们喜欢的任何类型的企业，评估不同的角色，和/或投资于它们。薪酬将基于绩效，允许每个人完全控制自己的收入。

人工智能

正如你可能已经知道的，大多数当前的人工智能解决方案在决策过程中有所帮助*，但很少从他们的行动中学习并优化他们自己做出的决定。*通常，解决这种情况最明显的方法是根据新的可用数据和标签重新训练模型。

可能需要适应性 ML 和理解因果关系的改进来解决从错误中学习的能力。因此，我不会说人工智能对于一个复杂的人工智能道已经成熟。

我们已经使用负责执行网络决策的人工智能代理建立了分散式组织的概念验证。这种方法提供了更多的可伸缩性。例如，投资者可以简单地将他们的偏好传达给人工智能代理，而不是为每一个行动投票。这些数以百万计的微观决策可以由网络的人工智能代理自动处理。

理想情况下，我们试图建立一个系统，其中不同的人工智能可以寻找不同的参数(例如，品牌，人力资源等。)并为员工和股东做出最佳决策。

事实上，AI DAOs 可以结合执行不同子任务的多种算法，并可以访问网络上交换的训练数据。这个想法是创建一个巨大的反馈回路，系统将不断地从行动和客户数据中学习。

人工智能对于自我管理的理念也是必不可少的。一个特别的例子是，当"一体行动"讨论与供资有关的项目时。在这种情况下，自主代理必须首先确认他们与核心价值和目标一致。

我们已经确定了两到三个与 AI 相关的可能的 AI 架构。但是，其他的也可以存在。此外，一条路径可以与其他路径组合。( 6

第一个在今天是不可能实现的，因为我们还没有成功创造出一个人工智能 (AGI)。想象一下，一个 AGI 系统利用智能合约，负责运行组织并与令牌持有者(人类)进行交互。

人工通用智能:能够像任何人一样理解世界的机器，并且具有学习如何执行大量任务的相同能力。( 7 )

截至今天，我们认为依赖人工智能代理似乎是最具可扩展性的解决方案。我们的内部项目基于这种方法。我们经常依赖强化学习算法。

***人工智能代理:*自主实体，通过传感器和随后的致动器对环境进行观察，采取行动，指导其活动实现目标。智能代理也可以学习或使用知识来实现他们的目标。它们可能非常简单，也可能非常复杂。

来源

劣势和障碍

在尝试构建第一个 DAO 概念验证时，我意识到有许多问题需要解决，例如技术限制、复杂性和道德问题:

***首先，*关键要提醒大家的是，对这项技术的了解和使用案例还很少。由于这个原因，失败的可能性很高。从法律的角度来看，Dao 还没有合法的分类，这是一个问题，因为即使我们成功了，我们也不能合法地将这个自治实体…

可以想象，开发一个 DAO 会带来许多与数据安全和特定领域知识相关的问题。由于所有的代码在区块链上都是可见的，并且很容易访问，已知的安全漏洞可能会被黑客利用，直到所有的参与者通过协商一致同意修复缺陷。我们目前正在尝试利用同态加密来解决这个问题。

***同态加密:*一种加密方法，允许对密文数据进行数学运算，而不是对实际数据本身进行运算。( 8 )

一把刀的制造部分还是有限的。我的意思是，在机器人变得更便宜、更容易使用之前，一个处理实体产品的组织将永远需要人力。商业案例仍然不够明显，不足以说服内部 C 级高管进行大规模投资。

另一个挑战是当今组织日益增长的复杂性。事实上，业务流程正变得越来越复杂，因此当涉及到平稳、公平的操作时，一个适当的自管理 DAO 需要考虑更多的问题。我们的目标是简化和优化治理机制。

构建 DAO 概念验证的另一个关键挑战是定义日常业务运营的所有规则。这是一项非常复杂和乏味的任务。理想情况下，您的概念验证可能需要几个月才能成为现实，因为定义和评估所有这些小任务需要时间。

总的来说，一个新刀就像一个创业公司。它需要产品/市场的匹配和可靠的商业模式。另一个问题与不同人工智能代理的协调有关，以实现整个系统的目标。即使规则明确且得到执行，问题还是会出现。

我们也质疑遗传算法在更新代码中的作用。此外，我们还想确定 Dao 是应该尝试保持其他货币的余额，还是应该只通过发行其内部令牌来奖励行为？

由于上述原因，在 AI DAOs 成为可扩展的商业机会并获得牵引力之前，我们还有很长的路要走，但权力结构分散的趋势增加了这些类型的组织很快成为可能的可能性。

我认为大公司应该已经尝试建立概念证明，以更好地理解这个新组织如何影响他们的商业模式。

要了解更多信息，我推荐以下链接:

为什么买新车可能不是最好的主意？

原文：https://towardsdatascience.com/why-buying-a-new-car-may-not-be-the-best-idea-1370f2a91bfc?source=collection_archive---------77-----------------------

web 抓取和数据可视化如何帮助您做出更明智决策的示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由亚历山德拉·布伦南提供

汽车:通勤、旅行、购物的一种方式，根据交通部的说法，是英国最主要的交通方式。2018 年，83%的总行驶公里数是通过汽车完成的。(交通运输统计 GB 2019[1])。汽车广告唤起自由、力量和独立的感觉。将它们持续下降的实际价格2与看似无限的可用金融选项结合起来，难怪 2018 年每户家庭的平均汽车数量为 1.2 辆(不包括伦敦为 1.3 辆)。似乎每个人都能看到拥有一辆车的好处，然而它确实提出了一个问题:买一辆新车在经济上是否明智，或者买一辆二手车是否是一项更合理的投资(提示:是后者)。

为了证明这一假设，使用 python 的 beautiful soup 从一个受欢迎的汽车市场收集了总共 85，000 条新车和二手车记录。搜集到的数据包括平均价格从 8700 英镑(达契亚桑德罗斯)到 101000 英镑(奥迪 RS 7s)的车型。然而，在这项研究中，新车与老款车的比较将集中在掀背车上，因为这种车型占总市场的 35%,如下图所示。使用 Tableau 将数据可视化。其余类别/型号的数据，以及其他信息，如每种型号的平均价格和市场份额，可以在 tableau public 网站上找到。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不同车型的新车/旧车市场份额。包含少于 0.1%的类型被移除以避免视觉混乱。

为了描述价值折旧的幅度，选择了六个模型，如下图所示。这些车型约占两厢车的 17.4%，新车平均价格在 16，700 英镑(雷诺 Clio)至 21，500 英镑(标致 208)之间。该图清楚地表明，一辆新车的价格在一年后平均下降了 30%。第一年内，标致 208 和沃克斯豪尔 Corsa(也称为欧宝 Corsa)的价值降幅最大，达到惊人的 50%。这种下降趋势持续到第 7 年，新车价格平均下降 65%。大众 Polo 似乎是赢家，一年后价值仅贬值 10%，七年后贬值 60%。注意数据中的异方差水平也很有趣。第一年的贬值幅度在 10%和 52%之间，七年后缩小到 60%和 70%，这表明，不管在拥有汽车的最初几年中经历的损失(例如，Polo 车主)，一段时间后，它们都下降到相同的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一些受欢迎的掀背车随着时间的推移汽车价值贬值(%)。大众 POLOs 相比其他车型表现更好。标致 208s 和欧宝 CORSAs 在初次购买后的第一年贬值约 50%。

另一个与拥有汽车相关的重要因素是保险费用。为了确定哪些因素对保险成本的影响最大，上图中所示的掀背车的报价是从保险比较网站上获得的，并在下图中根据其生产年份绘制出来。显示的高保险费用是由于我在英国很少开车，反映了保险公司必须承担的风险增加。然而，很明显，除了汽车的制造年份，一个很大的影响因素是汽车使用的燃料。柴油车的保险费用更高，如 208、ASTRA 和 CLIO 所示。另一个导致灰色区域内保险成本增加的因素是同一型号的高性能、大马力版本的存在。很明显，保险公司在为 200+马力的 208s 和 CORSAs 投保时会感到焦虑。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不同车型的保险成本与生产年份的函数关系。柴油汽车的保险费用更高。灰色区域对应同一型号的高性能版本。

购买新车的诱惑力显而易见:先进的安全功能、较低的维护成本、定制的机会，以及在耗尽你破旧的掀背车后你可能渴望的新鲜的零英里起步。如果一辆新车是不可转让的，考虑你购买的汽车品牌，考虑你是否想在几年内卖掉它，它的价值会下降多少。最终，数据表明购买一辆新车在经济上是不值得的。如果价值上最大的贬值是在第一年，买一辆一两年的车，把剩下的辛苦赚来的钱花在其他东西上:家里，假期，大学，家庭，不是更好吗？

参考文献

[1]交通运输统计，GB (2019)。https://assets . publishing . service . gov . uk/government/uploads/system/uploads/attachment _ data/file/870647/TSG b-2019 . pdf

[2]:剑桥计量经济学(Cambridge Econometrics)，英国消费价格:解释汽车和服装鞋类的实际消费价格下降(2015)。https://assets . publishing . service . gov . UK/government/uploads/system/uploads/attachment _ data/file/416395/BIS-15-194-consumer-prices-in-the-UK-explain-the-down-in-real-consumer-prices-for-cars-and-closure-and-shoes . pdf

[3]:在线视觉供你摆弄 tableau 公共:https://public.tableau.com/profile/antonios.alexiadis#!/viz home/carvaluedepreciationandsigningfulanalytics _/story 1

为什么选择校准器？概率校准系列的第 1 部分

原文：https://towardsdatascience.com/why-calibrators-part-1-of-the-series-on-probability-calibration-9110831c6bde?source=collection_archive---------22-----------------------

概率校准

为什么以及何时应该校准分类器的概率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由威廉·沃比在 Unsplash 上拍摄的照片

本系列的主题是在标准 ML 课程中很少出现但在行业中经常出现的东西——概率校准。在本系列的第一篇文章中，我将对分类器的概率校准做一个总体介绍，并讨论什么时候使用校准品是有意义的。

介绍

在机器学习中，有时需要概率分类器——不仅返回最可能的类别标签，还返回该类别的概率的分类器。当预测的概率与感兴趣的事件的真实概率匹配时，概率分类器被很好地校准。例如，如果欺诈分类器返回 0.1 或 10%的特定信用卡申请欺诈的可能性，如果相似类型的申请在 10 个样本中平均有 1 个是真正欺诈的，则该数字被认为是校准良好的。

当预测概率的绝对值(而不仅仅是等级顺序)对建模者很重要时，这一点很重要。体育博彩就是一个例子。

在 2018 年世界杯之前，VegasInsider.com公布了德国赢得比赛的 5/1 赔率，这意味着每一美元，如果德国赢了，你可以拿回 6 美元(原始美元加上 5 美元支出)，否则就没有美元。所以如果你想赌德国赢，你最好确定德国比⅙有更大的胜算。如果您构建了一个分类器来预测每个队的获胜概率，并且其输出是德国:0.25，英格兰:0.1，您希望确保分类器告诉您德国有 25%的获胜机会，而不是仅仅说德国比英格兰有更好的机会。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下注之前，先了解自己的胜算。由 Kay 在 Unsplash 上拍摄

校准图

校准图是检查分类器在已知结果的给定数据集上的校准程度的标准方法。(只对二元分类器有效；对于多类分类器，每个类需要一个单独的校准图)为了创建校准图，遵循以下步骤。

使用分类器对数据集中的样本进行评分。
根据预测的正类概率将数据分组。
计算每个箱中实际阳性的分数。
对于每个条柱，用 y 轴上的实际阳性分数和 x 轴上的条柱中点(平均预测概率)绘制一个点

让我们使用 sklearn 的 calibration_cruve 在真实数据集上绘制一个校准图

from sklearn.datasets import make_classification, load_breast_cancer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.calibration import calibration_curve
from matplotlib import pyplot# generate 2 class dataset
X, y = sklearn.datasets.load_breast_cancer(return_X_y=True)# split into train/test sets
trainX, testX, trainy, testy = train_test_split(X, y, test_size=0.5, random_state=2)# fit a model
model = SVC()
model.fit(trainX, trainy)# predict probabilities
probs = model.decision_function(testX)# reliability diagram
fop, mpv = calibration_curve(testy, probs, n_bins=10, normalize=True)# plot perfectly calibrated
pyplot.plot([0, 1], [0, 1], linestyle=' - ', label='perfectly calibrated')# plot model reliability
pyplot.plot(mpv, fop, marker='.', label='Support Vector Classification')
pyplot.xlabel('Mean predicted value')
pyplot.ylabel('Fraction of positives')
pyplot.legend()
pyplot.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

完美校准的分类器具有 y = x 形式的校准曲线，如图中蓝色虚线所示。将 SVC 分类器的校准曲线与完美曲线进行比较，我们可以看到，它预测的概率在低端太低，在高端太高。这是最大利润法的典型情况；彻底的解释可以在这里找到。

当开箱即用分类器的输出没有很好地校准时，正如我们上面的例子中的情况，可以训练校准器来纠正这种情况。它是从原始分类器输出到校准的概率分数的映射。如何训练这样的校准器是下一篇博文的主题，然而，在训练校准器之前，我们应该首先问自己，校准器是否是绝对必要的。同样值得注意的是，在现实生活中，我们永远无法实现一个“完美校准”的分类器，即使有校准器也不行。我们需要校准曲线与完美曲线的匹配程度在很大程度上取决于具体的使用情况。

谷歌的推荐

谷歌工程师在他们的机器学习速成班——分类:预测偏差中表达了非常强烈的反对校准器的观点:

您可能会尝试通过对学习的模型进行后处理来纠正预测偏差，也就是说，通过添加一个调整模型输出的校准层来减少预测偏差。例如，如果您的模型具有+3%的偏差，您可以添加一个将平均预测值降低 3%的校准图层。但是，添加校准层并不是一个好主意，原因如下:

你只是治标不治本。

你已经建立了一个更脆弱的系统，你现在必须保持更新。

如果可能，避免校准层。使用校准层的项目往往会变得依赖于它们——使用校准层来修复模型的所有缺陷。最终，维护校准层会变成一场噩梦。

何时使用校准品

在同一篇文章中，谷歌还列出了预测偏差的可能根源:

不完整的特征集
噪声数据集
漏洞百出的管道
有偏训练样本
过度强正则化

我强烈建议在使用校准品之前，仔细阅读该列表并尝试解决这些问题。

话虽如此，尽管谷歌善意的警告，校准器还是经常被使用。这并不意味着它们都是由糟糕的工程师创造的。在实践中，事情要复杂和微妙得多，有时不可能“治标不治本”，以下是一些使用校准品的典型场景:

一些类型的分类器本质上没有被很好地校准

谷歌使用逻辑回归作为他们的例子，并声称*“逻辑回归预测应该是无偏的。”*然而，许多其他类型的分类器，例如随机森林或 SVM，却不是这样。特定类型的分类器是否被很好地校准取决于它的学习算法和损失函数。有关一些常见类型的分类器校准效果的详细比较以及对潜在原因的更深入解释，请查看 scikit-learn 的概率校准指南。

训练期间欠采样或过采样

这些是在实践中用于处理数据集中不平衡的技术。例如，在信用卡交易数据集中，可能会有大量的虚假(非欺诈性)结果和相对较少的真实结果。在不平衡的数据集上训练标准的 ML 模型通常是具有挑战性的-少数类的实例很少意味着学习算法通常不能很好地概括少数类的行为。这通常会导致较差的预测准确性。

处理这种情况的一个典型策略是重采样，要么通过欠采样(随机移除多数类的样本)，要么通过过采样(复制数据集中的少数类)。这种策略提高了预测精度，但代价是在训练集和测试集之间引入了类别分布的差异。即使分类器在训练集上校准良好，它也不再在测试集上校准，因为分布已经改变。

本文详细研究了这一问题，并介绍了一种获得更加校准的输出的方法，该方法实质上是在原始输出和最终输出之间添加一个校准层。

标签移位

标签转移是机器学习中分配转移的一种类型，在生产 ML 系统中很典型。在这种情况下，P(X|y)保持不变，但 P(y)发生变化。这将导致模型产生未校准的结果。再次使用信用卡交易的例子—也许欺诈在 2019 年是一个大问题，10%的交易是欺诈性的，但在 2020 年大多数欺诈者都走了，只有(！1%的交易是欺诈性的。把 2019 年的数据全部扔掉，往往是不可取的。更好的方法是使用更新的数据和新的基础欺诈率来校正模型的校准。这篇博文详细分析了这一现象，并提出了一个很好的解决方案。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

克里斯·劳顿在 Unsplash 上的照片

部分观察数据集

在生产 ML 系统中，标签有时来自观察到的事件，例如用户是否观看了视频或偿还了贷款，这意味着我们只在具有观察到的事件的数据集上有标签。例如，在信贷承销中，我们只观察已发放贷款的支付模式。如果我们在带有观察标签的训练数据上训练一个模型，它将不会得到很好的校准，因为训练数据的贷款将比测试数据集少得多，测试数据集包括所有传入的申请(假设当前的生产模型在拒绝具有高违约概率的贷款申请方面做得很好)。

这是 ML 中众所周知的反馈循环问题，恢复测试集上正确数据分布的一种方法是使用exploration——批准一些通常被拒绝的贷款申请，并增加这些贷款的权重。然而，这是一个昂贵的策略，在大得多的训练集上是不可取的。即使钱不是问题，它也会遭受其他问题，如高方差和数据集转移。同样，在这种情况下，很难训练一个现成的校准模型，而在一个精确的测试数据集上训练校准器更有效。