TowardsDataScience 博客中文翻译 2019（五百四十三）

最新推荐文章于 2024-09-30 02:13:05 发布

绝不原创的飞龙

最新推荐文章于 2024-09-30 02:13:05 发布

阅读量2.2k

点赞数 8

分类专栏： MLM 文章标签： MLM

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

本文链接：https://blog.csdn.net/wizardforcel/article/details/142624936

版权

MLM 专栏收录该内容

3744 篇文章

订阅专栏

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

Linux 及更高版本的 Web 服务器

原文：https://towardsdatascience.com/web-servers-in-linux-and-beyond-1241ca557a4f?source=collection_archive---------22-----------------------

Web 服务器似乎是一个难以理解和令人困惑的话题，尤其是当它与像 Linux 这样的外来操作系统结合在一起时。除了最初的复杂性之外，web 开发的世界总是在变化的，你一年(或一个月)学到的东西。)下一次可能不再有效。此外，没有一种特定的 web 服务器技术，初学者可能会发现很难置身于不同的阵营和框架中。然而在实践中，web 服务器的理论和应用是简单和用户友好的。在这篇文章中，我将介绍什么是 web 服务器，以及它们在 web 开发中的不同应用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Kelvin Ang on Unsplash

web 服务器是将文件从一台计算机传输到另一台计算机的工具。文件要去的地方被称为客户端，(通常是个人电脑上的浏览器)，而服务器本身也是一台电脑，尽管它没有屏幕或传统的 GUI。虽然我们大多数外行人认为计算机与我们用它们做什么有关，但计算机有它们自己看不见的重要功能，例如服务器。服务器的工作是托管网站，客户端(您)可以请求和访问这些网站。总之，web 服务器监听来自客户机的请求，并向它们返回数据，通常是一个文件。

Web 服务器托管网站，网站只是文件的集合，(尽管文件的扩展名类型很奇怪，如。html，。css，还有。js)。当您想要访问一个网站时，您键入它的 URL 或统一资源定位符，您的计算机就连接到托管它的服务器。这种对服务器上文件的请求称为 HTTP 请求，代表超文本传输协议。如果服务器找不到该文件，将返回 404 响应。需要记住的一件重要事情是，一个网页的不同组件可能位于不同的服务器上；例如，网页上的广告可能来自一个服务器，而图像和视频可能来自另一个⁴.

如上所述，不存在放之四海而皆准的 web 服务器系统，但是有各种围绕特定技术的框架，称为软件包。其中一个框架是围绕 Apache(世界上使用最广泛的 web 服务器软件)和另外两个经常与 Apache 一起使用的工具(PHP 和 MySQL)构建的。PHP 是一种服务器端脚本语言，对于设计网站非常重要，而 MySQL 是一种存储在线 data⁶.的流行数据库这三个工具与上面提到的 Linux、Windows 和 Mac 操作系统相结合，分别形成 LAMPstack、WAMPstack 和 MAMPstack。虽然它们可以在所有的操作系统上工作，但它们的安装简易性各不相同。Apache 预装在许多 Linux 发行版(或 distros)⁵和 Mac OS-X)上。Windows 也可以运行 Apache web 服务器，但是安装它的过程更加 complicated⁷.化虽然 Lamp 和 Wampstack 一直是 web 开发的主流软件包，但是最近出现了一些以 JavaScript 为中心的替代软件，我将在下面介绍。

JavaScript 长期以来被认为只是一种客户端语言，但近年来它已经成为自己的 web 服务器软件包的基础，被称为 MEANstack⁸.MEANstack 的组件是 MongoDB，一个非关系数据库程序，它使用类似 JSON 的 objects⁹，Express，一个后端 web 应用程序框架，Angular，一个前端 web 应用程序框架，以及 Node.js，一个用于开发基于 JavaScript 的应用程序的软件。MEANstack 的一个好处是它在整个应用程序中只使用一种语言，不像 Lampstack 必须在多种语言⁰.之间切换 MEANstack 为传统的基于 LAMPstack 的 web 服务器提供了一种替代方案，但是这两种技术都有可能在未来的 web 开发中扮演重要的角色。

网络服务器是现代互联网的主干，它让我们能够跨越遥远的距离获得新的想法和信息。虽然 web 服务器的术语和使用可能会令人困惑，但该领域技术的快速变化是令人放心的，因为这意味着其他人可能也和您一样困惑！随着这项技术的不断变化和进步，要保持与时俱进所需要的就是学习和掌握谷歌。只有这两种技能，你会发现自己在未来的几年里都在设计网站。

https://www . lifewire . com/servers-in-computer-networking-817380
【https://www.sitepoint.com/how-to-install-apache-on-windows/ 号
【https://likegeeks.com/linux-web-server/
https://developer.mozilla.org/en-US/docs/Web/HTTP/Overview
https://www.wpbeginner.com/glossary/apache/
http://www . linuxandubuntu . com/home/how-to-setup-a-web-server-and-host-website-on-your-own-Linux-computer
http://www.wampserver.com/en/
http://mean.io/
https://dzone.com/articles/comparing-mongodb-amp-mysql
https://www.codingdojo.com/what-is-the-mean-stack

网络流量预测

原文：https://towardsdatascience.com/web-traffic-forecasting-f6152ca240cb?source=collection_archive---------7-----------------------

使用谷歌 DeepMind 的 Wavenets

与 合写 Apoorva Reddy Addvalliat Indra Bandi

动机:**时间序列作为统计学和机器学习中的一个重要概念，往往很少被我们这样的数据爱好者所探索。为了改变这种趋势，我们决定解决当今时代最紧迫的时间序列问题之一，“预测网络流量”。

这个博客反映了我们在网络流量时间序列预测中的头脑风暴，这也是一个由 Kaggle 主办的比赛。我们相信这种预测可以帮助网站服务器有效地处理停机。我们实现的技术可以扩展到金融市场、天气预报、音频和视频处理中的各种应用。不仅如此，了解你的网站的流量轨迹也可以打开商机！

一、数据集

数据集由 145k 个时间序列组成，代表不同维基百科文章的每日页面浏览量，从 2015 年 7 月 1 日开始，到 2017 年 9 月 10 日结束(804 个数据点)。目标是预测数据集中每篇文章在 2017 年 9 月 13 日到 2017 年 11 月 13 日之间的日浏览量(64 个数据点)。

Fig 1. Trends for websites in the dataset

二。接近

从过去的模式中学习来预测未来可以通过以下方式实现:

传统移动平均线，基于 ARIMA 的技术
递归神经网络——长短期记忆(LSTM)，门控递归单元(GRU)
波网

波网的日益流行和我们对利用神经网络进行预测的兴趣使我们选择了波网。“谷歌深度思维”是 Wavenets ( 目前用于谷歌的人工智能服务，云文本到语音)背后的策划者，这进一步激发了我们的兴趣。

我们的研究还表明，Wavenets 的性能与 RNNs 相当或更好。这里有一篇文章的链接，这篇文章讲述了 Wavenets 如何捕捉 LSTMs 之类的长期依赖关系，但对于训练来说更快、更轻量。

潜得更深！

为了获得直观的理解，让我们首先关注波网的复杂性，并理解为什么它们似乎适合我们的任务。

波网的神奇之处在于“因果膨胀卷积”逻辑，该逻辑提高了神经网络的效率，以捕捉时间流量&长期相关性，而不增加过多的学习权重。

让我们看看这些花哨的术语到底是什么意思-

A .典型卷积层

Fig.2 Typical Convolution Layer

上面是一个典型的卷积层的表现。对于 1d 卷积层，我们在输入序列上滑动权重过滤器，将其顺序应用于序列的重叠区域。

在上面的图像中，我们使用 X(0)和 X(1)来预测 y(0 ),这个序列对所有的 y 继续下去。我们可以看到过去和未来的数据被用来预测 y(0)。如果我们把这些 x 想象成时间序列值，那就有明显的问题了。我们会用未来来预测 y，所以我们的模型是作弊！

因此，我们必须确保输入不会影响及时处理它们的输出步骤。

解决方法是什么？— 因果卷积

B. 因果卷积

Fig 3. Causal Convolutions

这就是我们调整卷积设计的步骤，以限制未来 X 影响过去的预测，加强因果关系。如果你也想限制你的输入， keras 为我们简化了它。设置填充=* 【因果】 。*

C. 因果性扩张回旋

Fig 4. Causal Dilated Convolutions

现在我们已经捕获了时间流，让我们理解波网如何有效地捕获长程相关性(感受野)，而不会导致影响计算效率的隐藏层的指数增加。

为了解决这一问题，Wavenets 采用了扩张的概念，通过以恒定扩张率跳过输入，使感受野作为卷积层数的函数呈指数增加。通过设置特定的扩张率，您可以从更早的时间段获得类似季度、月份和年份的信息(在上面的表示中，我们在第一层捕获双月模式)。我们可以看到，同样的四个层现在将所有十六个输入系列值连接到高亮显示的输出。

由于上述规范，我们的波网可以用更少的参数捕获更多的信息，消耗更少的历元来收敛。因此，Wavenets 可以将感受野扩大到> 400，而 RNNs 仅在 100-300 有效。

三世。计算资源

我们在谷歌云平台(GCP)上使用 Nvidia Tesla K80 GPU 对我们的模型进行了 7-8 小时 3500 个纪元的训练。

四世。 模型建筑

我们的解决方案受到 Kaggle 上第六名的启发。在竞争时没有缺失值处理，所以我们从缺失值处理开始。Wavenet 架构包括:

剩余块= 32
跳过连接= 32
8 个扩展因果卷积层
每层 32 个宽度为 2 的过滤器
指数增长的膨胀率(1，2，4，8，…，128)
2 个(时间分布)完全连接的图层映射到最终输出

Fig 5. Overview of the residual block and the entire architecture

转到围绕扩展因果卷积的主要逻辑的架构，包括

门控激活
剩余连接和跳过连接

为了获得一个鸟瞰图，扩展的因果卷积分成两个分支，并通过调节信息流的激活单元( tanh 和 sigmoid ),这本质上类似于递归神经网络中的门控机制。它们随后通过逐元素乘法被重新组合。

在时间序列中，当我们使用跳过连接在网络中前进时，需要保留较早的要素图层。可以认为这是对季节性和趋势的延续，季节性和趋势是最终预测处理的时间序列的主要驱动因素。架构中的剩余连接使模块的输入能够通过卷积，然后与卷积输出进行积分。

五.精度测量

我们使用 SMAPE(对称平均绝对百分比误差)的修改版本作为我们的准确性度量，这也是竞争的目标损失。SMAPE 由下式给出:

SMAPE 不能直接使用，因为在零值附近行为不稳定。在代码中，我们通过用 1 替换这些值来忽略不连续性。

六。结果

我们从两个方面验证了我们的结果。我们上传了我们的提交文件，得到了 35.89 的最终解决方案，略高于第二名的分数。

我们通过模型预测了数据集中过去 64 天的数据。以下是我们随机选择的 6 篇维基百科文章的趋势。正如你所看到的，页面浏览日志的趋势被很好地捕捉到了。像所有时间序列预测一样，峰值仍然很难捕捉。

Fig 6. Forecasted Trends

七。结论

●实现了高质量的长期预测

●有效捕捉季节性模式和长期趋势

●包括节假日、星期几、语言等外部信息，可能有助于我们的模型更准确地捕捉高点和低点

请随意浏览我们的代码。

八世。参考文献

使用 Scala 的 WebSocket 流

原文：https://towardsdatascience.com/websocket-streaming-with-scala-fab2feb11868?source=collection_archive---------27-----------------------

阿卡河如何让生活变得更简单

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Vitaly Sacred on Unsplash

假设你有一个处理器，一个图像处理器，这个图像处理器有几个处理阶段。每个阶段都以不同的方式改变或处理图像。这个图像处理非常棒，你想和全世界分享。所以你编写了一个服务器来上传文件并运行图像处理。也许每个处理阶段都是一个Flow[BufferedImage]。为了便于讨论，我们假设每个阶段大约需要一秒钟，看起来像这样:

然后，您将所有的流程阶段链接在一起，这可能看起来有点像Flow[BufferedImage, ImageProcessed]:

然后，您构建了一个方法，将这个流作为一个流运行:

在现实世界中，这不会进入Sink.ignore，因为我们可能会将处理后的图像保存到 S3 桶或其他存储中。

使用 Akka Http，您可以轻松定义一个Route来处理文件上传:

现在我们的朋友可以使用我们的图像服务了！但是，如果我们想通知用户我们的处理进度呢？

我们从 Akka Http 文档中知道，我们使用Flow[Message]来处理 WebSockets，正如他们的例子所示:

Akka WebSocket Example

但是我们如何从外部与这个 WebSocket 流对话？🤔

答案是preMaterialize一个Source，然后从Sink和这个预物质化的Source构建一个Flow…让我们开始吧:

现在，我们发送给wsActor的任何东西都将被发送回我们的 JavaScript web 客户端！我们的新路由现在包含 WebSocket 处理程序:

我们更新处理阶段以通知我们的wsActor:

现在，当我们上传一张图片时，我们会得到一个很好的列表，告诉我们图片正在经历哪些处理阶段😎

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所有代码(包括前端！)这里的是开源的。🐾

第 1 周@ Metis Singapore 数据科学训练营-项目 1:关于纽约市 MTA、十字转门和从众所周知的消防水管中喝水的探索性数据分析(EDA)

原文：https://towardsdatascience.com/week-1-metis-singapore-data-science-bootcamp-project-1-exploratory-data-analysis-eda-on-the-b35b8c5d4417?source=collection_archive---------24-----------------------

如果你对这个项目的代码感兴趣，你可以在这个 repo 找到它。

我在梅蒂斯的第一周非常艰难。我要说，加上紧张的连续课程和紧张的最后期限，我可以有把握地说，在过去的一周里，我平均每晚只睡了 4 个小时。到目前为止，最具挑战性的工作是设置我的 github.io(我开玩笑的。最具挑战性的部分是项目)，我已经放弃了，所以你在媒体上看到我。

本周的重点是掌握数据分析的基本工具；python、matplotlib、seaborn 和我们的工作流(最小可行产品、设计流程)围绕着一个关于 MTA 地铁交通数据的项目。该项目的目标是帮助一个假想的非营利组织，该组织旨在促进妇女的认识和参与，以提出一个优化的 canvasing 战略。

我们被给予了很大的自由去做我们想做的事情(我们都知道，权力越大，责任越大),以我们认为对这个假设的组织的目的有用的方式来解释结果并提供建议。

网页抓取:

我要说的是，我没有任何编码背景，对我来说，第一个最大的障碍是自动收集数据的方法。其中我非常感谢 Julia Kho 关于网络搜集 MTA 十字转门数据的帖子，可以在这里找到。

探索性数据分析:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Average Entries for the Top 7 NYC Stations with the Highest Average Entries

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Split-Histograph Data Of an Average Entry by Day of the Week for the Top 7 NYC Stations with the Highest Average Entries

“探索性数据分析”(EDA)是对这个项目过程的全面描述，意思是从研究到可视化数据集以从中提取意义，直到当前数据足够有用以进行广泛的统计建模和/或假设测试。

从上面我们看到的图表中，我们观察到人流量最高的车站是 34 街——佩恩车站 、 42 街——大中央车站 和 34 街——先驱广场 (如果你用谷歌快速搜索一下，这是真的)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

另一个要注意的有趣的点是，与周末相比， 工作日的人流量更高——这与我的预期(收集数据之前)大相径庭。我预计周末会产生比平日更多的人流量(这是新加坡的典型情况)。

提出清晰讲述数据故事的可视化效果是 EDA 最令人愉快的部分之一，这些可视化效果代表了您收集的完整信息包以及您对如何构建这些信息的创造性见解。这真的很有趣，因为它可以挑战一个人自己的假设，让一个人更多地了解这个世界(在新加坡，而不是在纽约)。如果不深入研究数据本身，我永远不会知道外国的交通模式。

但是在到达那里之前，你通常必须花一些时间处理数据，把它转换成一种包含有意义信息的可用格式。我和我的队友在完成数据清理后的感受可以用下面的图片来最好地概括:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

True story

进一步分析:

我想更深入地研究这一点，而不是仅仅了解白天的交通，我还想知道它在一天的时间里是如何波动的。早上更挤吗？下午？晚上？甚至在晚上？我们可以从数据中提取和解读更多的东西，如果时间允许，我肯定会回来重新访问这个数据集。

所用指标的缺点:

入口 vs 出口

一个伟大的数据科学家知道自己的偏见，必须留意和质疑他/她的假设的可信度，并测试其准确性。我们在这里使用的度量是入口(进入车站的人数)。但是用入门作为衡量标准有效吗？为什么不考虑退场？人们是否会更容易接受 canvasing(接收传单，更愿意与调查员交谈，发送电子邮件等)。)改为出站？有很多事情要考虑，如果时间允许，我想重新考虑这个想法。

最终反射:

这第一周真的就像用消防水管喝水一样；从早上第一件事就是接受结对编程练习的轰炸，到像代码的时间复杂性这样的理论密集型主题，为了跟上手头的材料，必须进行大量的课后学习。但奇怪的是，如此忙碌，并意识到仍有如此多有趣的东西有待学习，这是一种极大的满足感。

作为对我本周所学内容的最后反思，我想转向工作生活中的一个核心问题，这个问题在课堂上经常被忽视。当我的导师在本周初介绍 MTA 项目时，他给了我们一个尖锐的警告，我们在训练营的最后期限将是不公平的，我们需要 放弃完美主义 。总是有另一个步骤来尝试使数据更加完美，扩展您的项目和分析的范围，或者调整您的模型以获得更好的准确性。然而在现实世界中， 时间是最重要的资源 ，知道何时约束自己往往比你想法的质量更有价值。

我希望改进并继续努力的事情:

使用 git 和 gitHub 进行项目管理
学习为项目的每个阶段设定适当的截止日期，即网络搜集、数据清理、数据处理、数据探索、解释和结果，然后是最终演示。我将在我做的下一个项目中牢记这些，尽职尽责地实践适当的技能/习惯，不仅成为一名智能数据科学家，而且成为一名了解交付有用产品的实际期限的实用科学家！

期待我的下一篇帖子！

周末黑客:使用 Python 为 Telegram 构建一个图像识别机器人

原文：https://towardsdatascience.com/weekend-hack-building-an-image-recognition-bot-for-telegram-using-python-958646b4c4e5?source=collection_archive---------11-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Object recognition with our bot. Original image by Zachary Nelson on Unsplash

这篇文章的目标是用 Python 构建一个电报机器人，它使用神经网络执行图像识别。本文分为三个主要部分:简介、技术选择和分步设置。

这篇文章是周末黑客系列的第四个实例，这是一系列关于探索新概念的简短开发故事。聚焦于边做边学，提供了分步说明。

介绍

自动图像识别(例如。对象识别和图像分类)可以为商业提供巨大的价值。如果你运行一个论坛、约会应用或任何用户上传内容的平台，自动识别图像可能是至关重要的。好处是双重的:

一方面，它为最终用户提供价值，允许他们通过分类主题对图像进行搜索，同时避免繁琐的手动分类任务。一个实际的例子是 Unsplash 搜索功能，通过主题搜索高质量的图像。

另一方面，自动图像识别**也为系统所有者提供价值，**因为它允许过滤掉包含裸体的图像。简而言之，它允许以自动化的方式提高所提供服务的质量。好吧？

正如我们所见，应用程序是无止境的，好处是显而易见的。主要问题仍然是，为这项任务选择哪种解决方案？存在大量第三方解决方案，以及从开源或专有软件构建自己的图像识别管道的可能性。在下一部分，我们将探索不同的选择。

技术选择

如上所述，有无数的供应商使用 API 提供图像和视频识别:谷歌视觉、亚马逊识别、澄清 …一个主要问题是，我的数据会安全吗？正如谷歌在其数据使用常见问题中所说:

当您将图像发送到 Cloud Vision API 时，我们必须将该图像存储一小段时间，以便执行分析并将结果返回给您。存储的图像通常会在几小时内被删除。Google 还会临时记录一些关于您的 Vision API 请求的元数据(例如收到请求的时间和请求的大小)，以改善我们的服务并打击滥用行为。

“秘密删除”…秘密是什么意思？

如果您担心数据所有权和隐私，也可以选择利用现有技术构建自己的图像识别管道。开源中也有一堆替代方案: TensorFlow 、 Darknet 、 MLpack 、Keras……这些方案可以让你更好地控制图像数据所有权的归属。

在本教程中，我们将专注于使用 Darnet 构建我们自己的图像分类器和对象识别机器人。我们将在 Glitch 中设置一个用 Python 编写的电报机器人来与图像分类器接口。

用户流程将如下:选择一张图片，并将其发送到我们的电报机器人。它会对其进行分类和物体识别，并将结果发送给我们。简单对吗？

Easier said than done…

逐步设置

好吧，让我们开始吧！

1.设置 Python bot 的 bot 框架

为了不重复我自己，我将建议你按照下面帖子中给出的一步一步的说明来做。按照前两个步骤，根据自己的喜好修改应用程序名称。不要太关注机器人句柄，因为我们稍后会添加一个特定的句柄来处理收到的图片。

[## 周末黑客:用 Python 为 Telegram 构建一个 Unsplash bot

使用 Python 和 Glitch 构建您的第一个电报机器人，它提供来自 Unsplash 的高分辨率图像！

medium.com](https://medium.com/@alainperkaz_51714/weekend-hack-building-an-unsplash-bot-for-telegram-with-python-5d63d2d9620d)

2.添加暗网

为了分析发送给机器人的图像，首先我们需要安装和构建 Darknet。所有的安装命令都可以在故障项目的install.sh文件中找到。

要输入命令，在我们的 Glitch 项目中选择工具>全页控制台。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Select the Full Page Console to install Darknet

要安装 Darknet，请导航至**。Glitch 应用程序中的数据**目录。这是至关重要的，因为当你的 Glitch 应用程序进入睡眠状态时，这个目录将被保留！

cd .data
git clone [https://github.com/pjreddie/darknet.git](https://github.com/pjreddie/darknet.git)
cd darknet
make

值得一提的是，虽然你可以训练你自己的模型(并且应该，取决于用例，但是这通常是一个计算量非常大的操作。考虑到我们将在故障实例中运行我们的机器人，而的能量和空间非常有限(1 个 CPU、512 个 RAM、200 MB 存储空间)，训练模型是非常不可行的。

对于我们的情况，使用预先训练的模型权重是最好的解决方案。我们将使用以前训练中产生的现有重量，使我们能够快速达到速度。我们将下载两个权重文件， darknet19.weights 用于图像分类，而 yolov3-tiny.weights 用于对象识别。

# execute in the ./darkent directory
wget [https://pjreddie.com/media/files/darknet19.weights](https://pjreddie.com/media/files/darknet19.weights)
wget [https://pjreddie.com/media/files/yolov3-tiny.weights](https://pjreddie.com/media/files/yolov3-tiny.weights)

请注意，由于目前 Glitch 中可用的空间和 CPU 能力的限制，我们选择了相当小的权重文件。如果您在另一个更强大的环境中运行，请随意尝试其他权重(图像分类、对象检测)。你也会得到更好的结果！

3.装上电线

太好了，现在我们已经准备好了我们的机器人框架，并且安装了暗网，我们可以把它连接起来了。我不会解释每一行代码，完整的注释代码可以查看 故障项目 。

下面是主处理程序的代码摘录(注意它使用了助手函数)。每当有新图片发送到机器人时，它就会被触发。

[@bot](http://twitter.com/bot).message_handler(content_types=['photo'])
def handle(message): # extract the image name for further operations
  image_name = save_image_from_message(message)

  # execute object recognition
  object_recognition_image(image_name) # send object recognition results
  bot.send_photo(message.chat.id, open('.data/darknet/predictions.jpg','rb'), 'Identified objects')

  # execute image classification
  classification_list_result = classify_image(image_name)

  # send classification results
  output = 'The image classifies as:\n'
  for result in classification_list_result:
    output += result
  output += '\n🚀 Gimme more pics! 🚀'

  bot.reply_to(message, output)

  # remove picture from server
  cleanup_remove_image(image_name);

完整的源代码可从以下网址获得:

[## 电报图像分类机器人

电报图像分类机器人🎏Glitch 是一个友好的社区，每个人都可以在这里发现和创建最好的应用程序…

glitch.com](https://glitch.com/~telegram-image-classfication-bot)

4.测试机器人

完美，现在我们准备好了，让我们做一些测试！

我们 bot 的电报 ID 是:@ wh _ image _ classicator _ bot， 随便测试一下。分类和识别能力受到现有技术限制的限制，但结果令人鼓舞。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Classification and object recognition on dog picture

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Classification and object recognition on 4x4 picture

摘要

按需图像识别 API 提供了无与伦比的功能，但当隐私或离线处理至关重要时，自定义图像识别管道是一个很好的替代方案。

请注意，我们的示例只是触及了表面，使用其他训练集和方法可以实现更准确的图像识别。

资源

故障项目→https://glitch.com/~telegram-image-classfication-bot
暗网文件→【https://pjreddie.com/darknet /

其他周末黑帖子:

[## 周末黑客:用 Python 为 Telegram 构建一个 Unsplash bot

使用 Python 和 Glitch 构建您的第一个电报机器人，它提供来自 Unsplash 的高分辨率图像！

medium.com](https://medium.com/@alainperkaz_51714/weekend-hack-building-an-unsplash-bot-for-telegram-with-python-5d63d2d9620d)

每周精选—2019 年 4 月 12 日

原文：https://towardsdatascience.com/weekly-selection-apr-12-2019-4a426e948e8?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第三波数据科学家

由张秀坤海茨 — 5 分钟读完

Drew Conway 对数据科学技能集的可视化是一个经常被引用的经典。不同的观点和角色的多样性产生了无数的变化。

XGBoost 算法:愿她统治长久！

通过 Vishal Morde 和 Venkat Anurag Setty — 7 分钟读取

我仍然记得 15 年前我第一份工作的第一天。我刚刚完成研究生学业，加入了一家全球投资银行，担任分析师。

构建机器学习管道

通过 Semi Koen — 18 分钟读取

在开发模型时，数据科学家在一些为统计和机器学习(Python、R 等)量身定制的开发环境中工作，能够在一个“沙盒”环境中训练和测试模型，同时编写相对较少的代码。

如何利用机器学习在 GitHub 上实现任务自动化，以获得乐趣和收益

通过哈默尔侯赛因 — 13 分钟阅读

关于如何使用 Tensorflow 和公共数据集构建预测和应用问题标签的 GitHub 应用程序的教程。

Kubernetes 的关键概念

杰夫·黑尔 — 12 分钟阅读

云计算、容器化和容器编排是 DevOps 中最重要的趋势。无论您是数据科学家、软件开发人员还是产品经理，了解 Docker 和 Kubernetes 的基础知识都是有益的。

利用 Apache Spark 进行可扩展日志分析——综合案例研究

由迪潘然(DJ)萨卡 — 18 分钟阅读

当今利用分析的最流行和最有效的企业案例研究之一是日志分析。如今，几乎每个小型和大型组织都有多个系统和基础架构日复一日地运行。

组合优化的强化学习

通过或 Rivlin — 9 分钟读取

使用深度强化学习和图形神经网络解决困难优化问题的学习策略。

Python 中的人脸检测指南

由马尔·杨奇煜 — 14 分钟阅读

在本教程中，我们将看到如何使用 OpenCV 和 Dlib 在 Python 中创建和启动人脸检测算法。我们还将添加一些功能来同时检测多张脸上的眼睛和嘴巴。

人工智能创业公司成功的秘诀。AI 到底是谁在赚钱？第二部分

从硅谷到伦敦到上海，人工智能创业公司层出不穷。但是随着淘金热的到来，少数被选中的人会找到金子，而大多数人会空手而归。

R 中你可能不知道的十件随机有用的事情

基思·麦纽提——7 分钟阅读
R 充满了有用的东西。这里有一些我经常使用的东西，其他人可能不知道。

机器学习完全入门指南:4 行代码的多元线性回归！

安妮·邦纳(Anne Bonner)—19 分钟阅读
征服多元线性回归的基础(和向后消除！)并用你的数据预测未来！

每周选择—2019 年 4 月 19 日

原文：https://towardsdatascience.com/weekly-selection-apr-19-2019-7e5819af339d?source=collection_archive---------22-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

深入了解卷积神经网络背后的数学知识

由皮奥特·斯卡斯基 — 12 分钟阅读

自动驾驶、医疗保健或零售只是计算机视觉让我们实现一些直到最近还被认为是不可能的事情的一些领域。

数学编程——数据科学进步的关键习惯

通过 Tirthajyoti Sarkar — 9 分钟读取

我们展示了如何通过模拟飞镖的随机投掷来近似计算圆周率的值。这是建立数学编程习惯的一小步，而数学编程应该是初露头角的数据科学家必备的一项关键技能。

自动编码器综合介绍

马修·斯图尔特博士研究员——15 分钟阅读

在接下来的几周里，我将发布一系列教程，全面介绍使用神经网络进行无监督和自监督学习，以实现图像生成、图像增强和图像混合。

【Matplotlib 动画

按 Parul Pandey — 6 分钟读取

动画是展示一种现象的有趣方式。我们人类总是被动画和互动的图表所吸引，而不是静态的图表。

成为一名数据科学家——当丹·贝克尔指出我完全错了的时候

由赖克夫莱克 — 5 分钟读完

在你的职业生涯中，你是否有过这样的时刻，当你认为自己走在正确的道路上，当你遵循一个稳定的计划，带领你到达你想要的地方，然后有人踢你的计划的坚果，并通过 A + B 告诉你你完全错了？

使用 React 和 Flask 创建一个完整的机器学习 web 应用

作者卡兰·巴诺特 — 6 分钟阅读

我一直想开发一个完整的机器学习应用程序，其中我会有一个 UI 来提供一些输入和机器学习模型来预测这些值。

班上每个强化学习研究员都要带

由文森特·万霍克——6 分钟阅读

我的团队刚刚花了一天时间和一些非常好的男孩和一些非常好的女孩在一起，都是以研究的名义。

解释概率图

通过 Eryk Lewinson — 9 分钟阅读
在本文中，我将解释概率图的概念——它们是什么，如何在 Python 中实现它们，以及如何解释结果。

人工智能时代我们的身份

通过吴俊 — 7 分钟读取

我最喜欢的精神导师之一，爱克哈特-托勒将身份定义为自己的故事。这个故事是由你的思想通过记忆和期望讲述的。

每周选择—2019 年 4 月 26 日

原文：https://towardsdatascience.com/weekly-selection-apr-26-2019-f7d2d66f9728?source=collection_archive---------15-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

综合方法:装袋、助推和堆垛

由约瑟夫·罗卡和巴蒂斯特·罗卡 — 20 分钟阅读

“团结就是力量”。这句老话很好地表达了机器学习中非常强大的“集成方法”的基本思想。

用 H2O 让机器学习民主化

由 Parul Pandey — 9 分钟阅读
H2O 概述:开放源代码，分布式内存机器学习平台

Python 的 5 个高级特性及其使用方法

由乔治·赛义夫—4 分钟读完

Python 是一门美丽的语言。简单易用，但表现力很强。但是，您是否使用了它所提供的一切？

用深度学习检测疟疾

由迪潘詹(DJ)萨卡尔 — 16 分钟阅读

欢迎来到 AI for Social Good 系列，在这里我们将关注人工智能(AI)与流行的开源工具、技术和框架如何被用于发展和改善我们的社会的不同方面。

用 Python 使用纸浆进行线性规划和离散优化

由 Tirthajyoti Sarkar — 11 分钟阅读

线性和整数规划是离散优化问题的关键技术，它们在现代商业和技术领域几乎无处不在。

一名放射科医生对斯坦福 ML 集团 MRNet 数据的研究

由沃尔特·威金斯 — 8 分钟阅读

这篇文章回顾了最近发布的斯坦福 MRNet 膝关节 MRI 数据集和比赛。由于我是一名高级放射科住院医师，我将专注于通过基础领域知识探索数据，解决非医生可能会感到困惑的数据分布方面的问题。

数据科学家犯的十大编码错误

通过 Norm Niemer — 5 分钟读取

数据科学家是“比任何软件工程师更擅长统计，比任何统计学家更擅长软件工程的人”。许多数据科学家有统计学背景，但对软件工程几乎没有经验。

用于异常检测和状态监控的机器学习

通过 Vegard Flovik — 10 分钟读取

当前的文章主要集中在技术方面，包括建立基于多元统计分析和自动编码器神经网络的异常检测模型所需的所有代码。

用 Fast.ai 简化深度学习

由安德烈·里斯科夫 — 7 分钟读完

深度学习是一个因守门而臭名昭著的领域。如果你试图在网上寻找如何进入这个领域的答案，你可能会发现自己被一长串的要求淹没了。

使用 OCR 和 Elasticsearch 搜索穆勒报告

凯尔·加拉丁——6 分钟阅读

4 月 18 日标志着穆勒报告的全面发布——这份文件概述了对俄罗斯可能干预 2016 年总统选举的调查。像大多数政府文件一样，这份文件很长(448 页)，读起来会非常乏味。

每周选择—2019 年 4 月 5 日

原文：https://towardsdatascience.com/weekly-selection-apr-5-2019-f744fd2f4703?source=collection_archive---------25-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可解释的机器学习

由帕鲁尔·潘迪 — 9 分钟阅读

假设你是一名数据科学家，在空闲时间，你试图根据你的 facebook 和 twitter 数据，预测你的朋友夏天会去哪里度假。

毕业于 GANs:从理解生成性对抗网络到经营自己的网络

通过 Cecelia 邵 — 11 分钟阅读

阅读如何生成对抗性网络(GANs)的研究和评估已经发展，然后实现自己的 GAN 生成手写数字

数据科学职位发布的问题

由杰瑞米·哈里斯 — 4 分钟读完

每隔一段时间，你会注意到一些你意识到很久以前就应该注意到的事情。你开始到处看到它。你想知道为什么更多的人不谈论它。

哪个深度学习框架发展最快？

由杰夫·黑尔 — 8 分钟读完

2018 年 9 月，我在这篇文章中，从需求、使用情况、受欢迎程度等方面对比了各大深度学习框架。TensorFlow 是深度学习框架无可争议的重量级冠军。PyTorch 是一个充满活力的年轻新秀。

为西雅图的酒店建立基于内容的推荐系统

由苏珊李 — 5 分钟读完

对于推荐系统来说，冷启动问题是一个众所周知且经过充分研究的问题，其中系统不能向用户推荐项目。由于三种不同的情况，即新用户、新产品和新网站。

创建 R 和 Python 库的分步指南(JupyterLab 版)

由肖恩·麦克卢尔——32 分钟阅读

r 和 Python 是当今机器学习语言的面包和黄油。r 提供了强大的统计和快速的可视化，而 Python 提供了直观的语法和丰富的支持，是当今主流 AI 框架的首选接口。

神经网络中的权重初始化:从基础到明凯的旅程

詹姆斯·德林杰 — 11 分钟阅读

我想邀请你和我一起探索初始化神经网络层权重的不同方法。

在 Python 中清理、分析和可视化测量数据

由 Charlene Chambliss — 10 分钟读取

如果你在 D2C 的一家初创公司从事数据工作，很有可能你会被要求至少查看一次调查数据。由于 SurveyMonkey 是最受欢迎的调查平台之一，它很有可能是 SurveyMonkey 的数据。

每周精选—2019 年 8 月 16 日

原文：https://towardsdatascience.com/weekly-selection-august-16-2019-189fe64b622d?source=collection_archive---------15-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学中最强大的想法

由凯西·科济尔科夫 — 8 分钟阅读

从有用的模式中分离出不必要信息的快速解决方案

Python 中有用的字符串方法

到 Parul Pandey — 5 分钟读取

了解一些 Python 内置的可用于字符串的方法

AI 发现你脸上的心跳

通过 Shor Joel — 7 分钟阅读

对从视频中读取生命体征的技术进行中等深度的探究

高级特征工程和预处理的 4 个技巧

通过马腾 Grootendorst — 7 分钟读取

创建新要素、检测异常值、处理不平衡数据和估算缺失值的技术。

设施架构

通过 Semi Koen — 10 分钟读取

6 个基本的软件质量

用深度学习构建发声情感传感器

由亚历克斯·穆尔 — 6 分钟读完

教机器更好地理解人类交流

人工智能的自然根源

克里斯托弗·尼尔斯 12 分钟阅读

建立对人工智能的共同理解的挑战可以追溯到对智能本质的辩论。

你在推特上说什么就是什么

由安妮·邦纳 — 11 分钟阅读

通过 Twitter 使用检测社交媒体中的抑郁症

每周精选—2019 年 8 月 2 日

原文：https://towardsdatascience.com/weekly-selection-august-2-2019-fb66e59de210?source=collection_archive---------17-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每个数据科学家都应该知道的 5 种特征选择算法

作者拉胡尔·阿加瓦尔 — 7 分钟阅读

当你创建了大量的特性，然后你需要想办法减少特性的数量，这种情况已经发生了多少次了。

图文并茂:10 个 CNN 架构

到莱米·卡里姆 — 12 分钟阅读
一个普通卷积神经网络的编译可视化

分解伯特

由 Shreya Ghelani — 17 分钟阅读

NLP 中最新里程碑的完全分解

使用 Cython 将 Python 代码的速度提高 30 倍以上

由乔治·赛义夫 — 4 分钟读完

Python 是社区最喜欢的编程语言！这是迄今为止最容易使用的方法之一，因为代码是以直观、人类可读的方式编写的。

关于如何利用统计数据撒谎的课程

到将 Koehrsen — 18 分钟读取

永恒的数据素养建议

聚类分析:创建、可视化和解释客户群

通过马腾 Grootendorst — 9 分钟读取

探索聚类分析的方法，通过降维使聚类可视化，通过探索有影响力的特征来解释聚类。

理解分类决策树(Python)

由迈克尔·加拉尼克 — 10 分钟阅读

由于各种原因，决策树是一种流行的监督学习方法。

机器学习的局限性

由马修·斯图尔特博士研究员 — 12 分钟阅读

机器学习现在被视为解决所有问题的银弹，但有时它不是答案。

用 OpenCV 拼接图像全景图

由 Thalles Silva — 8 分钟阅读

图像拼接是计算机视觉中最成功的应用之一。如今，很难找到不包含此功能的手机或图像处理 API。

每周精选—2019 年 8 月 23 日

原文：https://towardsdatascience.com/weekly-selection-august-23-2019-65f12c83545?source=collection_archive---------29-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

起诉朱庇特笔记本的案子

由杰瑞米·哈里斯——3 分钟阅读

乔尔·格鲁什在 TDS 播客上🎧

神经网络高级课题

马修·斯图尔特博士研究员——19 分钟阅读

一些高级神经网络主题的介绍，如快照集、丢失、偏差校正和循环学习率。

加入我们的 Discord 服务器 (TDS 社区)

尼克·哈维 — 2 分钟阅读

我们正在创建一个面向数据科学的 discord 服务器，以更好地连接我们的社区。通过加入，您将能够讨论关键的数据科学和机器学习主题。

保证无经验数据科学工作的 3 个策略

由 Haebichan Jung — 12 分钟阅读

TDS 采访了 DoorDash 的 Jeff li，他分享了为没有计算机科学或数学学位的数据科学应用评分的重要资源。

超级创造力

由塞拉菲姆·巴佐格鲁和西奥多罗斯·叶夫根尼欧完成——12 分钟阅读

人工智能可能很快就会超越人类的艺术创造力

数据科学家，你应该知道的 5 种图形算法

由 Rahul Agarwal — 10 分钟阅读

因为图表分析是未来

用 PyStan 建模零售价格的贝叶斯策略

由苏珊李 — 10 分钟读完

统计建模、部分池化、多级建模、分层建模

人工智能搜索外星智能——分析无线电望远镜数据

通过 Dipanjan (DJ) Sarkar — 10 分钟读取

从 SETI 了解射电望远镜信号数据

定义数据科学问题

妮可·斯科特 — 4 分钟阅读

数据科学家最重要的非技术性技能

科技行业有哪些最快乐的工作？

由塞缪尔·波廷杰 — 5 分钟读完

技术行业的工资最高，但离职率也最高。

每周精选—2019 年 8 月 30 日

原文：https://towardsdatascience.com/weekly-selection-august-30-2019-e785566e8a09?source=collection_archive---------26-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分析和统计有什么区别？

由凯西·科济尔科夫 — 6 分钟阅读

理解两种完全不同职业的价值

数据科学家应该知道的关于数据管理的一切*

由黄家仪 — 19 分钟读取

(*但不敢问)

如何让你的熊猫循环快 71803 倍

通过 Benedikt Droste — 5 分钟读取

循环通过熊猫数据帧可能会非常慢——我将向您展示一些非常快速的选项

为现实世界的问题选择正确的算法🎧

由杰瑞米·哈里斯、爱德华·哈里斯和拉塞尔·波拉里。

Tan Vachiramon 在 TDS 播客上

优化和深度学习的区别是什么，你为什么要关心这个

由马頔·舒尔加 — 4 分钟读完

如今，训练神经网络最常见的方法是使用梯度下降或 Adam 之类的变体。

数据科学家应该先学习哪种编程语言？

由吉纳维芙·海斯——6 分钟阅读

r，Python，SQL 还是别的？

数据科学家的自动版本控制

由乔治·赛义夫 — 6 分钟阅读

数据科学最棒的部分之一是从头到尾经历一个完整项目的冒险。

如何创建一个生产就绪的推荐系统

由 Tirmidzi Faizal Aflahi — 16 分钟阅读

我们每天在网上看到很多东西。但是你知道有多少其他的东西我们还没有看到吗？

未来的编程语言

迈克尔·k·斯潘塞 — 5 分钟阅读

有哪些后起之秀的编码语言？

如何用 Python 构建一个简单的时间序列仪表板，包括 Panel、Altair 和一个 Jupyter 笔记本

本杰明·库利——6 分钟阅读

两个过滤器+一个交互式面积图，大约 25 行代码。

每周精选—2019 年 8 月 9 日

原文：https://towardsdatascience.com/weekly-selection-august-9-2019-a68e74f4e940?source=collection_archive---------41-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

决策智能简介

由凯西·科济尔科夫 — 13 分钟阅读

人工智能时代领导力的新学科

检验悖论无处不在

由艾伦·唐尼 — 8 分钟读完

检查悖论是一种你可能从未听说过的统计错觉。这是一个常见的混淆来源，一个偶然的错误原因，也是一个聪明的实验设计的机会。

帮助我每周学习五天机器学习的 6 种技术

丹尼尔·伯克 — 8 分钟阅读

我每天学习机器学习 9 个月，然后找到了一份工作。怎么会？像这样…

教授转型数据科学家:Guido Maretto 博士为何离开学术界开始创业

由 Haebichan Jung — 8 分钟阅读

TDS 采访了这位前教授(加州理工学院博士),询问他为什么离开副教授职位，以及如何在大学毕业后加入行业。

用于可解释机器学习的 Python 库

丽贝卡·维克里(Rebecca Vickery)——5 分钟阅读

4 个用于更好地可视化、解释和诠释模型的库

人工智能路线图的 4 个产品驱动步骤

丹尼尔·申菲尔德 5 分钟阅读

如何教会产品做决策

使用 Tkinter 将您以前的 Python 项目变成令人敬畏的工具

由法比奥·内维斯 — 12 分钟阅读

笔记本很无聊！

量子编程介绍

通过昆汀·张 — 15 分钟阅读

从量子位到运行真正的量子程序的量子编程演练！

如何编写干净的代码来减少麻烦

由拉威·香卡·拉詹 — 7 分钟读完

抽象是邪恶的。代码是反邪恶的，干净的代码也许是神圣的。

贝叶斯建模航空公司客服推特响应时间

由苏珊李 — 9 分钟读完

学生的 t 分布、泊松分布、负二项分布、分层建模和回归

数据科学实验

丹尼尔·弗利 — 13 分钟阅读

当 AB 测试不奏效时

每周精选—2019 年 2 月 1 日

原文：https://towardsdatascience.com/weekly-selection-feb-1-2019-fae28996563a?source=collection_archive---------14-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

学够 Docker 才有用(第一部分、第二部分、第三部分、第四部分)

杰夫·黑尔 — 12 分钟阅读

容器对于提高软件开发和数据科学中的安全性、可再现性和可伸缩性非常有帮助。它们的崛起是当今科技领域最重要的趋势之一。

Jupyter 笔记本中的交互控件

通过将 Koehrsen — 6 分钟读取

在数据探索中，很少有操作比一次又一次地重新运行同一个单元效率更低，每次都略微更改输入参数。

几分钟学会平稳驾驶

由安东宁·拉芬 — 11 分钟阅读

在这篇文章中，我们将看到如何在几分钟内训练一辆自动驾驶赛车，以及如何平稳地控制它。

什么是 AI 偏见？

凯西·科济尔科夫——4 分钟阅读

人工智能偏见问题始于定义，但并未结束。“偏见”是一个被过度使用的术语，在不同的上下文中，它的意思是非常不同的。

利用资料找到最愤怒的死士宋

埃文·奥本海默 — 11 分钟阅读

死亡握是一个实验性的嘻哈乐队，自 2011 年以来一直在发布创新、有趣、坦率而困难的音乐。

取消制作图形

克里斯·克劳福德 — 6 分钟阅读

我很高兴看了很多图表(很多)，并逐渐了解了哪些图表最有意义。

处理机器学习中的不平衡数据集

由巴蒂斯特·罗卡 — 15 分钟阅读

假设你在一家特定的公司工作，你被要求创建一个模型，根据你所掌握的各种测量结果，预测一个产品是否有缺陷。

马里奥对瓦里奥——第二轮:CNN 在 PyTorch 和 Google Colab

由 Eryk Lewinson — 9 分钟阅读

很长一段时间以来，我一直在玩 Google Colab(是的，免费访问 GPU……)。

用谷歌的 FACETS 可视化机器学习数据集

按 Parul Pandey — 8 分钟读取

Google 的开源工具，可以轻松地从大量数据中学习模式

每周精选—2019 年 2 月 15 日

原文：https://towardsdatascience.com/weekly-selection-feb-15-2019-f1d8f893d1f?source=collection_archive---------23-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图形神经网络简介(基础、DeepWalk 和 GraphSage)

By 黃功詳 Steeve Huang — 8 min read

最近，图神经网络(GNN)在各个领域越来越受欢迎，包括社会网络、知识图、推荐系统，甚至生命科学。

在小公司/初创公司中成功成为数据科学家

由兰迪欧 — 9 分钟阅读

我已经在规模在 15-150 之间的公司工作了将近 12 年，身兼“数据分析师、工程师，偶尔还有科学家”的各种职务。

没人会告诉你的数据科学工作申请

爱德华·哈里斯 — 6 分钟阅读

我是一名物理学家，在 YC 的一家初创公司工作。由于我们公司的工作，我收到了许多电子邮件，询问我关于数据科学职业的建议。

音频人工智能:使用卷积神经网络从立体声音乐中分离人声

由 Ale Koretzky — 15 分钟阅读

如果我们能回到 1965 年，拿着“所有人都可以进入”的徽章敲开艾比路录音室的大门，并有幸聆听那些标志性的列侬-麦卡特尼和声 A-五车二，会怎么样？

深度学习中不同类型卷积的综合介绍

由昆仑白 — 31 分钟读完

在这篇文章中，我总结了深度学习中常用的几种卷积类型，并试图用一种大家都可以理解的方式来解释它们。

【sklearn 和熊猫的特色选择

通过 Abhini Shetye — 8 分钟阅读

在执行任何机器学习任务时，特征选择都是首要且重要的步骤之一。在数据集的情况下，一个特征仅仅意味着一列。

简单神经网络时间序列预测简介& LSTM

由苏珊李 — 5 分钟读完

本文的目的是解释人工神经网络(ANN)和长短期记忆递归神经网络**【LSTM RNN】**，使您能够在实际生活中使用它们，并为时间序列数据构建最简单的 ANN 和 LSTM 递归神经网络。****

深度学习在 AI 研究中的局限性

罗伯特·伊里翁多

深度学习是机器学习的一个子集，在过去十年中，它在各种实际应用中提供了超人的准确性。

通过构建真实世界的应用程序掌握 Python(第 8 部分)

通过 Dhrumil Patel — 9 分钟读取

毫无疑问，数据科学(总的来说)是下一件大事，这些数字证明了数据科学家热爱 Python。众所周知，数字不会说谎。

每周精选—2019 年 2 月 22 日

原文：https://towardsdatascience.com/weekly-selection-feb-22-2019-59d340c15fa5?source=collection_archive---------17-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

OpenAI 的 GPT-2:模型、宣传和争议

由瑞恩·洛威 — 9 分钟读完

上周四，OpenAI 发布了一个名为 GPT-2 的超大型语言模型。该模型可以基于一些种子文本生成各种风格的真实文本，从新闻文章到同人小说。

算法交易的人工智能:重新思考棒线、标签和平稳性

由亚历山大·巴甫洛夫·洪查尔 — 13 分钟读取

在一系列文章中，我应用了一种非常简单的方法来预测金融时间序列:利用整个数据集，使用滑动窗口方法生成 X 和 Y，将其分为历史数据和样本外数据，训练一些机器学习模型将 X 映射到 Y，并回测简单的多空策略。

文化过度/欠适应与迁移学习。或者为什么“网飞文化”在你的公司行不通。

由 Xavier Amatriain — 13 分钟读取

几周前，我在旧金山工程领导会议上做了一次演讲。当我准备演讲的幻灯片时，我想到了一些非常有趣的事情:我管理技术团队已经超过 25 年了。大约在同一时间，我也在做公开演讲。

你应该知道的 10 种 Python 文件系统方法

由杰夫·黑尔 — 7 分钟读完

本文是当前和有抱负的开发人员和数据科学家的指南。我们将重点介绍 10 个基本的 os 和 shutil 命令，以便您可以编写脚本来自动化与文件系统的交互。

面向数据科学家的低成本细胞生物学实验

保罗·穆尼(Paul Mooney)—7 分钟阅读

没有昂贵的实验室设备，“公民科学家”能做真正的科学吗？简而言之:是的。在这篇博文中，我们指出了一种替代的低成本方法来解决生物学问题，这种方法适合有抱负的业余科学家。

比较 Python 和 SQL 构建数据管道

由马克·拉福雷——5 分钟阅读

作为一名 web 开发人员，我第一次接触数据库和 SQL 是使用对象关系模型(ORM)。我使用的是 Django 查询集 API，使用该接口的体验非常好。

利用迁移学习和弱监督廉价构建 NLP 分类器

亚伯拉罕·斯塔罗斯塔 — 14 分钟阅读

训练最先进的 NLP 模型有一个问题:它们依赖于大量手工标记的训练集。这就是为什么数据标记通常是开发 NLP 应用程序并使其保持最新的瓶颈。

使用 Python 的 scikit-image 模块进行图像分割

按 Parul Pandey — 11 分钟读取

我们都很清楚 Photoshop 或类似的图形编辑器提供的无限可能性，它们可以将一个人从一幅图像中取出，放入另一幅图像中。然而，这样做的第一步是识别该人在源图像中的位置，这就是图像分割发挥作用的地方。

通过聚类在 Spotify 上分析我最喜欢的歌曲

由 John Koh — 11 分钟阅读

音乐是我们生活中不可或缺的一部分。当无法用语言描述我们的感受时，它是帮助我们表达自己的共同语言。音乐也有助于我们调节情绪。

每周精选—2019 年 2 月 8 日

原文：https://towardsdatascience.com/weekly-selection-feb-8-2019-5669c93c6222?source=collection_archive---------23-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一年来每周写一篇数据科学文章我学到了什么

由威尔·科尔森 — 13 分钟阅读

应该有一条法律限制人们只能用“改变生活”这个词来描述生活事件。今早喝了一杯改变人生的咖啡。嗯，希望它是好的，因为这是你得到的一个使用！

制作深度神经网络来理解它们是如何工作的

到 Paras Chopra — 10 分钟阅读

深度学习的效果如此之好，这是一个谜。尽管有一些关于深度神经网络为什么如此有效的暗示，但事实是没有人完全确定，对深度学习的理论理解是一个非常活跃的研究领域。

PyViz:简化 Python 中的数据可视化过程。

通过 Parul Pandey — 9 分钟阅读

如果你正在处理数据，那么数据可视化就是你日常工作的一个重要部分。如果你使用 Python 进行分析，你应该会被数据可视化库形式的大量选择所淹没。

2019 年学数据科学有什么感受

托马斯·尼尔德 — 16 分钟阅读

我决定不再忽视数据科学、人工智能和机器学习。多年来，我一直是一名分析师和顾问，在 Excel 工作簿中处理数字，制作数据透视表和图表。

100 行代码中深度学习的关键

由 Javier Ideami — 13 分钟阅读

对于那些对深度学习的奥秘和可能性充满热情的人来说，这是一个令人兴奋的时代。该领域的许多英雄通过视频和文章分享他们的专业知识。

用于股票期权定价异常检测的无监督学习

由 Boris B — 8 分钟阅读

期权估价是一项非常困难的任务。首先，它需要使用大量数据点(下面列出了一些)，其中一些非常主观(如隐含波动率——见下文),难以精确计算。

学习足够有用的 Python:arg parse

到杰夫·黑尔 — 6 分钟读完

如果您计划成为 Python 的软件开发人员，您将希望能够使用 argparse 来满足您的脚本需求。如果您是一名数据科学家，您可能会发现自己需要将 Jupyter 笔记本中的代码移植到可复制的脚本中。

介绍 AI 项目画布

由简·扎瓦日基 — 9 分钟读完

创建一个人工智能项目总是涉及到回答同样的问题:你增加的价值是什么？需要什么数据？客户是谁？预期的成本和收入是多少？

用数据科学预测创业估值

塞巴斯蒂安·金特罗(Sebastian Quintero)14 分钟阅读

在创业经济中，人们通常很难理解数字的重要性。如果一家公司以 40 亿美元的估值筹集了 5 . 5 亿美元的 F 系列融资，那到底有多大？与其他 F 系列相比如何？

每周精选—2019 年 1 月 11 日

原文：https://towardsdatascience.com/weekly-selection-jan-11-2019-2a000c2bddb9?source=collection_archive---------22-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Python 中数据可视化的下一个层次

由威尔·科尔森 — 8 分钟阅读

沉没成本谬误是人类遭受的许多有害认知偏见之一。它指的是我们倾向于继续将时间和资源投入到一个失败的事业中，因为我们已经在追求中花费了太多的时间。

深度学习已经达到极限了吗？

由托马斯·尼尔德——10 分钟阅读

许多人认为，算法将超越人类的认知意识。机器将在没有人类干预的情况下识别和学习任务，并成群结队地取代工人。

计算神经科学简介第一部分

通过 Samhita Alla — 10 分钟读取

计算神经科学是唯一可以帮助你理解，你如何在大脑中思考和处理信息的领域。即使在你完成这句话的时候，你的大脑中也会发生大量的动作，这些动作可以通过对神经元的研究来解码。

理解生成性对抗网络

约瑟夫·罗卡 — 19 分钟阅读

Yann LeCun 将其描述为“最近 10 年机器学习中最有趣的想法”。当然，来自深度学习领域如此杰出的研究人员的这种称赞对于我们正在谈论的主题来说总是一个很好的广告！

学习足够有用的 Docker

由杰夫·黑尔 — 7 分钟读完

容器对于提高软件开发和数据科学中的安全性、可再现性和可伸缩性非常有帮助。它们的崛起是当今科技领域最重要的趋势之一。

无梯度强化学习:使用遗传算法进化智能体

由 Paras Chopra — 10 分钟阅读

在假期里，我想提高我的强化学习技能。对这个领域一无所知，我参加了一个课程，在那里我接触到了 Q-learning 和它的“深度”等价物(深度 Q 学习)。

使用 Rasa 和 Python 为 Slack 构建一个对话聊天机器人

由帕鲁尔·潘迪 — 9 分钟阅读

对话式人工智能系统正在成为人类生态系统不可或缺的一部分。对话式人工智能的知名例子包括苹果的 Siri、亚马逊的 Alexa 和微软的 Cortana。

使用 React 和 face-api.js 的 BNK48 偶像团体面部识别 SPA

由素帕猜猜 — 14 分钟读完

如今，人脸检测和识别已经不是什么新鲜事了。一年前，我曾经尝试在 Python 上使用 TensorFlow 和 facenet 制作自己的面部识别系统。该项目旨在从 AKB48 成员的照片中进行人脸检测和识别。

每周精选—2019 年 1 月 18 日

原文：https://towardsdatascience.com/weekly-selection-jan-18-2019-e8d4e2e49f90?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

利用深度学习的最新进展来预测股价走势

由鲍里斯 B——34 分钟读完

在这本笔记本中，我将创建一个预测股票价格变动的完整过程。坚持下去，我们会取得一些不错的成果。为此，我们将使用一种生成式对抗网络(GAN ),其中 LSTM 是一种递归神经网络，作为生成器，而卷积神经网络 CNN 作为鉴别器。

数据可视化中的探索性设计

由以利亚·米克斯和杰森·福里斯特——10 分钟读完

对于数据可视化设计者来说，最具挑战性的任务之一是让他们的利益相关者相信一种不熟悉的技术比一种常用的技术更有效。

统计学中最重要的观点

由 Cassie Kozyrkov — 4 分钟读作

人口、样本和假设？或者你可能上过一门强调概率、分布、p 值和置信区间的课程？所有这些都是拼图的一部分，但是它们在核心的下游。

探索性数据分析的简明介绍

由丹尼尔·伯克 — 19 分钟改为

粉色汗衫，染红头发，镀灰胡子，不穿鞋，约翰列侬眼镜。真是个人物。想象一下他会有怎样的故事。他停好车，走进咖啡馆。

全球核武器的现实和俄罗斯核武器如何打开你的灯

由将科尔森 — 11 分钟改为

2018 年一个温暖的波士顿夏天，我刚刚在哈奇纪念壳牌公司的草坪上安顿下来，准备表演我最喜欢的交响乐——霍尔斯特的《行星》——这时我看到了忧思科学家联盟搭建的一个帐篷。

我记录了 2018 年的每一天

由林清武——7 分钟读完

2018 年，我每天都跟踪自己的心理健康状况。我用 1-5 的等级来评价我的快乐，其中“1”是非常糟糕的一天，“2”是有点糟糕的一天，“3”是一般的一天，“4”是有点好的一天，“5”是非常好的一天。

那个神奇宝贝是谁？

由 Yish Lim — 5 分钟读出

所以我是一个终生的神奇宝贝粉丝，也是一个最近转变的计算机科学书呆子。虽然我的主要兴趣在于数据科学(这是我上一篇关于数据科学伦理的文章)，但我发现自己一直在构思随机编码项目，其中大多数从未实现。

机器学习数据集的主要来源

通过将 Badr — 4 分钟读为

很难找到一个特定的数据集来用于各种机器学习问题，甚至很难进行实验。下面的列表不仅包含用于实验的伟大数据集，还包含描述、使用示例以及在某些情况下解决与该数据集相关的机器学习问题的算法代码。

每周精选—2019 年 1 月 25 日

原文：https://towardsdatascience.com/weekly-selection-jan-25-2019-d62d11173f49?source=collection_archive---------20-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自担风险评估 NLP: BLEU 中的文本输出

由瑞切尔·塔曼 — 17 分钟阅读

刚进入 NLP 的人经常问我一个问题，当系统的输出是文本，而不是输入文本的某种分类时，如何评估系统。

泊松分布和泊松过程讲解

到时，Koehrsen 将 — 14 分钟读取

大多数学校统计学的悲剧在于它变得如此无趣。老师们花数小时费力地研究推导、方程和定理，当你最终读到最精彩的部分——将概念应用于实际数字——时，却是一些无关紧要、缺乏想象力的例子，比如掷骰子。

通过 PyTorch 中的可视化理解卷积神经网络

由维哈尔·鞍马 — 11 分钟阅读

在当今时代，机器在理解、识别图像中的特征和物体方面已经成功达到 99%的准确率。举几个例子，我们每天都可以看到智能手机在相机中识别人脸，在谷歌照片中搜索特定照片，快速扫描条形码或书籍中的文本等。

质胜于量:构建完美的数据科学项目

由杰瑞米·哈里斯 — 7 分钟读完

在初创公司的行话中，“虚荣指标”是公司为了让世界——有时是自己——相信他们比实际情况做得更好而跟踪的一个数字。

如何在 40 行代码中可视化卷积特征

由法比奥·m·格雷茨 — 18 分钟阅读

最近，在读杰里米·里夫金的书《工作的终结》时，我看到了人工智能的一个有趣定义。里夫金写道:“今天，当科学家们谈论人工智能时，他们通常指的是‘创造机器的艺术，这些机器执行的功能需要人来执行。”

如何用图卷积网络在图上做深度学习(第一部分、第二部分)

Tobias Skovgaard Jepsen — 9 分钟阅读

图的机器学习是一项困难的任务，因为图的结构非常复杂，但也能提供丰富的信息。本文是关于如何使用图形卷积网络(GCNs)对图形进行深度学习的系列文章中的第一篇，图形卷积网络是一种强大的神经网络，旨在直接对图形进行处理并利用其结构信息。

非视觉任务的深度学习视觉

通过最大 Pechyonkin — 7 分钟读取

近年来，深度学习彻底改变了计算机视觉。由于有了迁移学习和惊人的学习资源，任何人都可以通过使用预先训练的模型并根据自己的领域进行调整，在几天甚至几小时内获得最先进的结果。

掌握数据科学面试循环

安德烈·里斯科夫(Andrei Lys kov)—12 分钟阅读

2012 年，《哈佛商业评论》宣布数据科学将是 21 世纪最性感的工作。从那以后，围绕数据科学的炒作只增不减。最近的报告显示，对数据科学家的需求远远超过了供给。

通过深度学习实现项目管理自动化

由尤安·维勒斯基 — 10 分钟阅读

在数据驱动的项目管理未来，项目经理将得到人工智能的增强，人工智能可以突出项目风险，确定资源的最佳分配，并自动化项目管理任务。

经办人:图文并茂的关注

由莱米·卡里姆 — 12 分钟读取

几十年来，统计机器翻译一直是占主导地位的翻译模式，直到神经机器翻译(NMT)的诞生。NMT 是一种新兴的机器翻译方法，它试图建立和训练一个单一的大型神经网络，该网络读取输入文本并输出翻译

每周精选—2019 年 1 月 4 日

原文：https://towardsdatascience.com/weekly-selection-jan-4-2019-ff336394e5db?source=collection_archive---------18-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我如何在 2018 年艰难地学习数据科学

由艾琳 — 5 分钟读完

当你没有科学学位时，你如何开始学习数据科学？在我调查这些工作机会时，几乎所有的工作机会都将数学、统计学、计算机科学或至少一个量化领域的教育列为要求。我没有。

创业公司数据科学项目流程

由谢伊帕拉奇 — 19 分钟阅读

最近，我正在咨询的一家初创公司( BigPanda )要求我就数据科学项目的结构和流程发表意见，这让我思考是什么让它们独一无二。

过去一年最有用的 6 个机器学习项目

由乔治·赛义夫—4 分钟读完

对于人工智能和机器学习来说，过去的一年是伟大的一年。机器学习的许多新的高影响力应用被发现并公之于众，特别是在医疗保健、金融、语音识别、增强现实以及更复杂的 3D 和视频应用中。

AI 难的真正原因

凯西·科济尔科夫(Cassie Kozyrkov)—6 分钟阅读

今年圣诞节，我朋友的祖母终于发现了她孙子多年来一直在做的事情。他是一名数据科学家，从小受英语教育，偶尔在家庭场合会讲一点西班牙语。他的祖母只会说西班牙语。

2018 年我探索的 10 个数据科学工具

由本·韦伯 — 6 分钟读完

2018 年，我投入了大量时间学习和撰写关于数据科学方法和技术的文章。2018 年上半年，我写了一个关于创业公司数据科学的博客系列，我把它变成了一本书。

通过构建真实世界的应用程序掌握 Python(第四部分)

由德鲁米尔·帕特尔 — 10 分钟阅读

每隔一段时间，就会出现一种新的编程语言，并伴随着一个伟大的社区来支持它。Python 已经出现了一段时间，所以我可以肯定地说，Python 不是一种语言，而是一种宗教。

数据科学与 Python 中的中等故事统计

到时，Koehrsen — 12 分钟读数

Medium 是一个写作的好地方:没有分散注意力的功能，拥有庞大但文明的读者群，最棒的是，没有广告。然而，它不足的一个方面是你可以在你的文章中看到的统计数据。

如何使用机器学习进行异常检测和状态监控

通过 Vegard Flovik — 13 分钟读取

在本文中，我将介绍机器学习和统计分析的几种不同技术和应用，然后展示如何应用这些方法来解决异常检测和状态监控的特定用例。

为游戏创建语音助手(FIFA 教程)

通过 Chintan Trivedi — 5 分钟读取

像亚马逊 Alexa 和谷歌 Home 这样的语音助手已经广泛流行，用于自动化和简化日常任务的执行。它们允许用户通过使用他们的声音快速完成事情，而不必通过他们的手机或电脑进行多次交互。

以正确的方式处理数据

由 Yish Lim — 10 分钟读完

当我学习如何从网上搜集数据时，我第一次想到了数据科学中的伦理观念。刚刚配备了能够轻松捕获和存储任何仅仅是在线打印的信息的能力，我正享受着仅仅为了它而抓取不同网站的乐趣。

每周精选—2019 年 7 月 12 日

原文：https://towardsdatascience.com/weekly-selection-july-12-2019-67a3e08ce50d?source=collection_archive---------30-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我作为机器学习工程师第一年学到的 12 件事

由丹尼尔·伯克 — 11 分钟阅读

成为你自己最大的怀疑者，尝试不可行的事情的价值，以及为什么沟通问题比技术问题更难。

为什么 Keras 中默认 CNN 坏了，如何修复它们

到内森·胡本斯 — 6 分钟读取

深入探究 CNN 初始化…

深入研究机器学习的分类编码

由格罗弗王子 — 14 分钟读完

根据我在监督学习方面的经验，将模型性能从像样提高到像人一样需要创造性的特征工程。

面向对象编程的简单混合如何能强化你的深度学习原型

通过 Tirthajyoti Sarkar — 11 分钟读取

通过混合面向对象编程的简单概念，如函数化和类继承，您可以为深度学习原型代码添加巨大的价值。

数据科学家:你的变量名太糟糕了。以下是修复它们的方法

由将 Koehrsen — 12 分钟读取

一种大大提高代码质量的简单方法

H2O 使用流量入门

通过 Parul Pandey — 7 分钟阅读

看看 H2O 的开源 UI，它将代码执行、文本、情节和富媒体结合在一个文档中。

简单的一键式 Jupyter 笔记本

由乔治·赛义夫 — 4 分钟阅读

数据科学可以是一件有趣的事情！

用 Python Web 抓取新闻文章

由米格尔·费尔南德斯·扎弗拉 — 8 分钟阅读

用 Python 构建 web 抓取应用程序变得简单

每周精选—2019 年 7 月 19 日

原文：https://towardsdatascience.com/weekly-selection-july-19-2019-a82779d22d52?source=collection_archive---------35-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用 Python、PyMC3 & ArviZ 进行贝叶斯统计

由苏珊李 — 10 分钟读完

高斯推断、后验预测检查、分组比较、分级线性回归

音频人工智能:使用卷积神经网络从立体声音乐中分离乐器

到 Ale Koretzky — 18 分钟读取

黑客音乐走向衍生内容的民主化

Python 中函数式编程的要素

通过 Parul Pandey — 9 分钟阅读

了解如何使用 Python 中的 lambda、map、filter 和 reduce 函数来转换数据结构。

你的数据集是一个巨大的墨迹测试

凯西·科济尔科夫(Cassie Kozyrkov)—6 分钟阅读

分析中的阿波芬尼亚的危险以及你能做些什么

如何避免数据科学编程环境中的常见困难

到将 Koehrsen — 9 分钟读取

减少编程环境中的附带问题，这样您就可以专注于重要的数据科学问题。

神经类型转移和卷积网络的可视化

马修·斯图尔特博士研究员 — 16 分钟阅读

使用迁移学习在 10 分钟内创建专业外观的艺术品。

数据科学家解释的 P 值

由阿德蒙德·李 — 11 分钟阅读

我去谷歌搜索 p 值这个词，我在维基百科上找到的东西让我更加困惑…

面向数据科学的 Python 初学者指南

由 Oleksii Kharkovyna — 10 分钟阅读

你需要的只是 Python。Python 就是你需要的全部。

增压 Jupyter 笔记本

通过 Pranjal Chaubey — 5 分钟读取

在这篇文章中，我介绍了一些 jupyter 笔记本插件/扩展和一些 Jupyter 命令，它们将增强您的 Jupyter 笔记本并提高您的工作效率。

基准分类编码器

丹尼斯·沃罗廷采夫 — 16 分钟阅读

大多数表格数据集包含分类要素。最简单的方法就是用标签编码器对它们进行编码。这很简单，但有时不准确。

我在亚马逊学到的三件事为我在机器学习领域的职业生涯做好了准备

杰西·弗里曼 — 6 分钟阅读

我在亚马逊工作了 5 年，离获得梦寐以求的“黄色徽章”只差几天了。

每周精选—2019 年 7 月 26 日

原文：https://towardsdatascience.com/weekly-selection-july-26-2019-9dde074025b?source=collection_archive---------28-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

软件架构的 5 个关键原则

由 Semi Koen — 7 分钟读取

有哪些伟大的软件架构师藏在他们的腰带下面

在 Pytorch 中训练快如闪电的神经网络的 9 个技巧

由威廉·法尔肯 — 11 分钟读完

面对现实吧，你的模型很可能还停留在石器时代。我敢打赌，你仍然在使用 32 位精度或* GASP* 甚至可能在单个 GPU 上只训练**。**

每个数据科学家都需要知道的 5 种采样算法

由拉胡尔·阿加瓦尔 — 5 分钟读完

我每天都在努力学习许多算法，所以我想列出一些最常见和最常用的算法，这些算法将在新的 DS 算法系列中使用。

预测 vs .解释

由黄家仪 — 13 分钟读完

以及为什么数据科学需要更多的“半贝叶斯人”

一位数据科学家从数独到 Kaggle 的旅程

通过 Parul Pandey — 8 分钟阅读

与 Rohan Rao 的对话:数据科学家、Kaggle 特级大师、印度数独卫冕冠军

网络的网络——逆图形的神经符号方法

由迈克尔·基斯纳——12 分钟阅读

许多人一旦熟悉了深度学习和神经网络，他们的第一个想法就是，“如果我们制作一个神经网络的网络会怎么样？”。

如何在高维空间中聚类

由尼古拉·奥斯科尔科夫 — 8 分钟阅读

自动检测集群数量的方法

用 Python 和 PyMC3 构建贝叶斯逻辑回归

到苏珊李 — 10 分钟读完

我认购定期存款的可能性有多大？后验概率，可信区间，优势比，WAIC

构建神经网络的经验法则

通过 Chitta Ranjan — 11 分钟读取

在本文中，我们将获得一个构建初始神经网络的起点。我们将学习经验法则，例如隐藏层数、节点数、激活等。，并查看 TensorFlow 2 中的实现。

检测时间序列数据的平稳性

通过 Shay Palachy — 9 分钟阅读

试图通过观察一个时间序列的图表来确定它是否是由一个平稳过程产生的是一个可疑的冒险。

每周精选—2019 年 7 月 5 日

原文：https://towardsdatascience.com/weekly-selection-july-5-2019-cbe8ab5c7?source=collection_archive---------21-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

暗示性计算机辅助设计

由斯塔尼斯拉斯·夏洛 — 10 分钟读完

通过机器学习辅助设计

贝叶斯推理问题，MCMC 和变分推理

由约瑟夫·罗卡和巴蒂斯特·罗卡 — 17 分钟读取

统计学中的贝叶斯推断问题综述

GPT2，计数意识和好奇黑客

由 Connor Leahy — 35 分钟阅读

不久前，OpenAI 披露了他们在人工智能系统 GPT2 的语言创造方面的最新实验细节。

从 MBA 到 IBM 数据科学家:独家专访格雷格·拉弗蒂

由 Haebichan Jung — 10 分钟阅读

TDS 与 IBM 的首席数据科学家讨论公司的工作流程、内部 NLP 项目以及获得第一份数据科学工作。

虚拟异常检测

由苏珊李 — 8 闵读

单变量和多变量数据的无监督异常检测。

优秀的数据科学家和伟大的数据科学家之间的区别是什么？

由阿马德乌斯·马格拉比 — 6 分钟读出

不断发展的领域中最有价值的技能

用机器学习生成披头士的歌词

由欧根 Hotaj — 11 分钟读完

语言模型和 OpenAI 的 GPT-2 的高级入门

利用无监督机器学习揭开隐藏的科学知识

由 Vahe Tshitoyan — 7 分钟阅读

Word2vec 从数百万份摘要中学习材料科学

用你新获得的壳技能打动旁观者

Rahul Agarwal — 10 分钟阅读

数据科学家的 10 分钟外壳/终端技能

下一级艺术和工作休闲的未来

通过最大 Frenzel — 30 分钟读取

用人工智能变得更有创造力(和人性)

每周精选—2019 年 6 月 14 日

原文：https://towardsdatascience.com/weekly-selection-june-14-2019-fcdd06ef0a53?source=collection_archive---------28-----------------------

“走向数据科学”将与多伦多机器学习峰会合作举办我们的第一场活动！如果你有兴趣在今年的 TMLS 演讲，现在就提交你的摘要吧。✨ 阅读更多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Jupyter 是新的 Excel

通过 Semi Koen — 7 分钟读取

为什么交易者和金融专业人士需要学习 Python

神经 ODEs:又一次深度学习突破的崩溃

由亚历山大·巴甫洛夫·洪查尔 — 11 分钟读完

在这篇文章中，我将尝试给出一个简短的介绍和这篇论文的重要性，但我将强调实际应用，以及我们如何和为了什么可以在应用中应用这种需要的神经网络，如果可以的话。

人工智能设计师的角色是什么？

阿曼达·林登——6 分钟阅读

大约 4 个月前，我开始管理脸书人工智能团队的产品设计组织。我们是一个中心组织，为脸书、Instagram 和其他脸书应用程序提供人工智能服务。我们还致力于开发由人工智能驱动的新体验。

甘人会梦到假图像吗？

由 Gidi Shperber — 13 分钟读取

深入研究图像取证:区分真实图像和伪造图像的努力

选择合适的数据库

由吴俊 — 4 分钟读出

启动任何数据库项目的关键步骤:关系与非关系、CAP 定理等等。

文字处理即将到来

由玛德琳·麦康贝 — 12 分钟读完

如何在《权力的游戏 1》中使用正则表达式(Regex)和自然语言工具包(NLTK)

亚历克莎，亚历克斯，还是艾尔？

由那华康 — 6 分钟阅读
3 条建议来对抗人工智能助手中的性别偏见

用 Python 中的“买到死”概率模型预测客户终身价值

卢卡·德·安杰利斯 — 11 分钟阅读

客户的价值是什么？在搅动之前，客户还会购买多少次？他在未来 3 个月内流失的可能性有多大？最重要的是，我们应该期望客户“存活”多久？

机器学习如何帮助识别药物的有效性和不良反应

通过 Dipen Chawla — 10 分钟读取

通过采用 ML 算法建立用于处理神经药物的文本综述的系统，以有洞察力的和视觉上信息丰富的表示形式提供有效性或不良反应的概述。

每周精选—2019 年 6 月 21 日

原文：https://towardsdatascience.com/weekly-selection-june-21-2019-6172d9c931a5?source=collection_archive---------25-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

算法偏差的算法解决方案:技术指南

由 Joyce Xu — 16 min 阅读

我想谈谈减轻算法偏差的技术方法。

为什么你还不是一个可以胜任工作的数据科学家

由杰瑞米·哈里斯 — 6 分钟读完

如果说我从我工作的数据科学导师初创公司学到了什么，那就是:从你的数据科学工作申请或面试中获得反馈几乎是不可能的。

70%的数据科学学习者做错了什么

丹·贝克尔(Dan Becker)—3 分钟阅读

在大学工程课程中，用 2 米长的金属杆反复砸我的头所得到的教训

用 Python 加速数据分析的 10 个简单技巧

按 Parul Pandey — 8 分钟读取

提示和技巧，尤其是在编程领域，非常有用。有时候一点小技巧既能节省时间又能挽救生命。

神经网络简介

马修·史都华博士研究员 — 16 分钟阅读

神经网络的详细概述，有大量的例子和简单的图像。

作为数据科学家如何与利益相关方合作

由山姆·巴罗斯 — 8 分钟阅读

当我开始的时候我会告诉自己什么

数据科学家犯的十大统计错误

由诺姆·尼默 — 7 分钟读完

数据科学家是“比任何软件工程师更擅长统计，比任何统计学家更擅长软件工程的人”。

为什么 p 值像针一样？分享它们很危险！

到卡西·科济尔科夫 — 8 分钟读完

这是一场关于 p 值的战争…双方都是错的

GANs 的端到端介绍

由拉胡尔·阿加瓦尔 — 11 分钟阅读

我敢打赌，我们大多数人最近都见过很多人工智能生成的人脸，无论是在报纸上还是博客上。

非技术性人工智能指南

由尼克拉斯·东格斯 — 13 分钟读完

根据麦肯锡的数据，从现在到 2030 年，人工智能将创造约 13 万亿美元的 GDP 增长。

Python 中的文本分类

由米格尔·费尔南德斯·扎弗拉 — 17 分钟读完

本文是我将介绍开发一个机器学习项目的整个过程的系列文章的第一篇。

每周精选—2019 年 6 月 28 日

原文：https://towardsdatascience.com/weekly-selection-june-28-2019-9804ddd06065?source=collection_archive---------22-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学的五个命令行工具

由丽贝卡·维克里 — 6 分钟阅读

从终端上你可以做比你想象的更多的数据科学

通过调整基线超越最先进水平

通过雷切尔·塔曼 — 5 分钟阅读

你如何知道一个新的机器学习模型是否是对以前模型的改进？

处理小数据的 7 个小技巧

丹尼尔·罗斯曼 — 7 分钟阅读

因为通常情况下，这就是你要得到的。

支持最佳实践

由拉吉夫·沙阿 — 5 分钟阅读

《自然》杂志地震余震论文中深度学习的误用

深入研究用于模型解释的 Catboost 功能

通过 Alvira Swalin — 8 分钟读取

我们真的了解我们构建的 ML 模型内部发生了什么吗？我们来探索一下。

技巧、诀窍、诀窍和魔法:如何毫不费力地优化你的 Jupyter 笔记本

安妮·邦纳 — 13 分钟阅读

让 Jupyter 笔记本变得更好、更快、更强、更光滑、更棒的完整初学者指南

机器学习能像放射科医生一样看胸片吗？

由戴维·w·戴 — 8 分钟阅读

使用对抗网络实现胸部 x 射线器官分割的人级性能

梯度推进机器入门—使用 XGBoost 和 LightGBM 参数

由 Nityesh Agarwal — 10 分钟阅读

如果你想用 GBMs 来建模你的数据，我相信，你至少要对内部发生的事情有一个高层次的了解。

每周精选—2019 年 6 月 7 日

原文：https://towardsdatascience.com/weekly-selection-june-7-2019-fe7b965292bb?source=collection_archive---------22-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Python 的数据表包概述

由帕鲁尔·潘迪 — 7 分钟阅读

用于高效多线程数据处理的 Python 库，支持内存不足的数据集。

使用最先进的技术优化深度学习交易机器人

由亚当·金 — 16 分钟读完

让我们教我们的深度 RL 代理使用特征工程和贝叶斯优化赚更多的钱

深度卷积神经网络的高级主题

马修·斯图尔特博士研究员——21 分钟阅读

残差网络、显著图、扩张卷积等等。

如果人工智能模型很容易理解会怎样？

凯西·科济尔科夫 — 7 分钟阅读

当我带你浏览谷歌的假设分析工具时，你会看到人工智能分析的实际应用

图表介绍

由梅尔·杨奇煜 — 10 分钟阅读

Python 中的主要概念、属性和应用

建筑&风格

由斯塔尼斯拉斯·夏洛 — 16 分钟读完

人工智能在建筑领域的新前沿

私有人工智能——用 PySyft 和 PyTorch 进行联合学习

安德烈·马塞多·法里亚斯 — 7 分钟阅读

GRU 模型在垃圾短信检测中的应用

用 SciPy 进行优化，并将思想应用到机器学习中

通过 Tirthajyoti Sarkar — 11 分钟读取

对于各种各样的业务和技术流程来说，优化通常是最终的边界，需要被征服才能交付真正的价值。

阿西莫夫机器人定律，以及为什么人工智能可能不遵守它们

汉斯·a·冈诺(Hans a . Gunnoo)—6 分钟阅读

"但是如果我们最终陷入终结者的场景呢？"问这样的问题无可厚非，因为通过电影和科幻故事，机器人接管的情况几乎无处不在，因此构成了我们对人工智能(AI)未来的印象。

每周精选—2019 年 3 月 1 日

原文：https://towardsdatascience.com/weekly-selection-mar-1-2019-516510a9f1b8?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

What are the most pressing problems in data science? Take our survey

构建您的第一个开源 Python 项目

由杰夫·黑尔 — 10 分钟阅读

每个软件开发人员和数据科学家都应该经历制作软件包的练习。一路上你会学到很多东西。

具有人工智能的仿人机器听觉(第一部分、第二部分、第三部分)

丹尼尔·罗斯曼 — 25 分钟阅读

在抽象层次上理解和处理信息不是一件容易的事情。人工神经网络已经在这一领域移山。

马尔可夫链简介

约瑟夫·罗卡 — 19 分钟阅读

1998 年，劳伦斯·佩奇(Lawrence Page)、谢尔盖·布林(Sergey Brin)、拉吉夫·莫特瓦尼(Rajeev Motwani)和特里·维诺格拉德(Terry Winograd)发表了《PageRank 引文排名:给网络带来秩序》(The PageRank Citation Ranking:bring Order to The Web)，他们在文章中介绍了谷歌起源时现在著名的 Page rank 算法。

木星实验室:木星笔记本的进化

通过 Parul Pandey — 10 分钟阅读

数据显示，Github 上有超过 300 万台 Jupyter 笔记本可供公众使用。私立学校的数量也大致相同。

网飞评论的深度学习情感分析

通过 Artem Oppermann — 11 分钟读取

在这篇文章中，我将涵盖情感分析的主题，以及如何实现一个可以识别和分类网飞评论中人类情感的深度学习模型。

AI &架构

由斯塔尼斯拉斯·夏洛 — 20 分钟阅读

人工智能作为一门学科，早已渗透到无数领域，为以前未解决的挑战带来手段和方法，跨行业。

介绍 Spark GraphFrame，并举例分析维基百科链接图

由马特·哈吉 — 4 分钟阅读

Spark GraphFrame 是使用分布式计算处理大型图形的强大抽象。它提供了大量常见的图形算法，包括标签传播和 PageRank。

Python 中 Anthem 游戏发布的情感分析

威廉·马斯 9 分钟阅读

视频游戏的发布受到戏剧的困扰。从误导性的预购捆绑包，到发布时远未完成的游戏，大型发行商在决定游戏发布的方式和时间时有相当大的风险要管理。

每周精选—2019 年 3 月 15 日

原文：https://towardsdatascience.com/weekly-selection-mar-15-2019-cbe5aa422a31?source=collection_archive---------19-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这很自然:过度深入自然渐变优化

由科迪·玛丽·怀尔德 — 15 分钟阅读

我要讲一个故事:一个你以前几乎肯定听过的故事，但与你习惯的侧重点不同。

为什么模型可解释性是下一个数据科学超级大国

由丹·贝克尔 — 4 分钟读完

在过去的 10 年里，我采访了许多数据科学家，模型可解释性技术是我最喜欢的话题，可以用来区分最好的数据科学家和普通的数据科学家。

变压器如何工作

由朱利亚诺·吉亚卡利亚 — 14 分钟读完

变压器是一种越来越受欢迎的神经网络架构。OpenAI 最近在他们的语言模型中使用了变形金刚，DeepMind 最近也在 AlphaStar 中使用了变形金刚，alpha star 是他们击败顶级职业星际玩家的程序。

从“R vs Python”到“R 和 Python”

通过 Parul Pandey — 7 分钟读取

在单个项目中充分利用 Python 和 R’的优点。

建设支持无污染城市:开放数据工作流程

由尼克·琼斯 — 6 分钟读取

空气污染是我们这个时代最大的杀手之一，根据《柳叶刀》的一项研究, 2015 年空气污染导致 640 万人死亡，相比之下，疟疾导致 70 万人死亡。我们如何推动更多的行动来解决这个问题？在本帖中，我们将介绍使用 Python 代码构建数据驱动的宣传工具的步骤。

高斯混合模型(GMM)

由丹尼尔·福利 — 11 分钟阅读

使用无监督学习理解文本数据

Jupyter super power——与 Python 的交互可视化组合

通过确认 — 5 分钟读取

altair 是一个交互式可视化库。它提供了更一致的 API。这是作者对图书馆的描述。

在 Python 中构建员工流失模型，以制定战略性保留计划

通过 Hamza Bendemra — 13 分钟阅读

员工流动(也称为“员工流失”)对公司来说是一个代价高昂的问题。替换一名员工的真实成本通常会非常高。

10 个让你工作更高效的 Python 熊猫技巧

由李晓堂 — 5 min 阅读

有些命令您可能已经知道，但可能不知道它们可以这样使用。

每周精选—2019 年 3 月 22 日

原文：https://towardsdatascience.com/weekly-selection-mar-22-2019-8fb32a9d81?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学家:22 世纪最性感的工作

由凯西·科济尔科夫 — 6 分钟阅读

数据科学被称为“21 世纪最性感的工作”——如果我看到更多的商业领袖将数据科学家雇佣到我们可以有效工作的环境中，我会相信这一观点。相反，我们中的许多人感到被误解和被忽视。

对文本数据进行完整的探索性数据分析和可视化

由苏珊李 — 8 分钟读完

如何将可视化和 NLP 结合起来，以便以直观的方式生成见解。

用回声状态网络预测股票价格

马修·斯图尔特博士研究员 — 14 分钟阅读

几十年来，人们一直试图可靠地预测股市看似混乱的本质，但都失败了。神经网络是关键吗？

使用图形网络的机器人控制

通过或 Rivlin — 9 分钟读取

利用关系归纳偏差提高概括和控制

给有抱负的数据科学家的六条建议

由本·韦伯 — 6 分钟读取

数据科学是一个需求巨大的领域，部分原因是它似乎需要作为数据科学家的经验才能被聘为数据科学家。

神经网络调试清单

通过测测邵 — 10 分钟阅读

您可以采取切实可行的步骤来识别和解决机器学习模型的训练、泛化和优化问题

“通过数据驱动的体育博彩战略赚大钱”

由段德安阮 — 10 分钟阅读

几个月前，我开发并写了一个 ML-free 算法，使用简单的泊松过程预测英超联赛的结果。

深度学习神经元对生物神经元

到马修·鲁斯 — 12 分钟读完

近年来，“深度学习”人工智能模型经常被吹捧为“像大脑一样工作”，因为它们由模仿生物大脑的人工神经元组成。

理解梯度下降背后的数学原理

通过 Parul Pandey — 10 分钟阅读

机器学习中一种常用优化算法背后的简单数学直觉。

数学之光 Keras 深度网络中的注意力

通过 Thushan Ganegedara — 6 分钟读取

将所有错综复杂的注意力转移到喀拉斯的一条优雅的线上

每周精选—2019 年 3 月 29 日

原文：https://towardsdatascience.com/weekly-selection-mar-29-2019-66f174c01467?source=collection_archive---------18-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每周精选—2019 年 3 月 8 日

原文：https://towardsdatascience.com/weekly-selection-mar-8-2019-614396091e11?source=collection_archive---------22-----------------------

数据科学中最迫切的问题是什么？参加我们的调查

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

明天太阳会升起吗？机器学习的贝叶斯统计简介

马修·斯图尔特博士研究员——11 分钟阅读

你有没有问过自己，以前从未发生过的事件发生的概率是多少？

简化 ROC 和 AUC 指标。

由帕鲁尔·潘迪 — 8 分钟阅读

ROC 和 AUC 曲线是计算任何分类模型性能的重要评估指标。这些定义和术语在机器学习社区中非常常见，当我们开始学习分类模型时，我们每个人都会遇到。

保持平稳时间序列的记忆

作者: Simon Kuttruf — 8 分钟阅读

许多预测模型要求时间序列具有一定的一致性，称为平稳性。通常的转换，即整数阶差分(在金融中，例如对回报率而不是绝对价格建模)，消除了数据中的记忆，因此影响了建模的预测能力。

每周精选—2019 年 5 月 10 日

原文：https://towardsdatascience.com/weekly-selection-may-10-2019-11e7b1ad12f3?source=collection_archive---------17-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每周精选—2019 年 5 月 19 日

原文：https://towardsdatascience.com/weekly-selection-may-19-2019-9a80718f84f0?source=collection_archive---------30-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每周精选—2019 年 5 月 24 日

原文：https://towardsdatascience.com/weekly-selection-may-24-2019-9243d3238db3?source=collection_archive---------33-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

安静的半监督革命

由文森特·万霍克 — 5 分钟阅读

对于机器学习工程师来说，最熟悉的设置之一是访问大量数据，但只有少量资源来注释这些数据。