TowardsDataScience 博客中文翻译 2019(五百五十四)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

当曼哈顿的距离不够的时候

原文:https://towardsdatascience.com/when-the-manhattan-distance-isnt-enough-4339f7c57b82?source=collection_archive---------34-----------------------

寻找最佳路线

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo credit: Jaanus Jagomägi.

晚上,我沿着安静的街区里几个漂亮的长方形街区散步回家。当我第一次搬进我的公寓时,我每天会沿着不同的路线随意漫步,探索这片土地,但过了一段时间后,我开始迷恋上一条曲折的道路——但这是为什么呢?

因为是最短的

让我们来探究为什么会这样,以及以这种方式走路可以节省多少时间。我们将进行一些基本的数学建模,并找出在极端情况下会发生什么——让我们开始工作吧!

什么距离?

当我们谈论两个事物之间的距离时,我们通常会谈论“直线距离”或曼哈顿距离。前者是到达那里的直接路线,而后者是如果你必须沿着一个严格的网格模式走的距离。您可以在下图中看到这些表示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Difference distance measurements: as the bird flies (green), and the Manhattan distance (red, blue or yellow). Credit: Wikpedia.

这种定义距离的方式有很多应用,从国际象棋到纯数学到计算生物学。你会注意到一个缺点,真实的街道是有宽度的。

人类相当懒惰,或者,换句话说,我们抄近路。这意味着当我们在街上行走时,我们有时会沿着对角线行走,以减少行走的总距离。这仅仅是因为切割一个角的距离比跟随一个形状的外部要短。你可以在这里看到勾股定理的简单证明

因此,如果我们考虑一条有宽度的道路,那么现在两点之间的最短距离是多少?

让我们来看看数学

在这两个极端中,我们有上图所示的红线和蓝线,让我们在一个较小的 2x2 模块上计算它们的性能。我们假设从左下角开始,希望在右上角结束。道路的宽度将是 w,两条道路之间的距离将是 l。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A simple 2x2 street block depicting the optimal route (green), the longer routes (red) and the best possible route (blue).

请注意,最短的路线(绿线)可以表示为:

Distance (optimal) = sqrt( 2 x (2l+3w)^2 )

首先,对于红线,我们假设还是不偷工减料。那么测量的距离将是

Distance (red, long) = [ 2 x (l+w) + w ] x 2
                     = 4l + 6w

现在让我们只切一个角,在到达终点之前,向左上角前进。

Distance (red, short) = sqrt( (2x(l+w))^2 + w^2 ) x 2
                      = sqrt( 4l^2 + 5w^2 + 4lw ) x 2

这有点复杂,但希望您仍然能够理解。

我们现在可以看一下蓝线,它允许我们切掉尽可能多的角,从而得到公式:

Distance (blue) = ( sqrt((l+w)^2+w^2) + sqrt(l^2+w^2) ) x 2

那很好,但是这些公式如何比较?我们能节省多少时间?

数据

为了进行计算,我们需要道路的平均长度和宽度。在谷歌地图上用距离计算器测量我家附近的距离,我发现平均长度为 55 米,宽度为 3 米。我敢肯定,这在世界各地甚至在不同的社区都有所不同,所以请随意尝试您自己的数字。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Measuring street sizes with Google Maps, 55m long and 3m wide, on average.

将这些代入我们上面的公式得到以下结果:长红色距离= 238 米,短红色距离= 232 米,蓝色距离= 226 米,最佳距离= 168 米。这意味着,我们的最短路线将是沿着蓝色路径抄近路,节省 12 米的距离,即 5%!

正如文章开头所提到的,我的房子离车站有四个街区远,也就是说公式必须根据更多的街区进行调整。这样做的结果是最长距离为 470 米,最短距离为 447 米。这仍然是 5%的适度节省,但现在相当于节省了 2300 万英镑——这只是一种方式!

通过遵循之字形方法,我可以每天节省将近 5000 万英镑,或者每月节省 1.5 公里。这听起来可能不算多,但是以人类平均 5 公里/小时的行走速度,每个月可以节省将近 20 分钟!

更多,更多!

我的街区只有四个宽和四个高,但是更大的街区呢?随着我们看到越来越大的区域,我们能节省多少?

让我们考虑一下,随着块数 n 向无穷大增加,我们的公式会发生什么变化。我们必须将上述公式推广到 n 个区块,给出:

Distance (blue) = sqrt((l+w)^2+w^2) x 2 + sqrt(l^2+w^2) x (n-1) x 2

随着 n 的增加,左边的项变得无关紧要,留给我们:

Distance (blue) = sqrt(l^2+w^2) x n x 2

让我们将这种情况与广义的最差解决方案进行比较。

Distance (red, long) = [ n x (l+w) + w ] x 2

更大的 n,重新排列,得到:

Distance (red, long) = (l+w) x n x 2

所以我们能走的最长距离和最短距离的比率是:

Distance (blue) / Distance (red, long) = sqrt(l^2+w^2) / (l+w)

将我所在街道的数字代入,得出 5%,与我们之前对四个街区的计算非常相似。这是一个有趣的结果,它告诉我们,无论我们走多少个街区,我们仍然只能节省最大距离的 5%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

As the number of blocks increases, we hit a limit to the amount of savings we can have. For streets with length of 55m and width of 3m, this is around 5%.

然而,我们可以看到,不同的道路宽度和长度值可以节省更多的成本。例如,如果我走过的路的宽度是两倍,那么节省的成本几乎是 10%。

抄近路

这篇文章展示了抄近路的好处。我们不仅应该在有意义的时候在业务中这样做(尤其是在初创公司,想象一下成本降低 5%!),要在个人生活中做到,才能获得真正的积蓄。

它还显示了如何将简单的建模和估计应用于问题,以发现有趣的关系,例如走过的街区数量与节省的时间之间的无关性。

最后,我希望你已经学会了一两件关于走路的事情,下次你决定走哪条路回家时,你会三思而行。

注意:斜过马路请小心;我住在一个安静的街区,但这种行为在繁忙的街道上肯定不太好。在节省时间之前,保持安全!

当使用的统计数据改变了 2020 年美国劳工联合会的年龄叙述

原文:https://towardsdatascience.com/when-the-statistic-used-changes-the-afl-age-narrative-for-2020-954e938076ef?source=collection_archive---------39-----------------------

我们应该使用平均值还是中位数?

在看到我心爱的 Hawthorn Hawks 在他们的网站上发布了一篇关于每个球队球员年龄的文章后,媒体喜欢引用 Champion Data 的“平均年龄”作为他们的衡量标准,这让我感到愤怒。

从 2020 年 AFL 超级联赛赛季开始时球员的年龄分布可以看出,这个数字将被名单上的老球员扭曲,特别是像肖恩·伯格因、凯德·辛普森、小加里·阿布莱特这样的球员…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Would the mean or median be a better measure with this distribution?

意思是,中间值…那又怎么样?

的意思是,来自维基

对于数据集,算术平均值,也称为数学期望或平均值,是一组离散数字的中心值:具体来说,是值的总和除以值的个数。

中位,亦维基

中位数是将数据样本(总体或概率分布)的上半部分与下半部分分开的值。对于一个数据集,它可以被认为是“中间”值。例如,在数据集{1,3,3,6,7,8,9}中,中位数是 6,样本中第四大也是第四小的数。对于一个连续的概率分布,中值是这样一个值,使得一个数有相等的可能落在它之上或之下。

当数据不是正态分布在平均值周围时(就像这里的情况),用它来描述中心的度量是误导的。在这种情况下,中位数提供了更具代表性的统计数据。对于如上图所示的正偏态分布,统计 101 告诉我们,中值将小于平均值,而当分布为负偏态时,情况正好相反。

2020 年 AFL 超级联赛赛季球队名单上所有球员的平均年龄是 24.17 岁,而平均年龄是 23.6 岁。

那么为什么他们仍然报告平均值呢?

我怀疑媒体报道平均年龄有两个原因;

  1. 谁会费心去解释均值和中值之间的细微差别;或者更有可能,
  2. 对于一些团队来说,平均水平更倾向于将这个数字拉得更高,从而推动他们想要运行的叙事。

不同措施的影响

当我们绘制每个团队的平均年龄和中值年龄时,我们可以看到我们得到了一些非常不同的结果。

我们相信吉朗猫队拥有第四古老的名单,但当使用中位数作为统计数据时,他们是第 11 古老的比赛名单,袋鼠,GWS,圣徒,魔鬼,轰炸机,牛头犬和老虎都比他们有更古老的名单。

其他一些影响:

  • 布里斯班雄狮队拥有 2020 赛季最年轻的名单,而不是黄金海岸队
  • 老鹰队实际上是第四老的名单,北墨尔本是第三
  • 恶魔是第七古老的名单,而不是第十二古老的
  • 权力是第三(与天鹅)最年轻的名单,而不是第十老

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Orange points represent the mean, while blue points the median

这些有什么关系呢?

这个数字是如何报告的最终可能无关紧要;当谈到英超成功的最终荣耀时,比赛名单的年龄可能并不那么重要,正如我们可以在这个伟大的分析中看到的最近英超球队的不同年龄分布。

除此之外,如果能看到这个数字报告得更准确一点,那就更好了。

咆哮。完毕。

这个帖子的数据和用来刮的代码可以在这里找到。

本帖原创,发布在不怪数据博客https://www.dontblamethedata.com

什么时候放弃?

原文:https://towardsdatascience.com/when-to-give-up-117e2e2acdc9?source=collection_archive---------36-----------------------

对 NBA 球员相对于选秀状态的价值,他们成功的可能性,以及如何确定资产价值的检查。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当魔术队把维克多·奥拉迪波交易到俄克拉荷马雷霆队换来赛尔吉·伊巴卡时,他们放弃了他。七年来,伊巴卡一直是雷霆队的核心球员,但在很大程度上走了下坡路,而奥拉迪波理论上是魔术队的未来。奥拉迪波在 2013 年 NBA 选秀中被选为第二顺位,在联盟的第一年是一名稳定的球员,他的球员效率评分为 13.6 ,投篮命中率为 51.4%,使用率为 24.4%。奥拉迪波在那个赛季的防守上也是一个怪物,创造了 2.8 个防守赢球份额和 1.71 的德雷蒙德评分

简而言之,奥拉迪波的思路是正确的。他以你希望的方式生产你的新秀彩票选秀权。那么,为什么仅仅两年后,魔术队就要让他打包走人,因为这个大个子不能从外线投篮,也没有达到他 22 岁、23 岁和 24 岁时的水平?

我不会冒昧地知道魔术放弃奥拉迪波的全部原因,但我会猜测,当奥拉迪波准备进入他在联盟的第四个赛季时,有人认为奥拉迪波已经是他将要成为的球员;他已经展示了自己的能力,但还没有明显的进步。两年后的另一次交易,这次是印第安纳步行者,奥拉迪波度过了一个爆发的赛季,入选 2018 年全明星队,并带领步行者队进入季后赛。

当然,并不是每个选秀权都有这种跳跃,NBA 前台的工作就是正确评估谁会有更多的跳跃。但是我们如何做出这个决定呢?一个前第一轮选秀权在 NBA 的第二年比第二轮选秀权更有可能实现未来的飞跃吗?来个前 10 名的选秀怎么样?最高选秀权是否比第一轮中后期选上的人更有可能实现未来的飞跃?我们都认为自己知道这些答案,但是数据支持我们的信念吗?

当一个球员被选中时,他的选择本质上是对他在 NBA 成功可能性的评估;较高的选择者被认为比较低的选择者更有可能成功。这大体上是真的。如果你看看按选秀顺位分列的 PER(上场时间超过 1000 分钟的球员)分布;很明显,生产和草稿状态之间存在关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

问题是,一旦一个球员在联盟呆了一段时间,并且表现稳定,不管他的表现如何,有没有办法预测他未来的成长?我们能想到奥拉迪波会在表演上有巨大的飞跃吗?魔术最近交易了前状元秀马克尔·富尔茨。有没有办法确定富尔茨能否东山再起?如果有,如何实现?线索是否在于他的年龄,选秀位置,统计的表现数据,他效力的球队?人们认为继续投资一个前 10 名的球员会更好,但从 20 多岁或 30 多岁的球员继续前进也许没问题。他们是正确的吗?让我们更深入地研究一下数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The distribution of WS/48 (Win Shares per 48 minutes) of each draft class going back to 2006.

上面你可以看看自 2006 年以来,每名至少打了 500 分钟的 NBA 球员的 WS/48(每 48 分钟的赢球份额)的分布情况。这些是小提琴图,表达了 WS/48 的分布,其中每个图的蓝色半部分显示了第一轮(前 30 名)选秀中选出的球员,橙色半部分显示了第二轮(第 31-60 名)选秀中选出的球员。每把小提琴代表一年,第一个图表显示 2006-2011 年的选秀课程,第二个图表显示 2012-2018 年的选秀课程。小提琴内部的白点各代表一名演奏者。如果你仔细观察,你会发现每把小提琴内有三条虚线。中间的线代表该特定吃水深度等级的 WS/48 中值,而上下虚线给出了该特定吃水深度年份数据的四分位数范围的界限。这些图表起初看起来可能不寻常或令人生畏,但是如果你把这些图翻转过来,它们可能看起来更熟悉一些,就像概率分布。

有什么跳出来了?首先,对于最近的草案,WS/48 的发行版正在减少。这意味着经验不足的玩家生产的 WS 更少。不奇怪。然而,值得注意的是,随着我们离 2006 年越来越远,离 2018 年越来越近,第二轮选秀权所拥有的分配份额也在增加。这是我们将来可以深入研究的事情。要更仔细地观察,请查看下表:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 请注意,图像显示的是“DRAFT_YEAR + 1”。所以这里的 2019 指的是 2018 年选秀的球员,2018 指的是 2017 年选秀的球员等等

在 2014 年,2016 年,2017 年和 2018 年的选秀中,第二轮选秀权有 25-35%的分配份额,这意味着他们中更多的人在比赛,贡献和获得机会。此外,就 WS/48 而言,在过去三年中,第二轮选秀权的表现几乎与第一轮选秀权一样好。这种解释显然存在一些问题。样本量非常小,一些异常值如尼克斯队的米切尔·罗宾逊对数据有重大影响。但是,当查看任何一年的草案数据时,总是会有局限性,所以现在我们只看数据是什么。

如果你回顾一下 2006-2010 年,你会注意到平均来说,第二轮选秀权的 WS/48 和第一轮选秀权差不多。然而,样本中的首轮选秀权要多得多,大约是第一轮选秀权的五倍。也许第二轮选秀权只有在他们生产的情况下才会被保留,而第一轮选秀权会被给予更长的期限,因为他们认为未来会有回报?事实上,与第一轮选秀相比,第二轮选秀的 WS/48 标准差要低得多,当我们进入青少年选秀时,这种关系与第二轮选秀相反,表现出更多的差异。

但这仅仅是开始。这些数字让你一瞥组织可能如何评估他们的球员,他们认为谁是值得花更多时间发展的资产,谁是他们认为不值得未来的球员。我很想知道年龄、选秀位置和球队等因素对一名 NBA 球员未来的成功有多大影响。这些因素对改善有预测力吗?如果有,多少?

这是一系列帖子的第一部分,这些帖子将更深入地探讨 NBA 球队何时应该继续投资,何时应该从他们的球员名单上转移。希望这些帖子可以帮助我们更好地评估人才,并在辞职、交易和裁掉球员时做出更好的决定。

下一次,我们将看看哪些球队从他们的年轻人才中获得了最多的产量,正如下图所示的 2019 年二年级球员。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请随意查看这个博客的数据,位于 GitHub。

当主题建模是文本预处理的一部分时

原文:https://towardsdatascience.com/when-topic-modeling-is-part-of-the-text-pre-processing-294b58d35514?source=collection_archive---------14-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo credit: Unsplash

如何有效和创造性地预处理文本数据

几个月前,我们使用相对干净的文本数据集构建了一个基于内容的推荐系统。因为我自己收集了酒店的描述,所以我确信这些描述对我们将要完成的目标是有用的。然而,现实世界中的文本数据从来都不是干净的,不同的目标有不同的预处理方法和步骤。

NLP 中的主题建模很少是我在分析中的最终目标,我经常使用它来探索数据或作为一种工具来使我的最终模型更加准确。让我告诉你我的意思。

数据

我们仍然在使用我之前收集的西雅图酒店描述数据集,这次我把它变得更加混乱了。我们将跳过所有的 EDA 过程,我想尽快提出建议。

如果你读过我的上一篇文章,我相信你理解下面的代码脚本。是的,根据酒店描述文本,我们正在寻找与“西雅图市中心希尔顿花园酒店”(除了它自己)最相似的前 5 家酒店。

提出建议

dirty_hotel_rec.py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 1

我们的模型返回上述 5 家酒店,并认为它们是与“希尔顿花园酒店西雅图市中心”最相似的前 5 家酒店。我敢肯定你不同意,我也不同意,先说为什么模型看这些描述会觉得它们很相似。

df.loc['Hilton Garden Inn Seattle Downtown'].desc

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

df.loc["Mildred's Bed and Breakfast"].desc

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

df.loc["Seattle Airport Marriott"].desc

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

发现什么有趣的东西了吗?是的,在这三家酒店的描述中确实有一些共同点,他们都有相同的入住和退房时间,并且他们都有相似的吸烟政策。但是它们重要吗?我们能仅仅因为两家酒店都是“无烟”就宣称它们是相似的吗?当然不是,这些不是重要的特征,我们不应该在这些文本的向量空间中测量相似性。

我们需要找到一种方法,通过编程安全地删除这些文本,同时不删除任何其他有用的特征。

主题建模拯救了我们。但在此之前,我们需要将数据转换成正确的格式。

  • 将每个描述分成句子。因此,举例来说,希尔顿花园酒店西雅图市中心的整个描述将分为 7 个句子。

split_desc.py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Table 1

主题建模

  • 我们将一起为所有的句子建立主题模型。经过几次实验,我决定有 40 个题目。

sent_topic_model.py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 2

不算太坏,没有太多重叠。

以下关于如何显示每个主题中的热门关键词,以及如何找到每个文档中的主导主题的代码脚本,都是借用了这个优秀的教程

  • 为了更好地理解,您可能需要调查每个主题中的前 20 个单词。

top_20_words.py

我们将有 40 个主题,每个主题显示 20 个关键词。很难打印出整个表格,我将只展示其中的一小部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Table 2

通过盯着表格,我们可以猜测,至少话题 12 应该是我们想要忽略的话题之一,因为它包含了几个对我们的目的毫无意义的单词。

在下面的代码脚本中,我们:

  • 创建文档-主题矩阵。
  • 创建一个数据框,其中每个文档为一行,每列为一个主题。
  • 每个主题的权重被分配给每个文档。
  • 最后一列是该文档的主导主题,在其中它的权重最大。
  • 当我们将这个数据框架合并到前面的句子数据框架时。我们能够找到每个主题在每个句子中的权重,以及每个句子的主导主题。

sent_topic.py

  • 现在,我们可以直观地检查“希尔顿花园酒店西雅图市中心”的每个句子的主导主题分配。
df_sent_topic.loc[df_sent_topic['name'] == 'Hilton Garden Inn Seattle Downtown'][['sentence', 'dominant_topic']]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Table 3

  • 通过盯着上表,我的假设是,如果一个句子的主导话题是话题 4 或话题 12,那么这个句子很可能是无用的。
  • 让我们再看几个以话题 4 或话题 12 为主导话题的例句。
df_sent_topic.loc[df_sent_topic['dominant_topic'] == 4][['sentence', 'dominant_topic']].sample(20)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Table 4

df_sent_topic.loc[df_sent_topic['dominant_topic'] == 12][['sentence', 'dominant_topic']].sample(10)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Table 5

  • 在查看了上面两个表格后,我决定删除所有以话题 4 或话题 12 为主导话题的句子。
print('There are', len(df_sent_topic.loc[df_sent_topic['dominant_topic'] == 4]), 'sentences that belong to topic 4 and we will remove')
print('There are', len(df_sent_topic.loc[df_sent_topic['dominant_topic'] == 12]), 'sentences that belong to topic 12 and we will remove')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

df_sent_topic_clean = df_sent_topic.drop(df_sent_topic[(df_sent_topic.dominant_topic == 4) | (df_sent_topic.dominant_topic == 12)].index)
  • 接下来,我们将把干净的句子连在一起进行描述。也就是说,使其回到每个酒店的一个描述。
df_description = df_sent_topic_clean[['sentence','name']]
df_description = df_description.groupby('name')['sentence'].agg(lambda col: ' '.join(col)).reset_index()
  • 让我们看看“西雅图市区希尔顿花园酒店”还剩下什么
df_description['sentence'][45]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

只剩下一句话,是关于酒店的位置,这是我所期待的。

提出建议

使用相同的余弦相似性度量,我们将根据清理后的酒店描述文本,找到与“西雅图市中心希尔顿花园酒店”(除了它自己)最相似的前 5 家酒店。

clean_desc_rec.py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 3

不错!我们的方法成功了!

Jupyter 笔记本可以在 Github 上找到。周末愉快!

我们什么时候会看到第一波人工智能 IPO?

原文:https://towardsdatascience.com/when-will-we-see-the-first-wave-of-ai-ipos-8ab4ddda6657?source=collection_archive---------28-----------------------

我们已经看到 7 家人工智能公司以$1B+的价值退出。这是一波巨大 IPO 浪潮的第一个信号吗?为什么美国的 AI IPOs 很少?美国在人工智能统治地位的竞赛中落后了吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2008 年 7 月 10 日,苹果推出了 App Store,最初只有 500 个应用程序。此后不久,谷歌在 2010 年宣布了移动优先战略。从那以后,我们看到了一波大规模的移动应用 IPO:2012 年的 Evernote,2013 年的 Twitter,2014 年的 King(糖果粉碎背后的公司),2015 年的 Tinder,2016 年的 Snapchat 和 Line。

快进到 2017 年,谷歌首席执行官桑德尔·皮帅宣布了从移动优先到人工智能优先战略的转变。他后来补充说人工智能将比历史上一些最普遍的创新如火或电对世界产生更大的影响。两年后的今天,我们看到“ 7 家人工智能公司通过 IPO 或价值$1B+ 的并购退出——其中四家发生在过去两年里。”这是一波巨大 IPO 浪潮的第一个信号吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

source: Bastiane Huang

有趣的是,尽管美国人工智能初创公司获得了创纪录的高资金,但我们看到较少的美国公司正在 IPO。这两起人工智能 IPO 的估值都超过了 1B: NIO 是一家中国电动自动驾驶汽车制造商。Mobileye 是一家以色列公司,生产摄像头和帮助汽车避免事故的软件。如果你用谷歌搜索“人工智能 IPO”,你会看到类似“中国人工智能初创公司旷视科技计划 IPO”的新闻以及“南韩的 JLK 检查要公开了。”但是在第一页没有提到美国的创业公司。

为什么美国的 AI IPOs 比较少?只是时间问题吗?还是美国在人工智能统治地位的竞赛中落后了?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

source: CB Insights

美国在人工智能创业领域领先,但在 IPO 领域不领先。为什么?

答案是“绝对不会。”事实上,美国在人工智能创业领域处于领先地位:前 100 家人工智能创业公司中有 77 家来自美国。相比之下,只有 8 家中国公司上榜。此外,根据美国国家风险投资协会的数据,美国 965 家人工智能相关公司在今年前 9 个月筹集了 135 亿美元。美国人工智能初创公司有望在 2019 年打破融资记录。那么,为什么没有更多的初创公司申请 IPO 呢?

答案?收购!

人工智能初创公司的收购数量在 2016 年翻了一番,在随后的几年中平均增长了 46%。美国科技巨头正在主导人工智能初创公司的收购:根据 CB Insights 的数据,苹果(迄今已收购 20 家初创公司)、谷歌(14 家)、微软(10 家)、脸书(8 家)、英特尔(8 家)和亚马逊(7 家)是人工智能初创公司最积极的收购者。另一方面,绝大多数收购方(431 家)只收购了一家 AI 公司。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Number of artificial intelligence (AI) start-up company acquisitions worldwide from 2010 to 2019 source: Statista (as of August 31, 2019)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

CB Insights

但更有趣的是,当你看到这些科技巨头市值的变化时:过去几年来,尤其是自 2017 年以来,价值大幅增加,当时你开始看到人工智能收购的激增。这解释了为什么我们在美国以外的地方看到了更多的人工智能 IPO。这里的人工智能初创公司更有可能在 IPO 之前被收购。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2013 年,苹果、微软、谷歌和英特尔已经跻身《T2》全球十大最有价值公司之列。但直到最近几年,它们与标准普尔 500 指数(^GSPC,上面的灰色线)的差距并不大。科技巨头在过去几年里扩大了他们的差距。

这对初创公司和其他公司意味着什么?

在过去,每次有技术创新,我们都会看到重大的行业洗牌。小公司颠覆了现有公司,推出了手机、个人电脑、数码照片和流媒体视频。

但是这次不一样!

谷歌、脸书、苹果和亚马逊等科技巨头比任何人都准备得更充分。他们在数据、资本和人才方面拥有优势,不仅可以击败创新型创业公司,还可以颠覆传统行业。其中,零售和 CPG 的人工智能收购数量最多(自 2010 年以来共 67 起),其次是媒体和娱乐、医疗保健、金融和保险以及运输和物流。

到目前为止,谷歌、苹果和微软都收购了 10 多家人工智能初创公司。最近,传统企业开始慢慢做出反应:罗氏收购了熨斗健康公司。耐克收购了人工智能库存管理初创公司 Celect。以及麦当劳收购个性化平台 Dynamic Yield。

让传统行业参与者更加棘手的是,人工智能是隐形的。有了以前的技术创新,比如互联网和移动应用,我们可以很容易地分辨好的/创新的产品和坏的产品。但用 AI 产品做到这一点并不总是那么容易。例如,你真的不知道在你的大楼里巡逻的安全机器人是由人工智能完全自主供电还是由人类远程控制。

尽管大肆宣传,但事实是市场上还没有那么多人工智能产品。超过 80%的公司都在研究人工智能,但是他们中的大部分仍然试图找出能够创造实际价值的用例。我们只是最近才开始看到人工智能机器人部署在现场。风险投资公司 MMC 声称 40%的欧洲人工智能初创公司实际上并不使用人工智能。外人很难知道到底发生了什么。

毫无疑问,人工智能将对各行各业产生巨大影响,但“人工智能作为一种产品”仍处于起步阶段。现在断言第一波人工智能 IPO 可能还为时过早。但很明显,传统的现任者这次面临着比以往任何时候都多的挑战,不仅来自灵活的初创公司,也来自人工智能技术巨头。如果你正在为一家传统公司工作,并试图采用人工智能,那么专注于你可以利用你的领域专业知识并创造实际价值的地方。“AI 是新电。它将改变每个行业,创造巨大的经济价值,”吴恩达说。但是,你不一定要成为一个电力公司来开发价值。你只需要知道如何将技术应用到你的优势上。

如果你想看更多这样的文章,请点击这里!

Bastiane Huang 是 OSARO 的产品经理,OSARO 是一家总部位于旧金山的初创公司,致力于开发软件定义的机器人技术。她曾在亚马逊的 Alexa 小组和哈佛商业评论以及该大学的未来工作倡议中工作。她写关于人工智能、机器人和产品管理的文章。跟着她到这里 。

当你的神经网络不知道:一个贝叶斯方法与 Keras

原文:https://towardsdatascience.com/when-your-neural-net-doesnt-know-a-bayesian-approach-with-keras-4782c0818624?source=collection_archive---------11-----------------------

深度学习中模型不确定性的表示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Rob Schreckhise on Unsplash

每个试图拟合分类模型并检查其性能的人都面临着这样的问题:不仅要验证 KPI(如准确度、精确度和召回率),还要验证模型对它所说的内容有多有信心。用来验证预测可靠性的最直观的工具是寻找各种类别的概率。

概率越高,可信度越高。这并不意味着更高的准确性。很有可能出现错误分类。

我们现在所做的是从我们拟合的模型中提取最佳结果,研究概率分布,并试图在我们的神经网络被迫做出决定时限制错误。我们以两种方式完成这项任务:

  • 验证数据概率的经典研究,目的是建立阈值以避免错误分类。
  • 最近的一种方法是基于贝叶斯理论的概率推断,在神经网络框架内有一个“排列,称为蒙特卡洛退出,它几乎免费提供不确定性估计,如本文中的所示。

数据

我在 Kaggle 上找到了这个实验的数据。我选择了一个有趣的数据集,其中包含了 10 种猴子的图片。数据集由两个文件组成,训练和验证。每个文件夹包含 10 个子文件夹,标记为 n0~n9,每个对应一个物种形成 维基百科的猴子进化树

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image distribution of monkey species among train and validation folders

这些图像质量很好,并且在各个类别之间保持平衡。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Samples of monkey images from each species

我们用 Keras 'ImageDataGenerator '装载它们,在火车上执行数据扩充。在此过程中,我们存储 10%的训练集作为验证,这将有助于我们尝试按照标准方法建立概率阈值。根据本帖的范围,我们限定了目标类,只考虑前五种猴子。

模型

我们想要使用的神经网络结构是由简单的卷积层、最大池块和漏失构成的。最后一个是正则化训练的基础,稍后当我们用贝叶斯过程解释神经网络的不确定性时会派上用场。

inp = Input(shape=SHAPE+tuple([3]))x = Conv2D(32, (3, 3), activation='relu')(inp)
x = MaxPooling2D(pool_size=(2, 2))(x)
x = Conv2D(32, (3, 3), activation='relu')(x)
x = MaxPooling2D(pool_size=(2, 2))(x)
x = Dropout(0.5)(x, training = True)x = Conv2D(64, (3, 3), activation='relu')(x)
x = MaxPooling2D(pool_size=(2, 2))(x)
x = Conv2D(64, (3, 3), activation='relu')(x)
x = MaxPooling2D(pool_size=(2, 2))(x)
x = Dropout(0.5)(x, training = True)x = Flatten()(x)
x = Dense(512, activation='relu')(x)
x = Dropout(0.3)(x, training = True)out = Dense(5, activation='softmax')(x)model = Model(inp, out)
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

在训练之后,测试的准确度在 0.79 左右,迫使我们的模型对所有进行分类。

标准阈值的不确定性

我们介绍的第一种方法是基于对验证集上计算的概率的简单研究。这个过程使我们能够知道我们的神经网络何时失败,以及每类错误的置信度。通过这种方式,我们创建了与模型的最终预测结合使用的阈值:如果预测的标签低于相关类别的阈值,则我们拒绝进行预测。

我们的验证由 10%的训练图像组成。为了有足够的概率分布来建立有意义的阈值,我们在验证时适当地操作数据扩充:在预测阶段,每个图像被扩充 100 倍,即每个样本多 100 个概率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在使用我们的扩充数据的预测步骤结束时,我们有 3 种不同的分数分布:每个类别的概率分数、错误分类样本的概率分数(在每个类别中)、正确分类样本的概率分数(在每个类别中)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Probability Distributions on validation data with augmentation

我们将每个类别的三个引用分布中的第一个作为第 10 个百分位数来计算阈值。预测概率低于能力阈值的测试图像被标记为“未分类为”。抑制未分类的图像(共 20 张),精度从 0.79 提高到 0.82。

贝叶斯理论的不确定性

*贝叶斯概率理论提供了基于数学的工具来推理模型的不确定性,但这些通常伴随着令人望而却步的计算成本。*令人惊讶的是,可以在不改变任何东西的情况下,将最近的深度学习工具转换为贝叶斯模型!解决方案是使用神经网络中的漏失作为贝叶斯近似。

具体来说,在每个隐藏层之后应用随机漏失,因此模型输出可以近似地视为从后验预测分布生成的随机样本。因此,模型的不确定性可以通过位置指数或其他从几次重复的预测中获得的统计数据来估计。这个过程特别吸引人,因为它易于实现,并且可以直接应用于任何现有的神经网络而不会损失性能。

给定一个新的输入图像,我们激活 dropout,将其设置为 0.5(在训练结束时由 Keras 关闭)并计算预测。当我们重新激活辍学生时,我们改变了我们的神经网络结构,结果也是随机的。很明显,如果我们对每个测试样本重复预测 100 次,我们将能够建立每个类别中每个样本的概率分布。都可以用一些丰富多彩的情节来澄清。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

examples of Probability Distributions on test images

在这一点上,评估很容易…如果在多个概率样本中,该图像的中值概率同时高于其他中值(上图中的红色虚线)并且至少为 0.5(上图中的绿色虚线),我们希望神经网络输出一个猴子物种作为推荐。否则,我们将该图像标记为未分类为的。抑制未分类的图像(共 16 张),精度从 0.79 提高到 0.83**

摘要

在这篇文章中,我们评估了两种不同的评估神经网络可信度的方法。一种标准的方法是保留部分数据作为验证,以便研究概率分布和设置阈值。这是每种型号的通用程序。另一种方法建议应用随机退出,以建立概率分布并研究它们的差异。这两种技术都有助于避免错误分类,放松我们的神经网络,在没有太多信心的时候做出预测。

查看我的 GITHUB 回购

保持联系: Linkedin

参考文献

贝叶斯近似下的辍学:表现深度学习中的模型不确定性:亚林·加尔,邹斌·格拉马尼

现代艺术中的女性都去哪了?

原文:https://towardsdatascience.com/where-are-all-the-women-in-modern-art-7c5fd08ea1cd?source=collection_archive---------20-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在最精英的艺术机构中,艺术策展严重偏向于支持男性代表。1985 年,一群匿名的美国女艺术家“游击队女孩”在纽约市张贴了 30 张不同的海报。事实上,这个团体是在现代艺术博物馆(MoMA)举办展览时成立的,在该展览中,女性艺术家的比例不到 10%。他们的工作试图激励“博物馆、经销商、策展人、评论家和艺术家,他们觉得这些人对……主流展览和出版物排斥女性和非白人艺术家负有积极责任”。

他们是从哪里得到这 5%的数据的?他们从博物馆报告和杂志中创建了自己的数据集。那是近 30 年前的事了,我们可以利用今天可用的数据做得更好。我们可以从激发游击队女孩行动号召的博物馆开始分析。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自 1929 年以来,现代艺术博物馆已经获得了超过 200,000 件艺术品,其中 138,567 件已被编入 Github 上发布的数据集。

与其他博物馆的开放数据集不同,如泰特美术馆(最近更新于 2014 年)和库珀休伊特美术馆 (2016 年),MoMA 每月自动更新其数据。MoMA 是世界上最大和最有影响力的现代艺术博物馆之一。其收藏侧重于现代和当代艺术,包括素描、版画、摄影、建筑、设计、电影、绘画、雕塑、媒体和表演等类别。

令人惊讶的是,尽管该数据集自 2015 年以来一直在发布,但只有少数个人和团体对其进行了轻度探索。纽约现代艺术博物馆的 2229 幅画作缩小了范围;研究员 Florian krutli 发表了高水平的时序分析;其他艺术爱好者针对他们提出的特定问题制作了一次性图表(例如:现代有多现代?MoMA 保鲜】。其他人甚至创建了 Twitter 机器人,使用来自 MoMA 的数据来创建假设的艺术描述。

那么,自 20 世纪 80 年代以来,情况有所改善吗?或者,正如批评家和学者继续争论的那样,几乎没有什么变化?

这些数据来自两个独立的 CSV 文件:第一个包含艺术品的基本元数据,第二个(也小得多)包含艺术家的人口统计信息。我的分析侧重于 artworks.csv 文件,但我必须合并数据集,以包括来自 artist.csv 的艺术家性别信息。快速查看合并的数据集有 114,372 件个人艺术作品,其中 13.64%由女性艺术家创作。假设这一比例适用于尚未编入开放数据库的 90,000 多件作品,鉴于时间的推移,这并不能很好地说明现代艺术博物馆在性别平等方面取得的进展。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我想从历史上了解收购趋势,特别是一件新作品被现代艺术博物馆收购需要多长时间。使用 seaborn 散点图,我可以很快地按性别分组。这张图表强调了这个系列是多么的男性化。我们看到,随着时间的推移,女性艺术家对艺术的获取有所增加。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在创造年份和获得年份之间也有明显的滞后,但不清楚这是否在性别之间有所不同。为了回答这个问题,我创建了一个新的特性——艺术时代,方法是从获得年份中减去创造年份。然后,我为交叉列表创建了艺术时代箱。我们可以看到一个轻微的趋势:大部分女性艺术品(68%)是在创作后 20 年内获得的,而男性艺术家的这一比例为 53%。均值柱状图更清楚地说明了这一点:男性艺术家平均需要 25 年才能获得自己的艺术作品,而女性艺术家平均需要 17.5 年。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

博物馆收购哪些类别的艺术品有区别吗?该数据集为我们提供了三个日益细化的艺术品类别选项:部门、分类和中等。我选择了 Department,因为它对探索性分析所必需的 7 个最广泛的艺术类别进行了高度概括。最受男性和女性艺术家欢迎的类别是绘画和版画。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

收购趋势如何按艺术类别细分?我们在下面的两个图表中看到,绘画和印刷以及建筑和设计在两个分组中都占主导地位,因此很难看出较小类别的趋势。在男性艺术家中,我们看到了 20 世纪 60 年代的两年,当时 MoMA 可能通过礼物捐赠获得了大量收藏。我们也看到类似的情况,但女性艺术家的收购数量更大,几十年来收购数量越来越稳定。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些艺术品的创作日期呢?我们再次看到,80 年代后创作的大量绘画和版画,无论男女,都有着相似的总体趋势。建筑与设计小组看起来略有不同:女性艺术家的收购作品在 20 世纪 20 年代和 30 年代急剧上升,而男性艺术家的收购率在 20 世纪初和 70 年代后期飙升。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

游击女孩和他们那个时代的其他激进组织并不仅仅关注性别平等。他们也对种族平等感兴趣。数据集为我们提供了艺术家的国籍,其中有 125 个。国籍并不能很好地代表种族,所以我想回答的问题需要稍微修改一下:MoMA 有多美国化?

为了做到这一点,我创造了一个新的功能,将美国创作的艺术作品与非美国创作的艺术作品分开。令人惊讶的是,我们看到外国出生的艺术家创作的艺术品主导了博物馆的收藏。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在第一张图中,我们看到了与性别细分分析相似的趋势。在艺术品被收购之前有大约 20 年的滞后期。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这两个群体最受欢迎的作品是绘画和版画,其次是摄影、建筑和设计。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据集非常丰富,我们还可以问更多的问题:

  • 捐赠者:他们是谁?它们在捐款规模、喜欢的艺术家类型(包括性别和国籍)方面有所不同吗?这尤其困难,因为有 6722 个独特的捐赠者要重新分类到更小的箱中。
  • 尺寸:数据集为每件艺术品提供尺寸和其他细节。艺术家们在艺术项目的实际范围上是否因性别、国籍或年龄而有所不同?
  • 年龄:我们可以计算出艺术家创作一件艺术品的年龄,艺术创作是否在人生的某个时期集群?这是否因性别而异?

最好的客户在哪里?SQL 和 Python 中的营销分析

原文:https://towardsdatascience.com/where-are-the-best-customers-marketing-analytics-in-sql-and-python-a20ca16968ea?source=collection_archive---------15-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我从事营销工作,所以我想探索如何使用编程工具来探索客户数据,并计算关键的营销指标,如客户终身价值(LTV)和每获得一个客户的成本(CAC)。

这些指标对于理解和跟踪每个营销渠道至关重要。这些指标可能因渠道而异(例如,社交媒体的印象和参与度、电子邮件的打开率和点击率等),但对于企业来说,这些指标都很有价值。

通过查看这些数据点,您可以根据它们进行排序和筛选,从而根据您获得的客户数量(CTR)和每位客户获得的客户数量(CAC)来确定给定渠道的绩效。强大的东西!

让我们开始吧。

点击这里查看回购,如果你喜欢的话,可以阅读/02_code中的 SQL 脚本和笔记本。

数据以.csv格式保存在/01_data文件夹中。首先,您需要在您选择的 SQL 客户机中创建一个数据库(我使用 MySQL)。如果你不确定,你可以在这里阅读如何做到这一点。

一旦你拥有并正在使用数据库(use [database_name],你需要将.csv文件导入数据库。我使用了 MySQL 的导入表向导,它很适合这个数据集,因为它很小(尽管它对于大的数据表效率不高)。

为了熟悉数据库及其表,查看模式或增强的实体关系(EER)图是很有用的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Table schema for the different tables in this data base

在这种情况下,它没有那么有用,因为这些表之间没有关系。但是,如果您有一个更复杂的数据库,有许多不同的关系,您会发现自己经常要返回到模式中去整理东西。

继续尝试这里的每一段代码,看看在您的控制台中返回了哪些计算/列。在 SQL 中,查询的结尾由一个;分隔。

Code for calculating each metric

接下来,启动 Jupyter 笔记本,用第一个电池做好准备。如果您从 repo 中的位置运行笔记本,则不需要更改目录。为此设置的代码如下:

然后,您可以使用下面的代码直观地显示每个客户每月花费的总额以及他们每月购买的数量:

Code for plot of purchase amount (in USD) against number of purchases per month

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Purchase amount (in USD) against number of purchases per month

这里没有很强的相关性,但观察这些点如何下落并确定是否有关联仍然很有趣。知道没有关联和发现有关联一样有价值!

这是令人难以置信的强大的东西,因为你可以看到最大数量的廉价获取客户来自什么营销渠道。接下来我将展示 SQL 代码的输出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Table of conversions, ordered by conversions in descending order.

在这种情况下,尽管 Twitter 活动的印象较低,但它带来了更多的点击率和最多的转化。它的人均消费成本最低,为 15.09 美元。凭借 34,448 美元的 LTV,这是一笔非常值得的投资!Twitter 有些事情进展顺利。

您可以很快看到这会产生多大的影响,以及如何利用它来推动业务和营销决策和战略。当你有疑问时,看看数据吧!

喜欢你读的吗?我还有多篇文章

想看更多的编码项目?我也有更多的那种

如果你觉得这篇文章有用或者学到了新的东西,可以考虑捐赠任何数量的钱来支付给下一个学习者!

感谢阅读和快乐编码!

奢侈的生活

我把损失值放在哪里了?

原文:https://towardsdatascience.com/where-did-i-put-my-loss-values-acf6264ea347?source=collection_archive---------23-----------------------

如何将 PyTorch 中训练深度学习模型时生成的指标和键值添加到您的检查点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

保存和加载 PyTorch 模型非常简单直观。

保存模型权重:

torch.save(model.state_dict(), PATH)

负载模型重量:

model = TheModelClass()
model.load_state_dict(torch.load(PATH))

这个 PyTorch 教程还解释了如何保存优化器状态和其他关于这个主题的好技巧。

但是其他参数呢?

上面的保存和加载示例是加载您的模型的好方法,以便在测试时使用它进行推理,或者如果您使用预训练的模型进行微调。

现在,假设你在一个非常大的数据集上训练一个非常深的模型,这将花费很多时间,如果你使用云实例,这也需要很多钱。一个省钱的好办法是使用现货实例,这样会有很大的折扣。在训练过程中,您可能会丢失实例。仅仅使用模型权重和优化器状态来恢复训练是不够的。您还需要测量的所有指标,例如每个集合的损失和精度值、验证集合的最佳 top-k 精度、到停止点为止的时期数、样本数或迭代数,以及您跟踪的任何其他特殊值。

为了在您恢复培训后继续报告学习进度曲线,以及基于停止改进的验证损失等其他动态决策,这些都是必需的。

完全恢复一个学习实验也很重要,因为它具有可重复性,发表一篇论文和一个代码库。此外,能够从收敛曲线上的任何“点”开始,在改变或不改变任何超参数的情况下继续学习过程对于新任务或领域的研究是至关重要的。

我正在使用 PyTorch,处理大型视频数据集,例如 Kinetics 。在为我的研究寻找完整的检查点解决方案的过程中,我开始为 PyTorch 开发这样的检查点处理程序,最近发布了 Python 包索引(PyPI)的一个包:https://pypi.org/project/pytorchcheckpoint/
和一个 GitHub 库:
https://github.com/bomri/pytorch-checkpoint

为了安装软件包:

pip install pytorchcheckpoint

然后,在培训代码开头的某个地方启动课程:

from pytorchcheckpoint.checkpoint import CheckpointHandler
checkpoint_handler = CheckpointHandler()

现在,除了保存您的模型权重和优化器状态之外,您还可以在学习过程的任何步骤中添加任何其他值。

例如,为了节省您可以运行的类的数量:

# saving
checkpoint_handler.store_var(var_name='n_classes', value=1000)# restoring
n_classes = checkpoint_handler.get_var(var_name='n_classes')

此外,您可以存储值和指标:

  • 每套:培训/验证/测试
  • 对于每个时期/样本/迭代次数

例如,每个历元的训练集和验证集的最高 1 精度值可以通过使用以下来存储:

# train set - top1
checkpoint_handler.store_running_var_with_header(header=’train’, var_name=’top1', iteration=0, value=80)
checkpoint_handler.store_running_var_with_header(header=’train’, var_name=’top1', iteration=1, value=85)
checkpoint_handler.store_running_var_with_header(header=’train’, var_name=’top1', iteration=2, value=90)
checkpoint_handler.store_running_var_with_header(header=’train’, var_name=’top1', iteration=3, value=91)# valid set - top1
checkpoint_handler.store_running_var_with_header(header=’valid’, var_name=’top1', iteration=0, value=70)
checkpoint_handler.store_running_var_with_header(header=’valid’, var_name=’top1', iteration=1, value=75)
checkpoint_handler.store_running_var_with_header(header=’valid’, var_name=’top1', iteration=2, value=80)
checkpoint_handler.store_running_var_with_header(header=’valid’, var_name=’top1', iteration=3, value=85)

保存和加载完整的检查点只需一行代码:

# save checkpoint
checkpoint_handler.save_checkpoint(checkpoint_path=path, iteration=25, model=model)# load checkpoint
checkpoint_handler = checkpoint_handler.load_checkpoint(path)

您可以查看 py torch-check pointREADME以获得更多有用的示例。

所以下次你开始训练的时候,确保你手头有这些损失值以备不时之需。

二元交叉熵损失函数从何而来?

原文:https://towardsdatascience.com/where-did-the-binary-cross-entropy-loss-function-come-from-ac3de349a715?source=collection_archive---------4-----------------------

博文补充部分" 无非 NumPy:理解&从零开始用计算图创建二分类神经网络

二元分类提出了一个独特的问题,其中:

  1. 每个例子( x y )都属于 两个 互补类
  2. 每个示例相互独立(即一个示例的结果不会影响另一个示例的结果)并且
  3. 所有生成的示例都来自相同的底层分布/过程(即,如果我们为“猫对非猫”检测创建数据集,那么我们输入神经网络用于训练“猫对非猫”的所有示例都应该来自相同的数据集,而不是来自不同的不相关数据集,例如“狗对非狗”的数据集)。

*在统计学和概率论中,属性 23 统称为 ***i.i.d(独立同分布)。******I . I . d .**假设有助于使许多计算简单得多。

此外,我们只需要预测正类p(y = 1 | x)=p̂因为负类的概率可以从中导出p(y = 0 | x)= 1-p(y = 1 | x)=1-p̂

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 1. Piecewise probability expression

一个好的二进制分类器应该产生一个 值的当例子有一个正标签( y=1 ) 另一方面,对于一个负标签的例子( y=0 ),分类器应该产生一个 p̂*的值。* 换句话说:**

  • 最大化 y=1
  • 最大化 1-p̂y=0 时。

让我们看看如何将这种直觉结合成一个单一的表达:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 2. Bernoulli Distribution expression

原来我们想出来的单行表达式,在上图中,叫做伯努利分布,计算它为单个数据点叫做 伯努利试验 。我们需要最大化伯努利分布 对于每一次试验,我们该如何做呢?这很简单,回想一下你的高中时代,任何凸函数(u 形函数)的最大值(或最小值)都出现在 1ˢᵗ导数等于零的点上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 3. At min/max of a function, the derivative is zero

使用 伯努利分布 表达式及其导数的计算在其当前形式下可能会有点麻烦,更不用说小值的乘法和幂运算可能会在数值上不稳定,并可能导致数值溢出。幸运的是,(由“* log ”表示,而不是“ln)可以在这里帮到我们。***

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 4. Taking log of Bernoulli Distribution

请注意,在将自然对数应用于伯努利分布后,我们将表达式简化为概率对数的总和。此外,请注意,这个简化的表达式非常类似于二元交叉熵损失函数,但符号相反。为了通过数值方法达到伯努利分布 的 对数的最大点(即朝着最优点的方向迭代移动),我们需要执行 【梯度上升】 ,因为对数函数的曲线向上弯曲( 图 4 ),即凹形 在神经网络中,我们更喜欢用 梯度下降 而不是 上升 来寻找最优点。我们这样做是因为神经网络的学习/优化被设定为一个"损失最小化"问题,所以这是我们将负号添加到伯努利分布 对数的地方,结果是二元交叉熵损失函数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 5. Taking negative of the log of Bernoulli Distribution

注意最大化伯努利分布的对数与最小化伯努利分布的负对数相同。*** 最小点和最大点出现在同一点,现在我们可以很容易地应用梯度下降,沿着曲线向下移动到最佳点。*

使用一个叫做 最大似然估计(MLE) 的概念,我们可以扩展伯努利分布,得出二元交叉熵成本*函数。回想一下,对于单个数据点,我们将最大化一次伯努利试验,对于多个数据点,我们将最大化多次伯努利试验的乘积。*

*考虑以下示例,其中我们有两个分类器 A 和 B,它们对三个**I . I . d .*示例进行概率预测:

  • 分类器-A : P(X₁),P(X₂),P(X₃) = 0.7,0.8,0.9
  • 分类器-B : P(X₁),P(X₂),P(X₃) = 0.8,0.8,0.8

那么对于我们的三个例子 X₁,X₂和 X₃,哪个分类器更有可能是更好的分类器呢?

根据 MLE,具有最高概率乘积的分类器可能是更高级的分类器。让我们检查一下:

  • 分类器-a:p(x₁)×p(x₂)×p(x₃)= 0.7×0.8×0.9 = 0.504
  • 分类器-b:p(x₁)×p(x₂)×p(x₃)= 0.8×0.8×0.8 = 0.512

所以分类器-B 是 更可能是 更好的分类器。

将此概念应用于多个独立伯努利试验(具有多个独立伯努利试验的分布被称为 二项式分布 )并最大化数据集/批次中每个**【m】**示例的概率,我们得到:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 6. The Likelihood function

当前形式的 似然 函数容易因为多个乘积而出现数值溢出。所以我们将改为取似然函数的 自然对数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 7. Log of the likelihood function

回想一下,最大化一个函数与最小化该函数的负值是一样的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 8. The negative Log-likelihood function of the Bernoulli Trails

由于 缩放函数不会改变函数的最大值或最小值 点(例如, y=xy=4x 位于 (0,0) 处),所以最后,我们将负对数似然函数除以示例总数( 原来是我们一直在用的二元交叉熵(BCE)代价函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 9. Binary Cross-Entropy Function is Negative Log-Likelihood scaled by the reciprocal of the number of examples(m)

最后,我们假设基础数据服从伯努利分布,这使得我们可以使用最大似然法并得出一个合适的成本函数。 数据的这种假设/知识在贝叶斯统计中称为“先验”。

如有任何问题,请随时在Twitter**@**RafayAK上联系我,并查看“二元分类上的其余帖子。

*外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

If you enjoyed it!*

你在数据科学分布中处于什么位置?

原文:https://towardsdatascience.com/where-do-you-fall-on-the-data-science-distribution-d289b8de6970?source=collection_archive---------29-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你有没有过这样的感觉:你毁了一次求职面试,最终没有得到这份工作。或者完全炸毁一个技术屏幕并仍然进入下一轮怎么样?你并不孤单,招聘标准充其量是令人困惑的,但它仍然回避了一个问题:你如何知道与你的同行相比,你表现得有多好?

本周单词是校准。招聘人员、面试官和公司使用校准来描述他们在理解和优化面试漏斗方面的匹配程度。这是我一个沮丧的老同事的例子。

我的同事 Bob 是 X 公司的产品经理,他正在通过外部招聘机构招聘工程师。Bob 感到沮丧的是,招聘机构发送的工程候选人中只有 10%通过了技术面试。在这种情况下,招聘机构没有按照公司和 Bob 的标准进行校准,不了解 X 公司在他们的候选人身上寻找什么信号。他们也可能在最初的电话筛选中不够努力,不了解候选人背景的哪些部分不适合这个角色。

面试提问中,我们发现招聘的概念有点令人着迷。每天都有一名数据科学家在一家公司接受面试,面试问题应该是通过噪音检测信号,这是一种衡量谁将成为高效员工、谁不会的方法。可以想象,这个过程并不总是 100%准确。即使前面例子中的招聘机构只送来了出色的候选人,他们以优异的成绩通过了每一次面试,面试仍然可能有缺陷,因为面试可能太容易了,潜在地导致最终糟糕的聘用。

我们有兴趣在数据科学家中测试一些与我们自己的校准相关的东西。本周,我们从科技公司收集了八个面试问题,涵盖了数据科学的许多不同主题,并将其纳入了一个多项选择和自由形式的测验。测验应该不到 20 分钟,在测验结束时,在我们收到足够多的结果后,我们将通过电子邮件向您发送您的分数,以及与参加测试的其他数据科学家相比,您在该分布中的排名如何。

这对你有什么好处?如果我们的测验足够准确,假设没有其他人作弊或在测验中花费异常长的时间,你将了解自己与参加测试的其他数据科学家相比的排名。

两周后,我们将通过另一封每周邮件跟进测试发行版的结果。我们真正想知道的是,小测验中的面试问题在多大程度上分散了结果的分布?我们的测试是不是太简单了,我们会看到平均 90%左右的准确率,还是测试太难了?

在这里试试我们的

有兴趣在下一次数据科学面试中脱颖而出吗? 退房面试查询

在我的博客中有更多类似的数据科学故事。

我降落的地方

原文:https://towardsdatascience.com/where-i-landed-a569b4d0182d?source=collection_archive---------37-----------------------

【也是自网络以来最大的商业革命】

一年多前,我在这里写了关于“我的虚拟现实创业公司的生与死”,并被我得到的回复震惊了。其中一封电子邮件让我见到了一位真正的摇滚明星,并向他演示了我们的平台:进步摇滚乐队的乔恩·安德森,是的!

通过我们的虚拟现实软件,让他以身临其境、互动和社交的方式体验他正在制作的新专辑中的,这是一种荣誉和激动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Legendary rockstar, Jon Anderson (right) in Ethereal, together with rockstar 3D artist, Adrian Ludley (left)

尽管如此,我还是在去年 4 月关闭了 Ethereal,正如我的帖子所说,我开始思考自己的下一步。

过去的经验告诉我,寻找新机会的最佳第一步是环顾四周,看看地平线上是否有任何技术“大浪”。你看,我过去有幸骑过其中的两辆。1994 年,当我在硅谷开始职业生涯时,我在正确的时间和正确的地点发现网络是一个真正巨大的浪潮,并在硅图形公司兴致勃勃地驾驭它。2007 年,在 Plaxo,我乘着社交网络的浪潮取得了巨大的成功。

去年,我环顾四周,很明显,一个巨大的浪潮已经形成,不是在远处,而是在我周围:人工智能(AI)。我对人工智能超级明星吴恩达的这句话产生了共鸣,“就像 100 年前电力改变了一个又一个行业一样,我认为人工智能现在也会这样做。”像那么大的事?算我一个!

所以我去寻找需要 CMO 的早期人工智能软件初创公司。一路上,我和老朋友葛瑞格·桑斯科斯塔诺阿风险投资重新取得了联系。事实证明,他的一家投资组合公司正在对话式人工智能和消息传递的交叉领域做一些非常有趣的事情。(不止一个,而是两个大浪!)而且他们没有合适的营销主管。

在被介绍给首席执行官马希·德·席尔瓦(Mahi de Silva)的几天内,我开始向他们咨询(这是一个潜在员工了解团队和公司的好方法,反之亦然)。令我高兴的是,第一个项目是营销人员的梦想:为公司想出一个新名字(以及一个新标志)。

幸运的是,这两个项目和随后的一系列项目都很顺利,我最终被团队、市场机会、技术和牵引力所折服,最终我跳上了船,现在我就是 CMO。公司是 Amplify.ai 。(顺便说一句,我很惊讶也很高兴我们能用几千美元买下那个域名,考虑到“放大人类的努力”对人工智能的故事是多么重要!)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在深入讨论我们要做的事情之前,请允许我设置一些更广泛的背景。当我乘坐我的第一个大浪时,我有一种深刻的,发自内心的感觉,网络将会改变,嗯,一切。当我们在 1995 年 1 月推出 WebFORCE 时,我们在《华尔街日报》、《连线》和许多早已过时的技术行业印刷出版物上刊登了整版广告,宣布引入“自 800 号码以来最大的商业革命”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“Introducing the biggest revolution in commerce since the 800 number”

事后看来,我们做到了。事实上,自从免费电话号码在全国范围内消除了电话互动的摩擦以来,网络确实成为企业与潜在客户和客户互动方式的最大变化。在这个过程中,网络给我们带来了数字化的、自助式的、即时的信息访问,在这个过程中,我们越来越不能容忍交互式语音应答系统和穆萨茨式的等待。

快进到现在。现在是 2019 年,消息传递已经赢得了数字通信渠道战争。Facebook Messenger、WhatsApp 和其他通讯应用是人们相互沟通的主要数字方式,也越来越成为人们喜欢与购买产品和服务的公司沟通的方式。在使用方面,短信不仅仅让电话和电子邮件黯然失色;据 Business Insider 报道,消息传递甚至已经超过了社交网络!(有趣的是:在脸书以 190 亿美元收购 WhatsApp 大约一年后,即时通讯超过了社交。)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Messaging has overtaken phone, email, and even social networking! [Source: BI Intelligence, 2017]

这对各种规模和类型的 B2C 企业都有重大影响。忽略消息传递的代价会越来越高。对于中小型企业来说,让一个人来回复入站消息可能是可行的。但是对于大品牌来说,没有一种经济的方法可以雇佣人来实时回应潜在客户和顾客的每一个询问。

这就是 Amplify.ai 的用武之地。两年来,我们一直在开发业界第一个也是唯一一个企业级的“人工智能驱动的互动平台”,以在超人的规模上实现所有“对话表面”之间持久、个性化、基于消息的互动。我们让营销和客户支持团队能够在整个客户旅程中拥有即时有效的自助交互,仅在必要时移交给人工。

基于消息传递的“对话式商务”是真正的游戏规则改变者。除此之外,它为数字营销人员提供了一个新的渠道,可以看到 80%以上的打开率!我认为我们正在看的是自网络以来商业领域最大的变化。该领域的另一家公司 LivePerson 的首席执行官在最近的收益电话会议上提出了一个令人信服的案例,即对话式商务是一个价值 2000 亿美元的市场机会!

在过去的一年里,我们已经证明了这种新的消费者参与方式能够大规模发挥作用。代表我们的客户,我们的人工智能驱动平台已经处理了全球超过 1.5 亿消费者的超过 20 亿次交易。现在,它每秒钟(平均)捕捉、评分并采取行动 60 次新的消费者参与*!我们只是在第一局。*

正如你们所知,我对我的硅谷之旅的下一个篇章感到非常兴奋。感谢您的关注!

我应该在哪里停车?!

原文:https://towardsdatascience.com/where-should-i-park-29e8da95265a?source=collection_archive---------35-----------------------

使用 NVIDIA RAPIDS 挖掘西雅图停车数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“Seattle from Kerry Park” by Tom Drabas

在西雅图开车正迅速变得与在旧金山、硅谷或洛杉矶等城市开车非常相似:越来越多的公司选择在西雅图定居或开设办公室,以便能够进入西雅图提供的技术社区。因此,在西雅图停车一天比一天难。

西雅图市交通局提供的付费停车占用率数据集提供了每年约 3 亿次停车交易的视图,这些交易来自约 1500 个街区的约 12000 个停车位。该数据集不包括周日的任何交易,因为没有付费停车。大多数停车点有 2 小时的限制。

我对数据集进行了子集划分,以包括 2019 年 5 月和 6 月的所有交易,因此它非常适合配备 24GB VRAM 的英伟达泰坦 RTX;数据集的大小大约为 7GB,一旦加载到 GPU 的内存中,就会扩展到大约 12GB。我们将使用的数据集可以从这里下载,下面讨论的所有代码(以及更多!)可以在 Github 上找到。

数据探索

我创建的停车数据集包含近 4900 万条记录(平均每天约 95.5 万条)和 13 列。每一行代表一个单独的交易及其所有的元数据,例如交易时的已付占用率或区块名称。它还包含以 WKT(众所周知的文本)格式编码的停车场的确切位置。请参见下面的数据集示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

特征工程

RAPIDS 是一个很棒的框架,它几乎不需要修改 vanilla pandas 的代码就能工作(API 99.9%兼容),并且比运行在 CPU 上的任何代码都实现了巨大的加速。这就是为什么使用 RAPIDS 的特征工程如此简单和容易。事实上,这也挑战了人们的信念(或抱怨,取决于你如何看待它),即数据科学家 80–90%的时间都花在数据清理和探索上,只有 10–20%的时间花在构建实际的机器学习或深度学习模型上:使用 RAPIDS,这些比例可以明显向构建模型的有趣部分倾斜。

提取日期元素

首先,我们将将日期分解成基本元素,如年、月、日、小时和分钟,这样以后我们在搜索停车地点时,实际上可以汇总一周中的每一天和每一小时。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

27 毫秒后,我们得到了结果。是的,这不是打字错误:在的 27 毫秒中,我们提取了几乎 4900 万条记录的OccupancyDateTime 列的基本组成部分!光速!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“Speed of light” by allenhimself licensed under CC BY 2.0 (aspect ratio changed)

停车地点

西雅图有 1528 个停车场。与 pandas 类似,为了从数据帧中提取不同的行列表,我们使用 drop_duplicates(…)方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

完成以上工作后,我们现在可以将目光转向从 Location 列中提取经度和纬度。RAPIDS 0.6 增加了对字符串的初始支持,现在在 0.9 版中我们有了对正则表达式的支持,为什么不使用它呢?!下面的模式主要是在一个字符串中搜索两个浮点数,并将第一个浮点数作为经度返回,第二个浮点数作为纬度返回。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

stod() 方法将提取的字符串转换成十进制数。

计算平均付费入住率

为了提高速度,apply_rows(…)方法允许我们扫描所有的行并应用一些转换。全部使用普通 Python 代码完成!没有必要玩 CUDA 来利用 GPU 的能力!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面的代码需要大约 1.7 秒来计算 48M 行的平均占用率。剩下的工作是汇总每个停车位标识符(SourceElementKey 列)、星期几和小时。

寻找最佳停车位

最后一步,让我们检查我们应该停在哪里?我正在使用 geopy 框架和 nomim 地址编码器来检索太空针的地理坐标!顺便说一下,这些是(122.349304W,47.620513N)。

使用哈弗辛公式,我们现在可以计算从太空针到数据集中每个停车位置的距离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在,假设我们想在周三下午 1 点左右参观太空针塔(这样我们可以避免排长队……),我们可以快速合并我们之前创建的聚合数据集,并将其子集化为 1000 英尺以内的停车位。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

检索到最近的位置后,让我们在地图上可视化它们,以便在参观西雅图的标志性场所时更容易找到它(它离西雅图的另一个标志性场所派克市场不远!)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总结

以上所有,端到端,大约需要 20 秒;推理部分本身只需要大约 1.6 秒,一旦完成所有的聚合,这些聚合可以重复使用,直到第二天新的停车交易可以用于更新停车位的占用率。

急流的力量(特别是在泰坦 RTX 上运行,它有 24GB 的 VRAM!!!)而 GPU 是巨大的,我们现在只是触及了它的皮毛。愿(通用)部队(或者更好的,RTX)与你们所有人同在!

我应该去哪里?

原文:https://towardsdatascience.com/where-should-i-walk-e66b26735de5?source=collection_archive---------26-----------------------

使用 NVIDIA RAPIDS 的新工具来确定到停车场的最短步行距离

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简介

之前的故事中,我们探索了西雅图市交通局提供的付费停车占用率数据集。你可以看到(并希望测试)使用 NVIDIA RAPIDS 对这些数据进行的所有计算有多快。

简单回顾一下:我们使用的数据可以从这里下载。它是自 2019 年初以来发布的完整数据集的子集,包括 5 月和 6 月的所有交易。数据集的大小约为 7GB,非常适合配有 24GB VRAM 的 NVIDIA Titan RTX。要在 RAM 更少的 GPU 上使用这个数据集(如 11GB 的英伟达 RTX 2080 Ti ),您可能只需要提取一个月的数据——我已经准备了一个更小的数据集,只包含 2019 年 5 月的交易,您可以在这里下载

快速进行地理空间计算

在我们继续讲这个故事之前,让我们谈一个小的话题。就在我发表我的故事一天后,NVIDIA 的 RAPIDS 团队宣布了数据科学难题中的另一个伟大作品:cuSpatial

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图一。cuSpatial 堆栈,经 NVIDIA 许可使用

顾名思义,cuSpatial 是一个专注于地理空间计算的库。它是一组通过 Python 接口公开的 C++/CUDA 内核,就像 RAPIDS 工具包中的其他工具一样。而且速度很快,就像其他人一样!

为了让我们感受一下它的计算速度,我们将使用上一个故事中的完整数据集(提醒一下,该数据包含 4800 万个地理编码交易),并测试如果我们使用 cuSpatial,我们的计算速度会快多少。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这个测试中,我们可以看到 4.8 倍于普通 Python 的加速,而且不费吹灰之力(代码也少得多!!).为了比较性能,我们重用了前面故事中的 calculateDistance(…) 方法的(在语法上有所压缩)版本。

注意,如果你运行*。apply_rows(…)* 方法第一次运行时,您将遭受编译损失,因为 RAPIDS 需要首先 JIT 编译计算距离(…) 方法:在我的机器上,单元的第一次运行通常报告大约 650 毫秒,但是如果您再次运行单元,执行时间将下降到大约 220 毫秒;假设您没有做任何更改, calculateDistance(…) 方法将在此时被缓存。当我第一次报告我看到的令人印象深刻的速度提升时,我发现了这一点。然而,接下来的讨论实际上导致了一个额外性能挤压的发现,它将很快来到 RAPIDS!

我们是坐飞机还是走路?!

那么,现在回到我们故事的继续。上次我们计算的距离是直线距离,而不是步行距离。这导致了一些停车点的出现,如果步行的话,这些停车点实际上会超过 1000 英尺。

令人欣慰的是,融合数据科学的独一无二的约翰·默里获得了国王县老虎/线道路网的形状文件,并友好地创建和捐赠了一个国王县道路图,其形式为一个交叉点列表(带有地理坐标)和一个连接交叉点与计算长度(以码为单位)的边列表。数据可以在这里下载,但是如果你使用我们发布在 Github 上的代码,笔记本还是会帮你做的。

将停车点连接到图表

很明显,停车位置没有出现在图表中,所以我们需要添加它们。在第一次尝试中,我们将遍历所有 1,500 个停车位置,计算到每个道路交叉口的距离,并选择 3 个最近的交叉口。这有点麻烦,会导致一些伪像(稍后在地图上显示),但现在可以了。在下一个故事中,我们将讨论如何添加新的节点,使停车点垂直于道路/边缘(再次感谢 John 提出这个建议并帮助编写代码!)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

。nsmallest(…) 方法(也有 nlargest(…) 可用)返回前 3 个最近的交点;我们使用将这些边添加到 road_graph_data 数据帧中。concat(…) 方法。最后,我们还向parking _ locations _ nodes数据帧添加了一个新节点,这样我们就可以稍后将它们添加到图节点的完整列表中。

让我们在这里暂停一秒钟:我们刚刚使用 cuSpatial 计算了所有 1500 个停车位置到 127k 个道路交叉口的哈弗线距离(因此,这是大约 200 米的计算),选择了 3 个最近的交叉口,并更新了数据集,所有这些都在大约 1 分钟内完成。如果这还不够快,我不知道什么是…

继续,我们还需要为空间针添加一个节点。然而,不是链接到最近的 3 个十字路口,在地图上的一瞥建议我们应该链接到 5。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就像之前一样,我们使用 geopy 包中的 Nomatim geo 编码器来获取太空针的坐标。

我们来建个图吧!

现在我们有了节点和边的完整列表,我们可以构建图表了。这在急流中超级容易。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

查看文档获取可用方法和算法的完整列表!

有了完整的图,我们现在可以使用单源最短路径(SSSP)来计算从太空针到每个停车位置的距离!该算法遍历该图并找到到所有 128k 个节点的最短路径;对于 SSSP 算法的概述,我发现这些笔记很有用。作为回报,我们得到一个数据帧,其中包含一系列顶点以及到这些顶点的相应最短距离。数据帧还显示了的前任,一个节点(或者顶点,如果你愿意的话),你需要在之前访问一个正在讨论的形成最短路径的特定节点。所有这些都在 174 毫秒内完成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们现在可以使用这些信息来创建从太空针到 1000 英尺步行距离内的每个停车点的完整路径。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在上面的代码片段中,我简单地从一个节点跳到另一个节点,并将边添加到路径数据帧中。大约 1 秒钟后,我们可以开始制图。从 road_nodes 数据帧中,我们提取每个节点的坐标,这样我们以后就可以用它们在地图上绘制这些点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是最终的结果!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此,考虑到所需的距离,距离太空针塔最近的停车点在南面和东面。现在,如果你仔细看,你可以看到我之前提到的人工制品以及将停车位分配到最近的 3 个十字路口的方法的不足之处:为了到达一些停车位,算法将要求你走过停车位,然后走回停车位。在下一个故事中,我们将解决这个问题。

总结

与我们之前的工作流(在泰坦 RTX 上运行大约 20 秒)相比,这个端到端的过程需要大约 2 分钟才能完成。尽管如此,这些工作的大部分可以保存下来,然后在以后重用,将推断时间减少到仅仅一两秒钟。

敬请关注 NVIDIA RAPIDS 的力量、速度和灵活性的更多示例!

你应该去哪里上大学?

原文:https://towardsdatascience.com/where-should-you-go-for-college-225512479289?source=collection_archive---------25-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据你的大学学历和所在地区,你毕业后的期望薪资是多少。

青少年到达了他们生命中需要追求人生目标的那一点。有些人的抱负需要大学教育。有些人仍然不确定他们的目标或抱负,所以他们去大学寻找。

因此,他们从高三开始申请大学。在申请大学的过程中,他们会问自己这样的问题:为了获得最好的大学经历,我可以去哪个城市?什么学校最适合我的志向?什么专业最适合我?

决定他们申请目标学校的一个因素是他们大学毕业后的工资。因此,他们可能会继续寻找学校,直到找到一所能在工资和满意度之间取得平衡的学校。

由于所有这些问题都是由大学申请人提出的,因此开展了一个数据可视化项目来回答学生关于大学学位、大学地区、大学类型与毕业生工资的关系的问题。

数据收集

数据通过这个链接从 Kaggle 上的三个 csv 文件中获得。这三个 csv 数据集是由华尔街日报在 2017 年收集的。其中两个数据集被合并成一个数据集,并进行清理,以包括以下列:学校名称、学校类型、起始工资中位数、职业生涯中期工资中位数和地区。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Top five rows of the combined dataset

第三组数据是关于专业和他们的平均工资。它有多个列,但它被清理,以包括重要的列,即本科专业,起始工资中位数,职业生涯中期工资中位数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Top five rows of the third dataset

在数据集被加载和清理后,它们被用来可视化地区、学校类型和本科专业之间在起薪中位数和职业生涯中期中位数方面的差异。

探索数据集

起薪中位数

首先创建了一个表格,找出起薪最高的前五所学校。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The top five schools with the highest starting median salaries

结果显示,加州理工大学毕业生的起薪中位数最高,为 75500 美元。麻省理工学院毕业生以 7.22 万美元位居第二。哈维·马德、普林斯顿和哈佛毕业生分列第三、第四和第五位,起薪中位数分别为 7.18 万美元、6.65 万美元和 6.34 万美元。

首先绘制了一张图表,以描绘基于学校类型的毕业生起薪。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Starting salaries of college graduates based on school type

根据上面的图表,常春藤盟校的起薪中值最高,为 60,475 美元。工程学院的起薪中位数第二高,为 59411 美元。文理学院毕业生的起薪中位数为 45917 美元,位居第三。党校毕业生和州立学校毕业生分别获得约 45705 美元和 44304 美元。

第二张图显示了不同地区大学生的起薪。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Starting salaries of college graduates based on region

去加州上大学的人的起薪中位数是 50,623 美元,是所有地区中最高的。东北部地区的大学生以 49,367 美元的薪水位居第二。西部和南部大学生起薪相当接近。两者分列第三和第四位,起薪中位数分别为 44436 美元和 44364 美元。中西部地区大学生的起薪中值为 43,977 美元。

最后,创建了一个表格来显示哪个本科专业获得的起薪最高。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Top five starting median salaries of college graduates

医师助理的起薪中值最高,为 74300 美元。化学工程专业毕业生的薪资位居第二,为 6.32 万美元。计算机工程、电气工程和机械工程毕业生分列第三、第四和第五位,起薪中位数分别为 6.14 万美元、6.09 万美元和 5.79 万美元。

职业生涯中期工资中位数

职业生涯中期薪资中位数最高的五大商学院如下表所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Top five schools with graduates receiving the most mid-career median salary

然后,绘制了一个图表来展示学校类型和他们职业生涯中期的工资中位数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Mid-career salaries of college graduates based on school type

根据上面的图表,常春藤盟校的职业中期平均工资最高,为 120,125 美元。然后,工程学校以 105,128 美元的薪资位居第二。文理学院的毕业生获得了职业生涯中期第三高的工资中位数,为 89298 美元。党校毕业生和州立学校毕业生分别获得约 84,685 美元和 79,203 美元。

创建了另一个条形图来描述基于地区的大学毕业生职业生涯中期的工资中位数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Mid-career median salaries for college graduates

图表显示,去东北部地区上大学的人获得最高的职业中期平均工资 93510 美元。加州大学生以 92411 美元的薪水位居第二。南部地区的大学生以 80,390 美元的职业中期中位数工资排在第三位。西部地区的大学生和中西部地区的大学生分别以 79808 美元和 78010 美元的职业中期工资排名第四和第五。

还创建了一个表格来显示基于本科专业的大学毕业生的职业生涯中期工资中位数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Top five mid-career median salaries of college graduates based on undergraduate majors

化学工程、计算机工程、电气工程和航空航天工程等工程专业占据了前四名,职业生涯中期工资中位数分别为 10.7 万美元、10.5 万美元、10.5 万美元和 10.3 万美元。经济学毕业生排在第五位,职业中期平均工资为 98600 美元。

结论

图形和表格结果清楚地报告了基于大学地区、大学学位和大学类型的人们的工资结果。利用这些结果,大学申请者在申请大学时可以做出更好的选择,如果他们的目标是获得一个在短期和长期对他们都有巨大优势的学位。

用来构建这些图的完整版本代码可以在 这里 看到。

你应该住在旧金山的什么地方?

原文:https://towardsdatascience.com/where-should-you-live-in-san-francisco-5f0fa0889a98?source=collection_archive---------19-----------------------

在世界上最昂贵的城市实现住房价值最大化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

除了生活成本,旧金山还有很多吸引人的地方。住房是其中的一大块,所以无论你是租房者还是房主,从你的住房状况中获取最大价值是很重要的。

在这个项目中,我探索 R 的 Zillow 数据,为 1)潜在的租房者和 2)想购买出租房产的投资者识别旧金山的高价值社区。我们将探索房价、月租金以及两者的比率(房价租金比)来寻找候选社区。

感谢 Ken Steif 和 Keith Hassel 为我们提供的关于探索旧金山房价的精彩教程。他们启发了下面的情节和图形。这个项目的代码可以在这里找到。

邻域参考

因为我的分析是针对社区进行的,所以这里有一个直观的参考。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

旧金山房价按年统计

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由于次贷危机,2007 年至 2011 年间,附近的房价停滞不前。在造船厂,房价甚至在这个时间段下降。

从 2012 年开始,房价开始上涨。这种住房增长在旧金山市中心增长,然后向外扩散。Presidio 和 Twin Peaks 地区附近的住房一直是最贵的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一个随着时间推移而变化的更好的视图。住房价格在次贷危机期间下降,然后在 2012 年后飙升,并分裂成三态分布。

比较房价和租金

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面的地块包括所有房屋类型——公寓、独栋、多户——以及房屋大小——一居室、两居室、三居室等。

从 2010 年到 2018 年,典型的房价略低于 100 万美元,典型的租金约为每月 4000 美元。也很少有住宅价格中位数超过 300 万美元,租金中位数超过 6000 美元的社区。

房价和租金遵循类似的分布。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

年均房价解释了年均租金变化的 89.5%。尽管如此,租金还是会随着固定房价的变化而变化:250 万美元的最低租金是 5250 美元/月,最高租金是 9506 美元/月。

如果有人给我两套 250 万美元的房子出租——一套 5250 美元/月,另一套 9506 美元/月——大多数情况下,我会选择 5250 美元/月。

在上面的场景中,我固定了房价。比如说,你可以调整你的房租预算。在这样的预算下,你能买到的最高房价是多少?如果你要购买租赁房产,**在固定的购买预算下,你能得到的最高月租金是多少?**这些问题引导我们进入下一个分析。

租金价格比

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些是 2010 年至 2018 年的平均房价租金比,其中房价租金比是

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

租售比是房价除以一年的估计租金。你可以把它看作是偿还出租财产的估计年限。最大化这个比率会给租房者带来好的价值;最小化这个比率(更少的偿还年数)会给房东带来好的回报。

如果你租了一套公寓,你会希望租金价格最大化。这些社区有更高的租金。最高的 10%邻域标记在右边的面板中。

如果你投资于租赁物业,你希望将房价租金比降至最低,这样你就能快速获得投资回报。最低 10%租售比的社区在左边标出。

对租房者来说:最高租售比的社区

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

圣弗朗西斯伍德、海崖和普雷斯迪奥高地是高价值的租赁区。因为他们是富裕的社区,这些社区的房价可能会更高。如果你能在这些地区找到合理的租金,你可能会从这种租赁情况中获得很高的价值。

作为理智检查,我在圣弗朗西斯伍德和普雷斯迪奥找到了不错的 Craigslist 房源,价格约为 1500 美元/br,公寓看起来也不错。对这个地区来说这是非常合理的。

对买家来说:最低租售比的社区

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bayview 的犯罪率一直很高,但根据 Trulia 的数据,平均房价从 50 万美元增长到 90 万美元,增长了 40 万美元。该地区涌现出许多迎合年轻专业人士的咖啡店和餐馆,这使得它成为一个越来越容易接近的社区,而且价格(相对)便宜。

看起来大概需要 16 年的时间来付清在那个地区的租金。这是这个城市最好的地方了,所以考虑在那里开始你的投资搜寻吧。

接下来,我们将看看随时间的变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

观察一段时间内的变化,我们发现市中心实际上具有最低的当前租售比,因此我们应该将它添加到租赁物业投资候选列表中。

结论

总的来说,我们已经确定了为租房者提供高价值、为潜在房东提供高回报的社区。如果你想租房,从圣弗朗西斯伍德、海崖和普雷斯迪奥高地开始搜索。这些都是富裕和安全的社区,你会惊讶地看到一些负担得起的出租候选人。

如果你想购买房产并出租,你希望尽快收回投资。Bayview、Visitacion Valley 和 Downtown 为出租房地产提供了最好的投资回报。

这篇文章只是思考旧金山住房问题的一种方式。我计划通过关注特定的房屋类型,研究旧金山住房市场的总体趋势,以及比较不同城市的住房市场来扩展住房市场分析。

对于那些对用 R 语言制作这些图形感兴趣的人,有一点需要注意:学习如何绘制邻域地图是这个项目中最棘手的部分。我推荐仔细研究一下 Ken Steif 和 Keith Hassel 的教程(上面有链接)。而且学习 geom_polygon()的工作原理超级有帮助。

感谢阅读!我希望你觉得这很有趣或有帮助。请给我评论或信息反馈/建设性的批评。

附录

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

像伊斯坦布尔当地人一样去哪里喝咖啡

原文:https://towardsdatascience.com/where-to-coffee-like-an-istanbul-local-91522bbafa06?source=collection_archive---------34-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Math on Unsplash

在这篇文章中,我将概述我在伊斯坦布尔当地人最喜欢的地区发现相似和不相似的咖啡馆的步骤。

作为我的 IBM 数据科学课程项目的一部分,我被要求提出一个问题,并通过收集、探索和分析位置数据来找到问题的解决方案。作为伊斯坦布尔和咖啡的爱好者,我决定想出一些跨越这两个主题的东西。

伊斯坦布尔是世界上最大、人口最多的城市之一,也是唯一存在于两个大陆上的城市。博斯普鲁斯海峡将城市的两个部分分开。伊斯坦布尔居民喜爱的两个地区分别是欧洲和亚洲的 beikta(be-shik-tash)和 kadky(ka-di-koy)。虽然这些地区有很多共同点,但它们也有各自的不同之处,比如咖啡店的激增。事实上,根据 Foursquare 的数据,伊斯坦堡 15 家最好的咖啡店中有 8 家位于 beikta 和 Kadı

居民们就邻里之间如何最好地享受一杯咖啡展开了激烈的争论。这份报告将通过提供从数据中得出的见解来解决这个问题。这项研究将会引起伊斯坦布尔的游客和当地人的兴趣,他们还没有发现这两个最受欢迎的街区之间隐藏的相似之处。该报告将帮助读者:

  1. 更熟悉所讨论的社区
  2. 理解咖啡店和其他社区属性之间的关系
  3. 发现邻里之间在咖啡店和其他属性方面的相似之处
  4. 像当地居民一样,能够做出在伊斯坦布尔哪里喝咖啡的更明智的决定

将要检查的邻近区域在地图上用红色标记显示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pins on the map show the neighborhoods that will be examined

数据

本项目中使用的所有数据都是从互联网上的各种来源获得的。数据操作是用 Python 执行的,主要使用的是 Pandas 库。我收集的数据可以分为三个部分:

categories of data used in the study

方法

从 bulurum.com我可以获得社区列表和他们各自的邮政编码。漂亮的汤库被用于此,表格显示了前五行的预览

the first five rows of the neighborhoods data frame

通过 API 查询 foursquare 数据库获得位置数据。要下载数据,需要输入以下信息:客户端 ID、客户端机密、纬度、经度、版本、搜索半径

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The number of coffee shops in each neighborhood

探索性数据分析

人口

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The number of coffee shops in each district

  • Kadı比 beikta 大,所以在那里看到更多的人口并不奇怪。
  • 在邻近水平上,人口的分布变得更加清楚。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The population of Besiktas and Kadikoy neighborhoods

咖啡店的数量

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The distribution of coffee shops in Kadikoy and Besiktas

  • 两个区的咖啡店数量几乎相等。我们还可以看到,两个地区每个街区的咖啡店数量的变化也几乎相等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The number of coffee shops in neighborhoods of Kadikoy and Besiktas

租金价格

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The distribution of the price of rent in Kadikoy and Besiktas

  • 在 beikta 租房比在 Kadı贵。
  • Kadı各个街区的租金价格差异较大。这可以从小提琴地块的宽阔形状中看出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The price of rent in neighborhoods of Kadikoy and Besiktas

结果

回归

进行回归分析以观察咖啡店的数量如何与其他特征相关。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Regression plots

  • 如果这个地区有很多咖啡店,租金可能会更高。在贝希克塔斯,情况正好相反。
  • 随着人口的减少,咖啡店的数量也在减少。
  • 社区离海边越远,咖啡店就越少。

有趣的邻域(离群值)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Scatter plot of neighborhoods

  • **费内巴赫·马赫。**是 Kadı最昂贵的街区,拥有最多的咖啡店。
  • Egitim Mah 租房。相对便宜,而且这个地区有很多咖啡店。
  • **卢斯·马赫。**在 beikta 有一些咖啡店,但租金很高。
  • 总的来说,Kadı似乎是一个比 beikta 更加多样化的地区。

邻域聚类

在 python 中使用 scikit learn 使得机器学习非常容易实现。下面的代码片段实现了 k 均值聚类

K-means code snippet

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Map of Besiktas and Kadikoy showing clustered neighborhoods

检查集群

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

coffee shop clusters

  • 第三和第四类社区中的咖啡店数量最多

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

House rent clusters

  • 集群一中的社区租金最低

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

People per coffee shop clusters

  • 聚类三中的那些拥有最不拥挤的咖啡店,而聚类一中的那些拥有最拥挤的咖啡店。
  • 从这项研究的结果中可以提出一些建议。

结论

在这份报告中,我概述了探索性数据分析和推断性数据分析的发现。使用几种数据收集和辩论技术,分析了伊斯坦布尔最受当地人喜爱的两个区的特征。此外,机器学习被用于寻找最相似的邻域。这项研究的目的不是说哪个社区更好,而是为那些寻求特殊咖啡体验的人提供指导。我让读者根据前面的分析和他们的偏好来决定在哪里以及如何喝咖啡。

如果你已经做到这一步,感谢你的阅读:)详细的报告代码可以在我的 Github 资源库中找到。如果您有任何问题或想分享您的想法,请随时联系我。

哪位 2020 候选人最擅长推特?

原文:https://towardsdatascience.com/which-2020-candidate-is-the-best-at-twitter-fd083d13fb4e?source=collection_archive---------11-----------------------

2020 年民主党候选人推特账户的数据分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2020 年民主党提名的竞争将在许多领域展开。在一个月后的第一场辩论之前,在关键州的竞选集会之前,甚至在黄金时间的电视采访之前,提名之争已经在 Twitter 上开始了。每个主要的民主党候选人都有大量的社交媒体追随者。有了这些账户,候选人就有了直接与选民、媒体和世界沟通的手段。毕竟,我们已经看到精心制作的推文可以改变现实世界中的叙述

了解到这一点,我决定收集 11 位民主党总统候选人的所有推文。其中三个竞争者有独立的工作账户,所以总共分析了 14 个档案。有了这些数据,就有可能看到哪些候选人充分利用了这个新的强大的平台。

Twitter 统计数据

追随者

拥有最多推特粉丝的候选人无疑是伯尼·桑德斯。在他的参议院(@SenSanders)和个人(@BernieSanders)账户之间,桑德斯拥有超过 1700 万名粉丝。毫无疑问,其中一些重叠,但这表明他的 2016 年竞选活动创造了大量的社交媒体追随者。伊丽莎白·沃伦的参议院账户远远排在第三位,而科里·布克、乔·拜登和卡玛拉·哈里斯也有数百万人关注。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

关注者数量可以被视为候选人在线影响力的衡量标准。大量追随者的实际效果取决于候选人的沟通能力。

推文数量

如果关注者数量就像势能,那么发布的推文数量就类似于动能。在这方面,杨安泽是 2020 年候选人中最有活力也是最多产的。2019 年,杨发布了近 3000 条推文,他使用社交媒体的次数远远超过了他的同龄人。他可能是一个充分利用这种媒介的竞争者。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在杨之后,和是发微博最多的政客。远远落后于这些的是民调领先者乔·拜登。拜登在 2019 年只有 147 条推文。和现实生活中一样,他在推特上的竞选策略似乎是避免引起太多关注。

最喜欢

如果我们把 2019 年每位候选人在推特上获得的所有喜欢加起来,卡玛拉·哈里斯名列榜首,伊丽莎白·沃伦远远落后。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然而,如果我们随着时间的推移绘制这些喜欢,我们会看到哈里斯的大部分支持是在 2 月份她首次宣布竞选时。相比之下,伊丽莎白的沃伦喜欢计数一直在稳步上升。这是我认为沃伦最有可能获得提名的原因之一。她的势头仍在增长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们将所有这些赞除以每位候选人的推特粉丝数(从而将他们归一化),那么我们会看到杨安泽皮特·布蒂吉格名列前茅。在所有候选人中,他们的追随者似乎是最积极的。

转发和参与峰值

衡量 Twitter 参与度的另一个有用指标是“转发量”。转发是在网络上传播信息的方式,也是衡量一条微博成功与否的最佳指标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

转发的情节看起来和赞的情节几乎一样。和 likes 一样,我们在 5 月份看到了参与的高峰,我认为这是因为阿拉巴马州和佐治亚州通过了限制堕胎的法案。尤其是在女性候选人中,这些法律提供了源源不断的推特素材。伯尼·桑德斯在这个问题上也做得很好,而乔·拜登却没有。下面是每位候选人包含“堕胎”一词的推文数量图。这些推文大多是上个月的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Kirsten Gillibrand more than any other candidate prioritizes woman’s issues

有趣的是,顶级候选人乔·拜登、皮特·布蒂吉格和贝托·奥罗克在这个问题上基本保持沉默。我认为这证明了男性在今年的初选中会很艰难。

Twitter 风格

除了查看与候选人推文相关的统计数据,我们还可以查看其内容。下面我将重点放在 tweet 文本本身,并检查出现的不同主题。

乔·拜登

乔·拜登将自己标榜为反特朗普者。因此,毫不奇怪,他最受欢迎的推文——任何候选人最喜欢的推文——是对总统的攻击。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

具体来说,拜登的推文认为,他可以让美国回归其“核心价值观”。在其中一封信中,他说“我们选择希望而不是恐惧,选择真理而不是谎言,选择团结而不是分裂。”在另一封信中,他将这些价值观与现任总统进行了对比。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在拜登的推文中创建了一个最常见术语的词云,我们看到了对“国家”、“美国”和“民族”的常见引用。他的竞选活动似乎是由模糊的承诺推动的,即让事情回到更美好的过去。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Joe Biden Word Cloud

伯尼·桑德斯

伯尼·桑德斯是社交媒体内外的煽动者。他最受欢迎的推特倾向于与共和党人争吵,无论是在堕胎还是伊尔汉·奥马尔问题上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

伯尼还谈到了“国家”,但通过其“人民”的镜头,而不是其价值观。事实上,“人民”是他的推文中最常用的词。他使用的另一个关键词是“健康”,而医疗保健似乎是他竞选中的主要议题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bernie Sanders Word Cloud

伊丽莎白·沃伦

伊丽莎白·沃伦是 Twitter 上更有深度的故事讲述者之一。她在 2019 年的前 3 封信都很长,很详细。他们处理从针对女性的暴力(Ilhan Omar)和不平等(财富税)到堕胎等一系列问题。在后一种情况下,她特别引人注目,解释了为什么佐治亚州和阿拉巴马州的法律如此有害。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

像伯尼·桑德斯一样,她关注“人民”,但更强调为他们“战斗”。她也比桑德斯更关注“家庭”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Elizabeth Warren Word Cloud

卡玛拉·哈里斯

和伊丽莎白·沃伦一样,卡玛拉·哈里斯也把堕胎和攻击川普作为她竞选的关键内容。她最受欢迎的推文反映了这一点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但对我来说,哈里斯在网上似乎并不自在。尽管哈里斯的推文触及了“健康”、“人民”和“家庭”等重要主题,但她倾向于简单,有点缺乏情感。我怀疑她作为律师的背景使她对自己的言辞过于谨慎。她最常用的词是经典的行动号召——“必须”和“将”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Kamala Harris Word Cloud

皮特·布蒂吉格

皮特·布蒂吉格发推特的次数比他的对手少,但当他发推特时,他非常有效。他最受欢迎的推文混合了愤怒和有趣的故事——这是社交媒体上的一个爆炸性组合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最重要的是,Buttigieg 的 Twitter 角色反映了一个好人的形象。例如,他似乎经常使用“谢谢”这个词。Buttigieg 也是一种反特朗普的人,但比拜登的包袱少,比伯尼的意识形态少(见他对“社区”而不是“工人”的强调)。他的字云在下面。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pete Buttigieg Word Cloud

感悟

衡量候选人推文内容的最简单方法之一是计算他们有多积极。使用 sentimentR 库,我能够比较候选人推文的平均情绪。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如我之前提到的,杨安泽是 2020 年所有候选人中最积极的。贝托·奥罗克和皮特·布蒂吉格在社交媒体上交流时也倾向于使用积极的语气。相比之下,卡玛拉·哈里斯、伊丽莎白·沃伦和伯尼·桑德斯更可能使用负面语言。最后,乔·拜登的语气基本上是积极的,但没有巴顿那么乐观。对我来说这似乎是对的。推特上的情绪似乎反映了与每场竞选相关的普遍情绪。

最后的想法

我个人认为,在社交媒体时代,赢得选举也意味着在网络上的良好沟通。在这方面,我们看到候选人都有不同的长处。伯尼·桑德斯拥有最多的追随者,因此拥有最多的草根支持。卡玛拉·哈里斯拥有最多的支持,或许也是最有制度性的支持。伊丽莎白·沃伦最有冲劲,而乔·拜登最有能力用他的知名度吸引注意力。到 2020 年,我们将看到哪个候选人最有效地利用这些优势。

哪部动漫最好看?

原文:https://towardsdatascience.com/which-anime-is-the-best-4acb28f80bf5?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo credit: https://www.flickr.com/photos/bagogames/22812069025

使用数据可视化显示流行动漫如何排名

动画是日本制作的一种卡通形式,在全世界非常流行。在过去的二十年里,不同的动画系列已经发行,其中一些对电视文化产生了巨大的影响。

火影忍者就是这些有影响力的动漫系列中的一个例子。它有能力让任何坐下来看几分钟的人被它美丽的故事和疯狂的动作场面所吸引。每次我仍然看火影忍者,我都会有这种怀旧的感觉,就像我是看着这部伟大的艺术作品长大的。

在我看来,最好的动画应该是《对泰坦的攻击》。在观看 Shingeki no Kyojin(日语中攻击泰坦的意思)时,我看到谏山创在娱乐方面为未来的动漫系列树立了榜样。这部动画为观众提供了许多未解之谜、大量曲折的情节和刺激的事件。我等不及下一季明年秋天出来了。

还有其他令人难以置信的动画系列,如《全金属:兄弟情谊》、《心理传递》、《龙珠 Z》、《死亡笔记》、《漂白剂》和《猎人 x 猎人》。然而,至今让我困惑的问题是,这几部动漫到底哪部最好?

数据收集

为了正确地进行这项研究,动画数据集是使用这个链接从 Kaggle 获得的。在 Jupyter 笔记本上加载后,它被改进为包括重要的功能,如:名称,类型,剧集,分数,排名和受欢迎程度。下面是新形成的数据集的前五行:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Top five rows of the newly-formed dataset

使用该数据集,进行了一些可视化的数据分析。

收视率与受欢迎程度

第一张图表是比较动画系列的收视率和受欢迎程度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Scatter plot of Anime Ratings vs Popularity

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Correlation coefficient of the anime dataset

图表清楚地表明,收视率最高的动漫系列往往最受欢迎。使用相关系数表,该图的相关系数为-0.85。这表明,收视率与动漫的受欢迎程度有着强烈的负相关性。这意味着随着收视率的增加,动画的受欢迎程度越来越接近顶端。

最受欢迎的 30 部动漫系列

该数据集被修改为包括排名前 30 的动画系列,以便进一步分析,找出它们之间的差异。下面是用于提取前 30 个最受欢迎的动画的代码:

df_anime11 = df_anime1.sort_values(by = "popularity", ascending = **True**).reset_index()
df_anime11 = df_anime11[df_anime11['popularity'] != 0.0].reset_index()
df_anime11 = df_anime11.head(30)
df_anime12 = df_anime11[['name', 'type', 'episodes', 'score', 'rank', 'popularity']]
df_anime12

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Top 30 most popular anime with their features.

集数最多的动漫

建立了一个水平条形图来显示前 30 个最受欢迎的动漫系列中哪个动漫系列制作的剧集最多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The number of episodes of the top 30 most popular anime series

火影忍者 shippuuden 以 500 集位居第一。《漂白剂》第二,约 366 集。火影忍者,也是火影忍者系列的一部分,有 220 集,排在第三位。《仙尾》和《猎人 x 猎人》分别以 175 集和 148 集排在第四和第五位。

收视率最高的 30 部流行动漫

另一个水平条形图展示了前 30 名最受欢迎的动漫之间的排名。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The ratings of the top 30 most popular anime

第一名是全金属炼金术士:兄弟情谊,评分 9.24。Steins:Gate 和 Hunter x Hunter 分别以 9.14 和 9.12 分别位居第二和第三。代号 Geass: Hangaku no 车夫党 R2 以 8.94 的评分排在第四位。Cod Geass: Hangaku no 车夫党以 8.77 的评分排名第五。

我最喜欢的两个动漫系列火影忍者 shippuuden 和 Shingeki no Kyojin 分别获得了 8.19 和 8.48 的评分。他们也分别排在第 16 和第 9 位。

用于进行研究的完整版本代码可以在这里看到

是什么让一本科幻小说受欢迎?

原文:https://towardsdatascience.com/which-content-of-the-story-is-the-most-popular-in-top-rated-sci-fi-books-6f3644246ac3?source=collection_archive---------13-----------------------

三个世纪以来科幻小说故事的主要内容探析

在顶级科幻小说中,哪个故事内容最受欢迎?几十年来,内容的受欢迎程度有变化吗?在同一本科幻书中有哪些内容经常一起出现?

为了回答这些问题,我探索了 Kathleen M. Carley (2017)编写的过去三个世纪的科幻书籍数据集(*科幻书籍数据集,*从 CASOS 检索)。该数据集包含有关书名、出版日期、作者、作者性别、一本书在 2016 年左右出现在最高评级列表中的次数以及故事内容的信息,其中包括机器人、时间旅行、天启等内容。每个内容都根据其在书中的存在程度进行分级,最高级别为 3,表示该内容是存在的、强有力的,并且是故事的一部分,最低级别为 0,表示该内容根本不存在。

数据集概述

从下图可以看出,总体来说,科幻书出现频率最高的内容是小说科技(不是 AI)、星际(设定)、战斗。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

男性作者首选的内容列表是新技术、星际(设定)和与其他物种的战斗。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

女性作者首选的内容是新颖的科技、浪漫和带有时间旅行的星际(设定)。此外,女性作者不写精神力量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2000 年以后出版的科幻书中的内容有什么不同?这些书更多的是关于新奇科技,天启,浪漫,战斗,没有灵力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这引出了我的第二个问题:

同一本科幻书中有哪些内容经常一起出现?

为了回答这个问题,我将每个主要内容的数据转换为 python 字典,格式如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这就回答了问题,但是很难看到全貌,所以我就标出来了。在下图中,绘图颜色对应一个刻度;刻度越高,颜色越深。

例如,机器人或人工智能内容最常见的第二个内容是新技术。此外,机器人和魔法很少出现在同一本书里,并且用白色圆圈标出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于新技术,最常见的第二个内容是星际(设置):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于每种内容,结果如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我的下一个问题是:

几十年来,内容的受欢迎程度如何变化?

某个特定内容在某个特定十年内的强势存在与其他内容的强势存在之间的比例将回答这个问题。结果如下图所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

除了小说技术,这是几十年来最常见的内容,情节表明,在过去的几十年里,科幻小说更多的是关于天启,其他星球,而不是关于精神力量。

在视觉上更具戏剧性的情节中,我们可以看到,在二十一世纪,科幻书籍不再是关于野兽(红色),而是机器人或 AI(蓝绿色)。机器人或 AI 内容出现在上个世纪中叶,是二十一世纪科幻书籍中一个故事的七个主要内容之一。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

哪种内容在顶级科幻书中出现频率更高?

为了弄清楚这一点,我直观地研究了数据,以查看内容在所有频率值下的分布情况。例如,下面的图显示,机器人或人工智能内容几乎出现在所有频率值上,也是顶级书籍(频率值为 6 或更高)的故事(等级 3)的主要内容。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

精神力量的内容大多出现在低频率值,从来不是经常名列前茅的科幻小说故事的主要内容。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总结

综上所述,数据集探索的结果是,科幻书籍最常出现的内容是新奇科技(非 AI)、星际(设定)、战斗。男作者多写小说技术和空间,女作者多写小说技术和浪漫。2000 年后,启示录在科幻书籍的流行内容中上升,灵力内容是最不受欢迎的一种。还有,对于新颖的技术,在同一本书里最常发现的内容是星际(设定)和机器人或 AI。野兽不再是故事的主要内容,而机器人或人工智能已经在上个世纪中叶出现,并稳步发展。最后,在顶级科幻书籍中最常见的三个内容是星际(设置)、机器人或人工智能以及新颖的技术。

哪些国家最重视人的生命和健康?

原文:https://towardsdatascience.com/which-countries-put-the-highest-value-on-human-life-and-health-b011fbdbc550?source=collection_archive---------28-----------------------

定量分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Nicaraguan nurse preparing a Pap smear. Mtran99 CC BY-SA 4.0

这似乎是一个天生主观的问题。你怎么能给生命和健康定价呢?

但是人们和国家一直在这样做。对医疗保健的需求可能是无限的,但资源是有限的,即使在最富裕的国家也是如此。我们如何分配资源揭示了我们的优先事项。

富裕国家支付更多是因为他们有能力,而不是因为他们一定更重视他们的公民。为了了解国家如何重视其公民的生命,我们应该比较实际卫生支出与支付能力。如果医疗保健在每个国家都有同样的优先权,我们预计它在 GDP 中的份额会保持不变。

事实并非如此。这是医疗保健总支出占 GDP 的百分比与人均 GDP 的关系图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Own work, data from World Development Indicators

大多数国家的人均国内生产总值不到 100 美元,集中在图的左侧,所以我把 x 轴做成了对数坐标来展开数据。然后我对数据做了一条最佳拟合线。二次模型更合适一些,但不会真正改变我们的结论。

这项工作中出现了一些问题。首先,数据中有很多分散点(r^2 = 0.18)。你需要一个涵盖 6 倍医疗支出范围(人均 GDP 的 2%到 12%)的桶,以覆盖 90%的国家。各国在投入医疗资源的方式上有很大差异。这种差异并不与收入成正比。这并不是说穷国(或富国)都被迫进入一个狭窄的支出范围。这些支出反映了一种选择。

其次,这种关系有一个显著的(P < 0.0001)上升趋势——较富裕的国家愿意在医疗保健上花费更多的资源。这并不奇怪。一旦你有了食物和住所,医疗保健可能会成为剩余收入的首要支出。

令人惊讶的是这种关系是如此的脆弱。人均 GDP 每增加 1000 美元,医疗支出只有 0.04%左右的增长。中等国家的人均国内生产总值为 5500 美元。在这个范围内,每增加 1000 美元的收入,只有 2.2 美元用于医疗保健。换句话说,财富和消费意愿之间的关系在统计上很重要,但在功能上毫无意义。除了金钱之外的因素——历史、文化、管理——决定了医疗支出的水平。

有趣的案例是那些偏离趋势线最多的国家。鉴于这些国家的人均国内生产总值,它们的支出或多或少于预期。以下是十大超支者:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里给出的数字(残差)是上图中绿色趋势线上方的距离。

我们这里有一些非常小的国家,其中许多是岛国,还有美国。尽管马绍尔群岛名列榜首,但其人均医疗支出仅为 680 美元。它不是一个花钱大手大脚的人,而是如此之小和如此之穷,以至于即使是一笔小的支出也会变得相对较大。让我们排除那些向医生支付过高工资、拒绝与 T2 谈判药品价格、允许令人憎恶的医疗破产的国家。这是一个异数,一个颠覆了消费和价值之间联系的怪异世界系统。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

富裕国家的过度消费并不显著。或者,至少,他们不应该。这些国家有充足的资源用于改善其公民的福祉,它们也确实如此。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

值得注意的是低收入国家。他们都不是良好治理的典范。在世界银行的名单上,T4 排在第 73 位(塞尔维亚)和第 141 位(尼加拉瓜)之间。然而,这些政府选择优先考虑公民的健康。愤世嫉俗者可能会说,这是一种收买:让我们继续执政,我们将为你提供医疗保健。但是,只有当公民本身重视健康和生命时,这种交易才会起作用。贿赂是很好的价值指标。

在此基础上,我提出塞尔维亚、波斯尼亚和黑塞哥维那、巴拉圭、厄瓜多尔和(特别是)尼加拉瓜这些国家是最重视生命和健康的地方。

在光谱的另一端…

…我们有以下支出不足者列表:

名单的这一端是两种类型国家的混合体:绝对消费水平相当高的极度富裕国家(新加坡、阿联酋、科威特、阿曼和卡塔尔),以及贫穷且治理不善(如果不是彻头彻尾的盗贼统治的话)的国家。这些国家都没有对公民特别负责的政治制度。在性别平等和妇女权利方面,大多数国家的排名很差。除了三个国家,其他国家都是穆斯林占主导地位。

相对医疗保健支出的扩大说明了重要的一点。不是每个国家都富裕。但是国家可以选择如何分配他们所拥有的资源。他们可以像巴基斯坦一样拥有庞大的军队和核武库。或者他们可以尽力照顾他们的人民,就像巴拉圭一样。这不是命运、历史或环境,而是一种选择。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This end of the list is a mixture of two types of countries: extremely wealthy states that spend a fair amount in absolute terms (Singapore, the UAE, Kuwait, Oman and Qatar), and countries that are poor and are poorly governed, if not outright kleptocracies. None of these countries have political systems that are particularly responsive or accountable to their citizens. Most of them rank very poorly with respect to gender equality and women’s rights. All but three are Muslim-dominated.

The spread in relative health care expenditures illustrates an important point. Not every country is rich. But countries can choose how they allocate the resources they do have. They can have a large military and a nuclear arsenal like Pakistan. Or they can try to take care of their people to the best of their ability, like Paraguay. It is not fate or history or circumstances, it is a choice.

哪个深度学习框架发展最快?

原文:https://towardsdatascience.com/which-deep-learning-framework-is-growing-fastest-3f77f14aa318?source=collection_archive---------2-----------------------

TensorFlow 与 PyTorch

2018 年 9 月,我在这篇文章中,从需求、使用情况、受欢迎程度等方面对比了各大深度学习框架。TensorFlow 是深度学习框架无可争议的重量级冠军。PyTorch 是一个充满活力的年轻新秀。🐝

在过去的六个月里,领先的深度学习框架的前景发生了怎样的变化?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了回答这个问题,我看了看上的招聘信息,事实上还有怪兽LinkedIn简单雇佣。我还评估了谷歌搜索量GitHub 活跃度中等文章ArXiv 文章Quora 话题关注者的变化。总的来说,这些来源描绘了一幅需求、使用和兴趣增长的综合图景。

集成和更新

我们最近看到了 TensorFlow 和 PyTorch 框架的几个重要发展。

PyTorch v1.0 于 2018 年 10 月预发布,同时发布的还有 fastai v1.0。这两个版本都标志着框架成熟的重要里程碑。

TensorFlow 2.0 alpha 于 2019 年 3 月 4 日发布。它增加了新功能,改善了用户体验。它也更紧密地集成了 Keras 作为它的高级 API。

方法学

在本文中,我将 Keras 和 fastai 包括在比较中,因为它们与 TensorFlow 和 PyTorch 紧密集成。它们还提供了评估 TensorFlow 和 PyTorch 的尺度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我不会在本文中探索其他深度学习框架。我希望我会收到反馈,认为 Caffe、Theano、MXNET、CNTK、DeepLearning4J 或 Chainer 值得讨论。虽然这些框架各有千秋,但似乎没有一个框架的增长轨迹会接近 TensorFlow 或 PyTorch。它们也没有与这些框架紧密耦合。

搜索于 2019 年 3 月 20 日至 21 日进行。源数据在这个谷歌工作表中。

我使用了 plotly 数据可视化库来探索流行度。对于交互式 plotly 图表,见我的 Kaggle 内核这里

让我们看看每个类别中的结果。

在线工作列表中的变化

为了确定今天的就业市场需要哪些深度学习库,我在 Indeed、LinkedIn、Monster 和 SimplyHired 上搜索了工作清单。

我用机器学习这个词搜索,后面跟着库名。于是用机器学习 TensorFlow 评测 TensorFlow。这种方法用于历史比较。没有机器学习的搜索不会产生明显不同的结果。搜索区域是美国。

我用 2019 年 3 月的房源数减去了半年前的房源数。以下是我的发现:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TensorFlow 的上市量增幅略高于 PyTorch。Keras 的上市量也有所增长,大约是 TensorFlow 的一半。Fastai 仍然没有出现在任何工作列表中。

请注意,PyTorch 在 LinkedIn 之外的所有求职网站上看到的附加列表数量都比 TensorFlow 多。还要注意的是,从绝对值来看,TensorFlow 出现在工作列表中的数量是 PyTorch 或 Keras 的近三倍。

平均谷歌搜索活动的变化

在最大的搜索引擎上的网络搜索是受欢迎程度的衡量标准。我查看了过去一年谷歌趋势的搜索历史。我搜索了全球对机器学习和人工智能类别的兴趣。谷歌不提供绝对搜索数字,但它提供相对数字。

我取了过去六个月的平均利息分数,并将其与之前六个月的平均利息分数进行了比较。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在过去的六个月中,TensorFlow 的相对搜索量有所下降,而 PyTorch 的相对搜索量有所增长。

谷歌下面的图表显示了过去一年的搜索兴趣。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TensorFlow in blue; Keras in yellow, PyTorch in red, fastai in green

新媒体文章

Medium 是数据科学文章和教程的热门位置。我希望你喜欢它!😃

在过去的六个月里,我用谷歌搜索了 Medium.com,发现 TensorFlow 和 Keras 发表的文章数量差不多。PyTorch 相对较少。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作为高级 API,Keras 和 fastai 受到新的深度学习从业者的欢迎。Medium 有很多教程展示如何使用这些框架。

新的 arXiv 文章

arXiv 是一个在线存储库,大多数学术深度学习文章都在这里发表。在过去的六个月里,我使用 Google 站点搜索结果在 arXiv 上搜索了提到每个框架的新文章。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TensorFlow 以明显优势获得了最多的新文章。

新 GitHub 活动

GitHub 上最近的活动是框架流行的另一个指标。我在下面的图表中列出了星星、叉子、观察者和贡献者。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TensorFlow 在每个类别中都有最多的 GitHub 活动。然而,PyTorch 在观察者和贡献者的增长方面非常接近。此外,Fastai 看到了许多新的贡献者。

毫无疑问,Keras 的一些贡献者正在 TensorFlow 库中研究它。值得注意的是,TensorFlow 和 Keras 都是由谷歌人带头的开源产品。

新 Quora 追随者

我添加了新 Quora 话题关注者的数量——这是一个新的类别,我之前没有这个数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TensorFlow 在过去六个月中添加了最多的新话题关注者。PyTorch 和 Keras 各自增加的要少得多。

一旦我有了所有的数据,我就把它整合成一个指标。

生长评分程序

以下是我创建成长分数的方法:

  1. 在 0 和 1 之间缩放所有特征。
  2. 汇总了在线工作列表GitHub 活动子类别。
  3. 根据下面的百分比进行加权分类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4.可理解性的加权分数乘以 100。

5.将每个框架的类别得分汇总成一个单一的增长得分。

工作列表占总分的三分之一多一点。俗话说,金钱万能。💵这种划分似乎是各种类别的适当平衡。与我的 2018 power score analysis 不同,我没有包括 KDNuggets 使用调查(没有新数据)或书籍(六个月出版的不多)。

结果

以下是表格形式的变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Google Sheet here.

这是类别和最终分数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是最终的成长分数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TensorFlow 既是需求最大的框架,也是发展最快的框架。它不会很快去任何地方。😄PyTorch 也在迅速发展。它的工作列表的大量增加证明了它的使用和需求的增加。在过去的六个月里,Keras 也增长了不少。最后,fastai 从一个低基线开始成长。值得记住的是,它是最年轻的。

TensorFlow 和 PyTorch 都是很好的学习框架。

学习建议

如果你想学习 TensorFlow,我建议你从 Keras 开始。推荐 Chollet 的 深度学习用 Python 和 Dan Becker 的 DataCamp 课程上 Keras 。Tensorflow 2.0 通过 tf.keras 使用 Keras 作为其高级 API,下面是由 Chollet 对 TensorFlow 2.0 的快速入门介绍。

如果你想学习 PyTorch,我建议你从 fast.ai 的 MOOC 程序员实用深度学习,v3 开始。您将学习深度学习基础、fastai 和 PyTorch 基础。

TensorFlow 和 PyTorch 的前景如何?

未来方向

我一直听说人们更喜欢使用 PyTorch 而不是 TensorFlow。PyTorch 更 pythonic 化,有更一致的 API。它还有原生的 ONNX 模型导出,可以用来加速推理。此外,PyTorch 与 numpy 共享许多命令,这降低了学习它的障碍。

然而,正如谷歌首席决策智能工程师 Cassie Kozyrkov 在这里解释的那样,TensorFlow 2.0 完全是关于改进的 UX。TensorFlow 现在将有一个更简单的 API、一个简化的 Keras 集成和一个热切的执行选项。这些变化,以及 TensorFlow 的广泛采用,应该有助于该框架在未来几年保持流行。

TensorFlow 最近宣布了另一个令人兴奋的计划:为 TensorFlow 开发 Swift。 Swift 是苹果最初打造的一种编程语言。在执行和开发速度方面,Swift 比 Python 有许多优势。Fast.ai 将把 Swift 用于 TensorFlow ,作为其高级 MOOC 的一部分——见 fast.ai 联合创始人杰瑞米·霍华德关于这个主题的帖子这里。这种语言可能不会在一两年内准备好,但它可能是对当前深度学习框架的一个改进。

语言和框架之间的协作和交叉肯定会发生。🐝 🌷

另一个将影响深度学习框架的进步是量子计算。可用的量子计算机可能还需要几年时间,但谷歌、IBM、微软和其他公司正在考虑如何将量子计算与深度学习相结合。需要对框架进行调整以适应这种新技术。

包装

你已经看到 TensorFlow 和 PyTorch 都在增长。两者现在都有不错的高级 API——TF . keras 和 fastai——降低了深度学习的入门门槛。你也听说了一些最近的发展和未来的方向。

要交互式地使用本文中的图表或分叉 Jupyter 笔记本,请前往我的 Kaggle 内核

我希望这个比较对你有所帮助。如果你有,请分享到你最喜欢的社交媒体频道,这样其他人也可以找到它。😄

我撰写关于 Python、DevOps、数据科学和其他技术主题的文章。如果你对其中的任何一个感兴趣,请查看并在这里跟随我。

为了确保你不会错过精彩的内容,请加入我的 Data Awesome 简讯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

感谢阅读!

哪位民主党候选人获得了最多的新闻报道?

原文:https://towardsdatascience.com/which-democratic-candidate-gets-the-most-news-coverage-aa4312fb53db?source=collection_archive---------9-----------------------

2020 年总统竞选者的数据分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 2016 年的初选中,唐纳德·特朗普成功的一个关键是他吸引媒体注意力的能力。有人估计,对他竞选活动的痴迷、铺天盖地的报道提供了相当于 20 亿美元的免费广告。在 Twitter 和 24 小时新闻的时代,很明显,谁能抓住并保持媒体的兴趣,谁就在政治竞赛中拥有不可思议的优势。

随着 2020 年民主党竞选的白热化,我认为看看每位候选人的覆盖率会很有趣。今年我写了一些代码,从 18 个主要新闻网站上抓取文章。有了这些数据和其他数据,我分析了媒体对谁的关注最多,因此谁最有可能获得提名。

候选人新闻报道

比较候选人的一个简单方法是数一数有多少关于他们的文章。通过在新闻标题中搜索每个候选人的名字,很容易确定一篇文章的主题。使用这种方法,我生成了下面的图表。它显示了 2019 年 1 月至 4 月关于每个候选人的文章总数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不出所料,领跑者乔·拜登、伊丽莎白·沃伦、伯尼·桑德、贝托·奥罗克和卡玛拉·哈里斯获得了最多的媒体报道。然而,这反映了所有的新闻渠道。通过将自由派和保守派的新闻来源分开,情况发生了一些变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

似乎 MSNBC、CNN 和 Vox 等左翼网站更喜欢谈论伯尼,而福克斯新闻频道、每日来电和布莱巴特等保守派网站则更多地关注乔·拜登。同样值得注意的是,贝托·奥罗克在保守派网站上表现得更好,这表明他比其他候选人更像右翼读者的出气筒。

媒体势头

关于上述地块,重要的一点是,它们反映了今年所有的 3.5 个月。我们可以通过查看一段时间以来有多少关于每位候选人的文章来更好地了解这场的竞争。下面的图表显示了 2019 年每个政治家每周的文章数量。

卡玛拉·哈里斯和贝托·奥罗克

左边是关于卡玛拉·哈里斯的文章数量(每周),右边是关于贝托·奥罗克的文章数量。对于两位候选人,当他们第一次宣布参选时,我们看到媒体的兴趣激增(1 月是哈里斯,3 月是贝托)。然而,自那以后,关于每位候选人的文章数量急剧下降。可以说,双方都没有发现新的问题或新的故事来吸引注意力。

*外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

News Articles per week — Kamala Harris left : left Beto O’Rourke right*

伯尼·桑德斯和伊丽莎白·沃伦

与卡玛拉和贝托一样,伯尼·桑德斯(左)和伊丽莎白·沃伦(右)在首次宣布参选时都受到了媒体的广泛关注。然而,与这两人不同的是,沃伦和桑德斯都保持了合理的媒体关注度。整个三月,他们每周都有大约 20-30 篇文章。

*外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

News Articles per week — Bernie Sanders left : left Elizabeth Warren right*

乔·拜登和皮特·布蒂吉格

皮特·布蒂吉格是最后一个宣布参选的人,拜登预计也将很快宣布参选。正如我们从下图中看到的(左边是拜登,右边是 Buttigieg),两人都还处于公告高峰的中期。时间会证明他们是否能保持最初的兴趣。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们把所有的候选人标绘在一起,我们可以比较他们各自的覆盖范围。我们还可以看到他们是如何一周又一周地相互吸引注意力的。虽然关于候选人的文章总数在增长,但争夺头条仍然是一个有限的游戏。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新闻情绪

尽管有这么一句话,所有的宣传未必都是好的宣传。通过调查候选人故事的情感,有可能看到关于他们写了什么样的东西。由于这是一场争取民主党提名的竞赛,我将只关注自由派新闻网站。

使用 library⁴情感量表,每篇关于候选人的文章都根据情感评分。正面文章给正面分,负面文章给 0 分以下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以看到,皮特·布蒂吉格似乎获得了最少的负面文章,而 Tulsi Gabbard 获得了最多。事实上,Tulsi 是如此的被自由派所憎恨,以至于关于她的报道在⁵.都是负面的在领先者中,我们看到贝托的故事是最积极的,其次是沃伦、桑德斯、拜登和哈里斯。

如果我们不看故事内容,而只看文章的标题,就会出现类似的画面。黑马杨安泽在正面标题方面名列榜首。这是有道理的,因为他的信息实际上是围绕着给人们钱。同样,不太受关注的科里·布克也表现不错。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用于描述候选人的词语

另一个观察媒体如何看待每个候选人的有趣方法是看用来描述他们的词语。通过分离出包含候选人名字的句子,并排除所有其他的,我能够为每个候选人生成单词云。在看标题之前,看看你是否能猜出哪个情节与哪个候选人有关。

*外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

left — Biden : right — Sanders* *外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

left — Harris : right — Warren* *外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

left — Beto : right — Buttigieg*

社会化媒体

正如我们从 2016 年所知,为一个政治家提供宣传的不仅仅是主流新闻。鉴于唐纳德·川普(Donald Trump)和 T2(Alexandria Ocasio-Cortez)使用 Twitter 的效率,我认为观察 2020 年竞选者的社交媒体追随者如何比较会很有趣。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不出所料,伯尼·桑德斯在社交媒体领域排名第一。有趣的是,科里·布克也有一大批追随者——如果动员得当,他们可能会很有影响力。查看 Twitter⁶的缓存版本,我还能看到每个候选人每月增加多少新粉丝。在这里,皮特·布蒂吉格脱颖而出,表明他的信息最近确实引起了民主党人的共鸣。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

奖金——与 Trump 和 AOC 相比

这场竞选的一个有趣的方面是,最大的民主党明星甚至没有竞选总统。亚历山大·奥卡西奥-科尔特斯可能太年轻了,不能参加竞选,但如果她参加竞选,她显然是最受欢迎的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当然,2020 年民主党竞选的获胜者仍将不得不面对媒体关注的巨人唐纳德·特朗普。在新闻报道方面,他继续让竞争对手相形见绌。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

同样,如果我们看看他的推特粉丝,它比所有竞争对手加起来还多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不过,就 Twitter 的势头而言,AOC 和皮特·布蒂吉格非常接近。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结论

民主党总统候选人提名的竞争还为时过早。在前几年,有人可能会说是第四党决定了第五党的提名人是⁷。然而,正如唐纳德·特朗普(Donald Trump)所证明的那样,社交媒体和分裂的媒体格局意味着,任何候选人都可以在不经过传统把关人的情况下积累大量追随者。随着竞争的白热化,我们可以预计,被报道最多的候选人也最有可能赢得人心。

笔记

与这个项目相关的所有代码都在 https://github.com/taubergm/2020DemocraticCandidates 的 GitHub 上

1—https://www . nytimes . com/2016/03/16/upshot/measuring-Donald-trumps-mammoth-advantage-in-free-media . html

2-这 18 个新闻来源是:politico、赫芬顿邮报、buzzfeed 新闻、cnn、msnbc、vox、npr、纽约时报、华尔街日报、洛杉矶时报、今日美国、华盛顿邮报、波士顿环球报、福克斯新闻、每日来电、infowars、breitbart

3——我用皮尤研究中心的调查结果来区分自由派和保守派。在这次演习中,自由派媒体包括赫芬顿邮报、buzzfeed 新闻、cnn、msnbc(视频摘要)、npr 和纽约时报

4 —我发现这个库在捕捉句子的情感方面做得很好。它以一种简单的单词分类器不会的方式考虑形容词修饰语—https://cran . r-project . org/web/packages/senmentr/senmentr . pdf

精英们似乎真的不喜欢塔尔西的反战信息【https://spectator.us/left-tulsi-gabbard/

6 —互联网档案馆是一个了解过去人们有多受欢迎的好地方—https://archive.org/web/

7—https://www . Amazon . com/Party-decisions-president-Nominations-American/DP/0226112373

你是哪种类型的数据专家?

原文:https://towardsdatascience.com/which-flavor-of-data-professional-are-you-5e01375584ce?source=collection_archive---------5-----------------------

扩展数据科学领域的实地指南

数据世界正在快速扩张,现在是我们开始认识到这个领域有多大的时候了,在其中的一部分工作并不自动要求我们成为所有领域的专家。不要期望数据人员能够做所有的事情,让我们开始互相询问,“你是哪一种人?”最重要的是,我们该问自己同样的问题了。

在数据世界的一部分工作并不自动要求我们成为所有数据的专家。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image: Source.

免责声明: 我画这些漫画是为了帮助你开始一幅思维地图,但我们都知道现实生活并不总是线条分明。例如,一个人可能身兼数职,或者项目阶段可能被未计划的迭代混淆在一起。请不要因为缺乏细微差别而向我扔烂番茄。

**注:**我关于各种角色推荐录用顺序的文章在这里。

你从事哪一行?

现实世界应用的 ML/AI 汇集了与数据相关的每一个工作角色,从统计员可靠性工程师。即使你已经研究了所有数据的东西(是的,没错),一天中也没有足够的时间让一个人独自做所有的事情,所以让我们进行一次数据科学生态系统中常见角色的快速狩猎,用一个厨房类比来解释。

一天中没有足够的时间让一个人独自做所有的事情。

如果你把你的工作翻译成你在食品行业的朋友们会感到自在的术语,哪一个是最合适的?(我原来的厨房类比文章是这里。)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据工程 :来源和流程成分。这有两种方式:(1)提供数据集数据科学家使用,以及(2)支持数据大规模交付。

如果你只是为自己的晚餐做点什么,杂货店购物很容易,但当你扩大规模时,琐碎的事情就变得错综复杂了——你如何获得、储存和加工 20 吨冰淇淋……而不让它们融化?规模使它成为一个复杂的挑战。类似地,当你为你的学校项目下载一个小的电子表格时,数据工程是相当容易的,但是当你处理 Pb 级的数据时,就令人头晕目眩了。

数据科学研究 :发明厨房电器新品种。你可以把这当成数据科学的理论研究面,也是 ML/AI/统计/优化的博士学位为你准备的。它是关于创造理论来扩展人类可以解决的问题的种类。

研究人员发明新东西。他们职业生涯的激情在于证明以前不可能的事情是可能的。他们倾向于一路享受工作原型,然后开始追逐下一个挑战。就厨房类比而言,它们都是关于电器蓝图的。也许他们会把这些蓝图变成一个能完成这项工作的装置,但是期望它被希望和胶带粘在一起…砰的一声关上,它就散架了。至于界面——当然,在研究人员的头脑中,按钮的顺序是有意义的,但是如果你试图使用它,你会沮丧地把头发拉出来。人性化?健壮?精心设计?算了吧!那是别人的工作。你的研究人员正忙着研究如何将传送能力植入微波炉。(你什么时候为你的行业团队聘请研究员?当你知道你需要心灵运输能力,但还没有人发明心灵运输。)

数据工具制作/平台工程 :打造人性化的家电,融入令人愉悦的厨房。这是为了给的数据科学家提供精美的工具和平台。

研究人员通常不会给你造出你实际上会 享受 使用的微波炉。这就是平台工程师的用武之地。这些人没有发明新的接线图或蓝图,他们让现有的可供大众消费。做这部分工作的团队聚在一起,埋头研究设计思维、可靠性和效率。他们做用户研究,以确保他们建立的工具你真的爱上了。不幸的是,你不会看到很多人进入一个空间,直到一些可怜的傻瓜通过证明不友好的版本有市场而遭受损失。在微波炉的早期,没有任何防呆型的产品在家庭用品商店里大量生产和销售。人工智能已经处于这种初级阶段很长时间了,但现在它被证明是有用的,工具制造商正在加紧努力!这是一个激动人心的时刻,因为你认为关于人工智能的许多困难不是智力上的,而是与工具质量相关的。随着工具变得更加用户友好,更多的人将开始进入人工智能,更多的创造力将蓬勃发展。

决策智能 :创新菜谱,服务菜品。你可以把这个当做数据科学的应用面。而是用数据算法解决具体的业务问题。

决策智能团队的成员致力于配方创新。如果他们尝试的现有算法运气不佳,他们会带一名算法研究员上船,如果他们需要友好的工具,他们会带一名平台工程师到团队,但他们也很乐意外包这些功能。他们对烹饪更感兴趣——不仅仅是任何一种烹饪。他们是一种不同的研究者,是那种通过发明令人敬畏的特制配方来解决不可能的商业问题的研究者。厨房用具和原料仓库一个接一个,他们的目标是找出如何让你吃到米其林星级无热量披萨。

如果你在应用 ML/AI 领域,让我们弄清楚你在哪个项目阶段工作,然后放大来找到你的角色。

应用 ML/AI 的项目阶段

在现实生活中,经常会涉及到迭代和回溯,但以下是大致的阶段。

准备:在我们去厨房玩之前,让我们弄清楚我们的目标是什么,集合团队,然后布置好我们的厨房。如果我们想要使用微波炉,那就去买吧。如果我们想要传送点,让我们试着发明它们。

原型:假设我们的目标是制作一种尝起来像真香肠的素食无热量香肠。需要多长时间?谁知道呢!你的厨房正等着你——祝你好运!

生产:我们有一个符合要求的配方,让我们在全世界服务十年……

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

加速阶段的角色

决策者/产品经理:我们想为客户提供什么服务,需要做到多好?你发号施令,提出计划。点击阅读更多

数据工程师/建筑师:准备好卡车,建立仓库,为大规模管理原料制定物流计划。在这里阅读更多。

我们希望在厨房里有一个传送器。发明一个。在这里阅读更多。

工具制造者/平台工程师 —研究人员的原型传送器是用胶带和希望粘在一起的。造一个我们摔门时不会散架的。这个类别包含了传统软件团队中的所有角色,从设计师到软件工程师。在这里阅读更多。

最后三个角色可以外包——例如,外包给 云提供商——如果你不想处理厨房设置或运输之类的事情。

确保你确切地知道你卖的是什么:数据?算法?让别人做 AI 的工具?恰好使用 AI 的解决方案?我的建议是专注于你的核心业务,尽可能让别人替你照顾休息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原型阶段的角色

分析师:杂货铺和厨房一片漆黑。我们不知道从哪里开始。你是唯一一个有手电筒的人。你的工作是通过帮助你的团队发现和探索可能性来加速项目。点击阅读更多

数据工程师:想办法给我们弄来两万吨冷冻胡萝卜;不要让它们解冻。在这里阅读更多。

人工智能工程师:去厨房修补一下,直到你做出味道像真的一样的无卡路里素食香肠。在这里阅读更多。

统计员:我们应该把这道菜加到菜单上吗?这取决于你,以确保提出的食谱足够好,以满足要求。在这里阅读更多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

生产阶段的角色

人工智能工程师:我们有一个惊人的原型配方。调整它,做工程,让我们大规模地服务它。需要的时候帮忙维护。点击阅读更多

可靠性工程师:安排生产并建立安全网,这样我们就能可靠地提供我们的食谱,即使树莓短缺。在这里阅读更多。

分析师:监控生产,如果出现问题就发出警报。在这里阅读更多。

统计学家:进行现场实验,验证用户是否满意,食谱是否继续符合要求,尤其是如果我们考虑批准对秘制酱料进行调整的话。点击阅读更多

所有项目阶段的角色

决策者/产品经理:指引我们,亲爱的领导!你发号施令。在这里阅读更多。

定性专家/决策科学家/数据翻译:如果决策者对食品一无所知,但还是负责,你就需要在他们和其他人之间做翻译。点击阅读更多

顾问/专家:你是决策者就某个特定话题(如道德、UX 等)寻求建议的人。点击阅读更多

技术人员:你是帮助完成工作的人,尽管你的角色没有明确地列在这个列表上。这并不意味着我们可以没有你!传统软件项目中的所有标准角色——从开发人员到项目经理到人事经理——在 ML/AI 厨房中都有它们的位置。

要了解更多相关概念的生态系统,请参阅我的文章决策智能简介

感谢阅读!人工智能课程怎么样?

如果你在这里玩得开心,并且你正在寻找一个为初学者和专家设计的有趣的应用人工智能课程,这里有一个我为你制作的娱乐课程:

Enjoy the entire course playlist here: bit.ly/machinefriend

喜欢作者?与凯西·科兹尔科夫联系

让我们做朋友吧!你可以在 TwitterYouTubeSubstackLinkedIn 上找到我。有兴趣让我在你的活动上发言吗?使用表格取得联系。

最好的日本动漫工作室是哪家?

原文:https://towardsdatascience.com/which-is-the-best-japanese-anime-studio-f44fa642a03e?source=collection_archive---------30-----------------------

从不同角度看动画工作室

艾里刘巴维什贝拉拉

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Bruce Tang on Unsplash

如今,动画已经变得越来越主流,它的市场继续在全世界扩张。2017 年,动漫市场创下了 198 亿美元的销售新纪录,这在很大程度上归功于海外需求(Jozuka,2019)。这个快速发展的行业引发了人们研究它的兴趣,我们也是其中的一部分。根据我们的在线调查,一些动漫迷出于对动漫的热情和对行业的好奇,自己进行了分析。他们的作品包括创建动漫排行榜、分析偏好动漫流派的变化趋势、动漫受众的人口统计学特征(Bilgin,2019;拉菲克,2019;过度溶解,2019)。除此之外,日本动画协会一直在发布关于日本动画产业的年度报告,这已经成为关于动漫产业的在线分析的主要来源之一(AJA,2019)。

这些作品虽然很有见地,但没有一部是专门看动漫工作室的。互联网上已经有一些动漫工作室的排名,而它们只是基于主观的网络投票(Teffen,2017;Lindwasser,2019)。因此,通过对动漫工作室的客观分析,启发我们填补空白。更具体地说,我们将评估:1)哪个动漫工作室是最成功的工作室;2)成功工作室的特征是什么?

数据源

我们能够获得 Kaggle.com 动漫的详尽数据集(MyAnimeList 数据集,2018)。这个数据集几乎有 2Gb 大,包含 3 个子数据集:“动画列表”、“用户列表”、“用户动画列表”。还有这些数据集的过滤数据和清理数据版本。总体而言,该数据集从 302,675 个独立用户和 14,478 部独立动画中获取数据。

我们主要利用了 AnimeList 数据集,该数据集包含 31 个列,如动画名称、动画 ID、工作室、流派、评级、喜爱(某个动画被添加到用户喜爱列表中的次数)、流行度(有多少人观看了该动画)等。

数据准备

由于原始数据集是基于动画的,并且一部动画可以由存储在一个单元中的多个工作室制作,所以我们的第一步是将不同的工作室分成多个列。之后,我们使用 pivot 选项将多个工作室分成单独的行。我们还使用相同的技术拆分包含多种风格的列。

然后为了全面分析动漫工作室,我们创建了一个涵盖不同方面的公式:整体工作室评分=人气评分+忠实观众评分+动漫质量评分+动漫数量评分。对于每个动漫工作室来说,分数越高意味着排名越高。再进一步阐述四个标准: 1) 人气评分 *(该工作室制作的所有动漫的受众总和除以该工作室制作的动漫数量)*看该工作室动漫的平均受欢迎程度; 2)忠实观众评分 *(动漫被加入自己喜爱列表的总次数除以工作室出品动漫的观众总数)*看工作室的动漫能有多成功地将一个普通观众转化为忠实粉丝; 3)质量评分 *(工作室制作的所有动漫的平均评分)*查看工作室作品的平均质量;4) 数量评分 (工作室制作的动漫总数)。在把四个分数加起来之前,我们还把它们标准化了,使它们在同一个尺度上。

那么,谁是赢家?

在计算了所有工作室的总分后,我们得到了我们的获胜者:东映动画。综合得分 441.3,比第二工作室高 68。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://www.anime-planet.com/anime/studios/toei-animation

我们还强调了将在以下段落中详细分析的前 20 个工作室。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 1. Top 20 studios scores

工作室如何根据我们设定的不同标准开展工作

我们感兴趣的不仅仅是每个工作室的总体分数,还有他们个人的分数。因此,我们创建了四个散点图,同时显示总体得分和其他标准。每个点代表一个工作室(见图 2)。我们还应用了颜色来显示工作室的总体得分,因此更容易识别模式:一个点越绿,它在我们的排名中就越高(它获得的总体得分越高),而越红,它在排名中就越低。

1。目前的动漫产业由大型工作室主导

可见顶级工作室和“正常多数”之间的差距是巨大的。很少有工作室是绿色的,大多数是橙色或红色的,这意味着它们在我们的排名中得分很低。这一结果反映了当前的动漫产业结构,即由大型工作室主导,而由于预算限制,小工作室很难生存(Margolis,2019)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 2. Scatterplots of studio scores

2。热门工作室有不同的策略。他们有的针对大众市场,有的针对小众受众群体。

至于顶级工作室,它们都获得了不错的质量分数(见图 3)。然而,这些工作室在受欢迎程度、每部制作的动漫拥有多少忠实观众以及制作的动漫数量方面的表现却大相径庭。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 3. Highlighted top studios in the scatterplots

比如 top one 工作室:东映动画获得了很高的数量分,这意味着它制作了大量的动漫(见图 4)。因此,东映动画的整体人气也很高。再者,忠实观众评分也是有竞争力的。这意味着在看了东映动画的作品后,很多观众把它加入了他们的最爱。尽管如此,平均人气得分还是比较低的,这说明东映动画制作的动漫并不是都受到普通大众的欢迎。然而,京都动画的情况完全不同。京都动画在我们的排名中排名第 8。类似东映动画,有着高质量的评分,甚至比东映动画还高一点点。虽然京都动画制作的动画比东映动画少得多,因此一般来说它在动画观众中并不那么受欢迎。尽管如此,它的平均受欢迎程度要高得多,这反映出即使京都动画也不是那么“多产”,他们制作的每部动画都是高质量的,其中大多数都会受到普通大众的欢迎。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 4. Toei animation (left) and Kyoto Animation(right) highlighted in the scatterplots

工作室如何相互合作

该数据集还显示了不同工作室之间在制作动漫方面的大量合作。如图 5 所示,我们已经在一个图中可视化了所有的工作室,并用网络图突出显示了它们之间的联系。节点的大小表示该工作室与其他工作室合作的总次数。规模越大,协作数量越高。疯人院在制作动画时更喜欢合作。而节点的颜色表示工作室在我们计算的排名中的排名。红色阴影越深,工作室在我们的排名列表中的排名越好。此外,连接两个工作室的线的粗细取决于这两个工作室合作制作的独特动画的数量。更粗的线意味着两个工作室之间更高的协作实例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 5. Network graph of studio collaboration pattern

并非所有顶级工作室都是积极的合作者,他们有时也会与小工作室合作。

出乎意料的是,尽管排名靠前的顶级工作室往往是主要合作者,但他们在其他工作室中的受欢迎程度并不总是与他们的总体分数成正比。此外,顶级工作室不一定只与顶级工作室合作。例如,尽管东映动画是排名第一的工作室,但与疯人院、Production I.G .和 Sunrise 等工作室相比,合作频率较低(见图 6)。东映动画和它的合作者之间的关系也很弱,因为界限相对较窄,这意味着他们没有合作很多动画。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 6. Toei animation highlighted in the network graph

所有电影公司中最受欢迎的类型是什么:动作片、冒险片和奇幻片

由于我们的数据集中存在各种各样的动漫类型,我们有兴趣找出最受欢迎的类型。我们通过创建一个包含我们数据集中所有动漫类型的单词云来做到这一点(见图 7)。这样做之后,我们能够确定“喜剧”是最受欢迎的类型,紧随其后的是“动作”、“冒险”和“幻想”类型。除此之外,“浪漫”、“科幻”、“戏剧”、“生活片段”和“儿童”也是主要类型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 7. Word Cloud of popular anime genres

前 20 大工作室分析

接下来,我们决定只关注排名前 20 的电影公司,看看他们是否有任何使他们成功的相似策略,或者他们是否有自己独特的策略。

1。前 20 大电影公司中的前 3 大类型是喜剧、动作片和冒险片。

如图 8 所示,我们决定制作一个柱形图来显示排名前 20 的电影公司的类型构成,以了解他们的策略。为了使可视化更具可读性,每个工作室只显示前 10 个流派,而前 10 个流派被分组在“其他”下。工作室也根据他们的排名进行了分类。

可以看出,大多数顶级工作室的流派构成非常多样化。他们不再局限于几种动漫类型。这里的流行类型与所有动漫工作室之一一致,其中“喜剧”排在第一位,其次是“动作”和“冒险”。虽然“魔法”这一类型在顶级工作室中比在所有动画工作室中更受欢迎。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 8. Stacked bar chart of genre composition for the top 20 studios

2。排名前 20 的工作室大多制作 PG-13 动画。

另一个引起我们注意的数据字段是“Ratings”列。为了找到我们排名前 20 的工作室的大多数动画所属的最高评级类别,我们创建了一个树形图(见图 9)。这样做有助于我们确定“PG-13”分级类别是最受欢迎的分级类别,占前 20 大工作室制作的所有动画的 50%以上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 9. Treemap of rating composition for the top 20 studios

3。排名前 20 的工作室一半以上的动画制作不到 50 集。

在为排名前 20 的工作室工作时,我们惊讶地发现这些顶级工作室为他们的每部动画制作的剧集数量。为了确定这是一个反复出现的趋势还是只是一个异常现象,我们创建了一个方框图,其中来自这 20 家顶级工作室的所有动画都绘制在一个图表上,并根据每个工作室的剧集数量进行排列(见图 10)。

这种形象化突出表明,工作室首先喜欢为一部动画制作少于 50 集的剧集,然后如果这 50 集为该剧制造了炒作,就制作更多的剧集。这可以解释为 20 个顶级工作室中有 19 个为超过 50%的动画制作了不到 50 集。此外,还有一些非常受欢迎的动漫,如龙珠 Z、火影忍者和漂白剂,与同一工作室制作的动漫相比,其剧集数量非常高。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 10. A box plot of anime episodes by the top 20 studios

局限性和未来工作

虽然我们能够从我们的可视化中挖掘出一些有趣的见解,但我们仍然希望承认我们在这个项目中面临的某些限制。

  1. 由于我们的数据集是从 MyAnimeList 中提取的,因此它仅限于该网站的用户,其中大多数用户来自美国、英国、加拿大、俄罗斯和巴西。然而,日本和中国等其他国家也拥有庞大的动漫消费群体。虽然这些观众倾向于使用不同的网站来观看或评论动画,因此不包括在数据集中。因此,如果我们可以用其他不同的数据集来补充该数据集,我们将能够获得更全面的分析。
  2. 在我们的公式中可以考虑更多的事实。例如,我们还可以比较工作室的收入,这将为我们分析工作室提供商业视角。在这个项目中,我们试图收集这样的数据,但由于时间和资源的限制,我们无法找到完整的数据。

链接到可视化演示

请随意通过这些链接与我们的可视化文件进行交互。由于 Gephi 的性质,我们无法在线分享网络图。如果你感兴趣,请随时发消息,并要求该文件。尽情享受吧!

[## 散点图

scores of fallanimestudios

public.tableau.com](https://public.tableau.com/views/Scoresofanimestudios/Dashboard1?:display_count=y&publish=yes&:origin=viz_share_link) [## Wordcloud

万物有灵

public.tableau.com](https://public.tableau.com/views/Wordcloudofanimegenres/Dashboard1?:display_count=y&publish=yes&:origin=viz_share_link) [## 堆叠条形图

Top20StudiosGenreComposition

public.tableau.com](https://public.tableau.com/views/Top10genrescompositionoftop20studios/Dashboard1?:display_count=y&publish=yes&:origin=viz_share_link) [## 树形图

top 20 studiostratingcomposition

public.tableau.com](https://public.tableau.com/views/AnimeratingcompositionoftheTop20studios/Dashboard1?:display_count=y&publish=yes&:origin=viz_share_link) [## 箱线图

Top20StudiosEpisodes

public.tableau.com](https://public.tableau.com/views/HowmanyepisodesdoesTop20studiosprefertoproduceperanime/Dashboard2?:retry=yes&:display_count=y&:origin=viz_share_link)

参考文献

AJA (2019)。动漫行业数据。检索于 2019 年 12 月 10 日,来自https://aja.gr.jp/english/japan-anime-data

f .比尔金(2019)。动漫的故事。检索于 2019 年 12 月 10 日,来自https://www.kaggle.com/fatihbilgin/story-of-anime

Jozuka,E. (2019 年 7 月 29 日)。动漫如何塑造日本的全球身份?2019 年 12 月 10 日检索,来自https://www . CNN . com/style/article/Japan-anime-global-identity-hnk-intl/index . html

Lindwasser,A. (2019)。有史以来最伟大的 15 个动画工作室,排名。2019 年 12 月 10 日检索,来自https://www . ranker . com/list/best-anime-studios-of-all-time/Anna-lindwasser

Margolis,E. (2019)。日本动漫产业的阴暗面。检索于 2019 年 12 月 10 日,来自https://www . vox . com/culture/2019/7/2/20677237/anime-industry-Japan-artists-pay-labor-abuse-neon-genesis-evangelion-网飞

MyAnimeList 数据集。(2018).检索于 2019 年 12 月 10 日,来自

https://www.kaggle.com/azathoth42/myanimelist

过度溶解。(2019).动漫:好的,坏的和受欢迎的。检索于 2019 年 12 月 10 日,来自https://airelevant.netlify.com/post/popular_anime/

拉菲克·h .(2019 年)。分析 r .中的动漫数据检索于 2019 年 12 月 10 日,来自https://towards data science . com/analyzing-Anime-data-in-r-8d2c 2730 de 8c

泰芬。(2017 年 8 月 27 日)。日本粉丝最喜爱的 10 个动漫工作室。检索于 2019 年 12 月 10 日,来自https://goboiano . com/the-10-most-loved-anime-studios-ranking-by-Japanese-fans/

用哪个机器学习模型?

原文:https://towardsdatascience.com/which-machine-learning-model-to-use-db5fdf37f3dd?source=collection_archive---------4-----------------------

陈述你的问题,并跟随这篇文章来知道使用哪个模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

image by stevepb

—如果你不知道什么是 ML 型号,看看这篇文章

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

summary of ML models, Source

T 参加机器学习课程和阅读相关文章并不一定会告诉你使用哪种机器学习模型。它们只是给你一个关于这些模型如何工作的直觉,这可能会让你为选择适合你的问题的模型而烦恼。

在我开始 ML 之旅的时候,为了解决一个问题,我会尝试许多 ML 模型,并使用最有效的模型,我现在仍然这样做,但我遵循一些最佳实践——关于如何选择机器学习模型——这些最佳实践是我从经验、直觉和同事那里学到的,这些最佳实践使事情变得更容易,以下是我收集的。

我会根据你的问题性质告诉你用哪种机器学习模型,我会试着解释一些概念。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pexels

分类

首先,如果你有一个分类问题“预测给定输入的类别”。

请记住您要将输入分类到多少个类,因为有些分类器不支持多类预测,它们只支持 2 类预测。

-缓慢但准确

-快

注:SVM 内核使用(摘自吴伟雄的课程)

  • 当特征数量大于观察数量时,使用线性核。
  • 当观测值的数量大于要素的数量时,使用高斯核。
  • 如果观测值的数量大于 50k,那么在使用高斯核时,速度可能是一个问题;因此,人们可能想使用线性核。

回归

如果你有一个回归问题,“这是预测一个连续的值,就像预测房子的价格,给定房子的特征,如大小,房间数量等”。

-准确但缓慢

-快

使聚集

如果你有一个聚类问题“根据特征将数据分成 k 组,使得同一组中的对象具有某种程度的相似性”。

层次聚类 (也称为层次聚类分析HCA )是一种聚类分析方法,旨在构建聚类的层次结构。分层聚类的策略通常分为两种类型:

  • 凝聚:这是一种“自下而上”的方法:每个观察从它自己的集群开始,随着一个集群在层次结构中向上移动,集群对被合并。
  • 分裂:这是一种“自上而下”的方法:所有的观察从一个集群开始,随着层级的下移,分裂被递归地执行。

非层次聚类:

如果你正在聚类一个分类数据使用

降维

使用 主成分分析

PCA 可以被认为是将一个 n 维椭球体拟合到数据上,其中椭球体的每个轴代表一个主分量。如果椭球的某个轴很小,则沿该轴的方差也很小,并且通过从数据集的表示中省略该轴及其相应的主分量,我们仅损失了相应少量的信息。

如果你想做 主题建模 (下面解释)你用奇异值分解 ( SVD ) 或者潜在狄利克雷分析 ( LDA ),概率主题建模用 LDA

  • 主题建模是一种统计模型,用于发现文档集合中出现的抽象“主题”。主题建模是一种常用的文本挖掘工具,用于发现文本中隐藏的语义结构。

我希望现在事情对你来说更容易了,我会用我从你的反馈和实验中得到的信息来更新这篇文章。

我将留给你这两个精彩的总结。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

source

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值