TowardsDataScience 博客中文翻译 2020(四百三十五)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

机器人什么时候应该停止思考,开始行动?

原文:https://towardsdatascience.com/how-can-a-robot-decide-when-to-stop-thinking-and-start-acting-d65d3ed8dce2?source=collection_archive---------52-----------------------

人们每天解决许多问题。也许我们正在想我们应该穿什么去参加某个聚会,或者我们正在想出开车去某个地方的最佳方式。有时候,我们甚至试图弄清楚我们应该和谁结婚,或者我们应该去哪里上大学。

当一个人解决一个涉及许多不同因素的难题时,他们甚至没有意识到就做出了权衡。如果我们花在解决问题上的时间太少,我们最终会得到一个不够好的解决方案。然而,如果我们花太多的时间来解决问题,我们会得到一个很好的解决方案,但是会花费太长的时间。换句话说,当我们解决复杂的问题时,我们不知不觉有效地回答了下面的问题:

什么时候我们应该停止思考一个问题,并开始采取行动,找到我们目前为止想出的最佳解决方案?

让我们考虑一个例子。假设莎莉想出了从她家开车去滑雪胜地的最佳方式。看看几个选项。她应该喜欢哪一个?

  1. 她应该考虑很长时间(30 分钟)来获得一条需要 35 分钟的伟大路线吗?
  2. 她是否应该想都不用想(1 秒钟)就能得到一条耗时 2 小时的可怕路线?
  3. 她应该考虑一个合适的时间量(2 分钟)来得到一个合适的需要 40 分钟的路线吗?

虽然第一个选项会导致最快的路线,但她会花太多时间思考。类似地,虽然第二种选择要求她很少思考,但她会花太多时间开车。然而,第三种选择在思考时间和驾驶时间之间提供了一个很好的平衡。

我在研究生院的第一篇论文试图为机器人回答这个问题:机器人什么时候应该停止思考它的问题,并开始采取行动,寻找迄今为止它提出的最佳解决方案?这就是我们今天要谈论的话题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

布鲁诺/德国Pixabay 上拍摄的照片

我们所说的思考是什么意思?

让我们首先正式定义机器人思考的含义。我们不是在谈论关于意识的难题或对于像我一样在房间里的哲学极客的中国房间争论。相反,我们谈论的是一类叫做 anytime 算法 的算法。简单来说,anytime 算法只是一种随着时间的推移逐渐改进某个解决方案的算法,并且可以为了那个解决方案而随时被中断。例如,如果我们试图想出一条从杂货店到医院的路线,anytime 算法会不断地生成随着时间的推移越来越好的路线。基本上,当我们说一个机器人正在思考时,我们真正的意思是机器人正在执行一个随时会产生解决方案的算法。

anytime 算法通常有几个很好的特性。首先,anytime 算法表现出单调性:它保证解的质量提高或保持不变,但绝不会随着时间的推移而变差。接下来,anytime 算法表现出收益递减:解质量的提高在计算的早期阶段较高,在后期阶段较低。

为了说明 anytime 算法的行为,请看这张照片。在这张照片中,随着计算时间增加,解质量也增加。事实证明,这种行为是 anytime 算法的典型特征。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

交易解决方案质量计算时间

为了确定机器人何时应该停止思考并开始行动,我们需要量化两件事:解决方案的质量对我们来说值多少,时间对我们来说值多少。提示依赖于时间的效用。时间相关效用表示由任意时间算法计算的解决方案的效用。直观地说,在任何实时决策任务中,一秒钟内计算出的某种质量的解决方案比一小时内计算出的相同质量的解决方案具有更高的效用。这意味着解决方案的效用是质量和计算时间的函数。这是一种正式的说法:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

幸运的是,通常可以通过将依赖于时间的效用函数表示为两个函数之间的差异来简化它,这两个函数被称为内在价值函数时间成本。首先,内在价值函数代表一个解决方案的效用,如果我们只考虑该解决方案的质量,忽略计算时间的成本。第二,时间成本代表解决方案的效用,如果我们只考虑计算该解决方案所需的时间,而不考虑解决方案质量的价值。下面让我们更正式地定义这种简化:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这种东西有什么意义? 这个问题问得好。给定被分成内在价值函数和时间成本的时间相关效用函数,决定何时中断任意时间算法并对当前解起作用的问题变得明确。例如,看看下面的例子。我们有三个函数:内在价值函数、时间成本和依赖于时间的效用函数。内在价值函数随时间逐渐增加,时间的成本随时间呈指数下降,时间相关的效用函数为我们创造了一个凸函数。我们应该停止思考,开始在依赖时间的效用函数顶端行动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

听起来很简单,对吧?嗯,有个问题。虽然很容易指着橙色圆圈说停在这里,但我们实际上并不事先知道 anytime 算法的性能。决定何时中断 anytime 算法并对当前解决方案采取行动需要预测 anytime 算法在未来的性能。

预测任意时间算法的性能

在我们进入如何预测 anytime 算法的性能之前,让我们再定义一些东西。我们将定义一对向量,它们共同代表任意时间算法的性能。第一个向量描述了 anytime 算法在解决一个问题实例时的过去的性能。我们可以将过去的绩效定义为从初始解决方案到当前解决方案所观察到的解决方案质量的向量。换句话说,性能历史是从 anytime 算法的开始时间步长到当前时间步长观察到的一系列解决方案质量,如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第二个向量代表 anytime 算法在解决一个问题实例时的未来性能。我们可以将未来性能定义为从当前解决方案到最终解决方案的算法剩余时间内的解决方案质量的向量。也就是说,性能预测是从当前时间步长到算法的最终时间步长后预测的一系列解决方案质量,如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了预测 anytime 算法的未来性能,我们可以使用它在正在解决的问题的实例上的过去性能。通常,这只是一个从性能历史中计算性能预测的函数。在不致力于具体实现的情况下,让我们大致这样定义这个函数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

需要强调的是,该功能可以通过多种方式实现。在大多数情况下,一个简单的方法,如非线性回归,可以从性能历史中计算出一个合适的性能预测。事实上,我在报纸上就是这么做的。然而,对于所有那些深度学习专家来说,也可以使用复杂的模型来完成,如神经网络,其中包括算法的功能。

这是对性能预测器的直观描述。理想情况下,随着性能历史的增加,它计算的性能预测将接近 anytime 算法的真实性能。例如,在第 i 个时间步,第 i 个性能预测并不十分接近真实性能 p* 。事实上,这太乐观了。然而,在第 (i + 1) 时间步,下一个性能预测 (i + 1) 性能预测更接近真实性能 p* 。直观上,随着性能预测器利用性能历史中更多的解决方案质量,性能预测接近算法的真实性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器人什么时候应该停止思考,开始行动?

现在我们已经定义了一堆东西,我们终于可以看到机器人如何决定何时停止思考并开始行动。基本上,机器人会以固定的时间间隔监控它的 anytime 算法。在每个时间步,机器人将使用性能预测器从性能历史生成性能预测。根据性能预测的情况,机器人要么中断 anytime 算法,要么让它继续运行。在更深的层次上,基本算法是这样工作的:

  1. 初始化时间步长和性能历史。
  2. 启动任意时间算法。
  3. anytime 算法运行时,执行以下操作:
  4. 获取anytime 算法的当前解。
  5. 计算当前溶液的质量。
  6. 将当前解决方案的质量添加到绩效历史中。
  7. 使用性能预测器根据性能历史计算性能预测。
  8. 如果性能预测满足停止条件:
  9. 中断anytime 算法。
  10. 返回当前解决方案。
  11. 否则增加时间步长,暂时休眠

但是什么是停止条件呢? 简单来说,我们用一个停止条件来决定一个 anytime 算法在给定的时间步是否应该被中断。如果停止条件为真,我们中断算法。否则,我们让算法继续运行。

而我们应该用什么停止条件呢? 我们使用一个停止条件,只要预计最佳解决方案的效用和当前解决方案的效用之差大于零*,就让 anytime 算法运行。*更正式地说,我们让 anytime 算法在以下值大于零时运行:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

事不宜迟,对于那些想了解更多技术细节的人来说,下面是决定智能系统何时应该停止思考并开始行动的方法:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

葡萄酒怎么会又尖又尖?

原文:https://towardsdatascience.com/how-can-a-wine-be-pointy-and-sharp-31783f01302e?source=collection_archive---------34-----------------------

使用主题建模来揭开葡萄酒评论的神秘面纱,并通过创建基于内容的推荐系统来帮助消费者找到他们喜欢的葡萄酒。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://winefolly.com/tips/40-wine-descriptions/

葡萄酒是如何变得尖尖的、尖锐的、像激光一样的或多肉的?葡萄酒描述(尤其是侍酒师写的评论)通常包含看似随意的形容词,这可能会让消费者非常困惑。之前在一家葡萄酒商店工作过,我亲眼目睹了这些描述和评论是如何造成混乱的。如果对葡萄酒的评论没有意义,消费者怎么知道他们是否会喜欢一瓶酒?如果他们喜欢一种酒,他们怎么能找到类似的瓶子呢?

该项目的目标: 1)使用自然语言处理和主题建模来发现葡萄酒评论的趋势 2)创建一个推荐系统,根据第一部分中的主题建模找到类似的(和更便宜的)葡萄酒。

**数据:**这个项目的数据集是在 Kaggle 上找到的,由一个 2017 年刮葡萄酒爱好者杂志的用户创建。它有 13 万条葡萄酒评论,有许多有用的功能,如:葡萄品种、点数、价格、地区,当然还有侍酒师的评论。要更详细地预览功能和数据,请参见数据集这里的

步骤 1:清理和探索性数据分析

与任何数据科学项目一样,EDA 和清理是第一步。有人恨,有人爱,我们都要做。这个项目的大部分 EDA 是为了娱乐/练习,对于 NLP 或推荐系统来说不是太必要,所以我不会详细介绍。然而,如果你想看我的代码和过程,可以在 Github 上查看这个项目。

步骤 2:为主题建模做准备

什么是主题建模?

首先,什么是主题建模?主题建模是一种 NLP 模型,它分析文档中的单词,试图找到它们之间潜在的“主题”(主题)。例如,假设我们有四个句子(在 NLP 中也称为文档):1)“我喜欢狗和猫”2)“葡萄酒有草莓的味道”3)“狗的皮毛是黑色的”4)“葡萄酒闻起来有猫粮的味道”。如果我们思考这些文件中的主题,很明显第一和第三个是关于动物的,第二个是关于酒的,第四个可能是这两个主题的结合。主题模型基本上是用一种更加数学化的方法来做这件事的。

主题建模有许多变体,如 NMF、LDA 和 LSA,每一种都有自己独特的数学基础。此外,这些模型可以在各种 Python 包中运行,如 spaCy、Gensim、scikit-learn 等。每个包需要稍微不同的步骤,尤其是在文本预处理中。虽然我尝试了各种模型和软件包,但我表现最好的模型是在 Gensim 中完成的 LDA 模型,所以这篇博客文章概述了我的经验。

为主题建模准备文本

在进入主题建模之前,我们需要准备将要运行模型的文本。对于这个分析,我正在寻找葡萄酒描述中的潜在主题,所以我只使用了数据集中的描述列。这是侍酒师对每款酒的书面评论的特点。

预处理步骤如下:

  • 去掉:标点符号,数字,把所有东西都变成小写
  • 去除停用词:停用词是极其常见的词,如“a”和“the”。每个软件包都内置了您可以自定义的停用字词集。通过一个迭代的过程,我把我的停用词表定制成大于 15k 个单词。在这一部分花点时间是值得的,因为它有助于澄清你的话题。参见 Github 上的代码。
  • 标记化:将描述列分割成单个单词块。
  • 词条和/或词干:这允许像“跑步”、“跑”和“跑”这样的词被同等对待,并有助于减少独特词出现的次数。
  • 单词包:将文本转换成单词包,这样我们就可以对其进行建模。单词包分别处理每个单词(想象一个包,里面有类似拼字游戏的单词块),然后计算每个单词的出现次数。在此之后,您可以使用 TF-IDF 或计数矢量器来使模型更加健壮,但这里介绍的模型没有使用这些工具。关于使用 TF-IDF 和 CV 的其他型号,请参见 Github 代码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

词汇化后出现频率最高的词。注意顶部的单词是描述性的,而不是停用词。

步骤 3:运行 LDA 模型

现在,文本已经准备好进行建模了。如前所述,主题建模有许多不同的方法和包。在接下来的章节中,我将讨论我最终的 Gensim LDA 模型。

什么是 LDA ( 潜在狄利克雷分配)?

LDA 是一种概率模型,它假设语料库中的每个文档都由主题分布组成,每个主题都由单词分布组成。该模型的目标是学习每个文档的主题混合,以及每个主题的单词混合。当使用 LDA 进行 NLP 时,我们挑选主题的数量(这部分比较棘手,涉及许多迭代),并且模型被迫具有 n 个主题的主题分布。该模型在词-主题级别以及主题-文档级别分析文本。当遍历迭代时,模型会问:一个单词属于一个主题的概率是多少,这个文档由这些主题组成的概率是多少?

下图帮助我想象 LDA 是如何工作的。假设我们有三个主题——三角形的每个角都是一个独特的主题。在这种情况下,每个文档由三个主题的一定比例组成。如果我们的文档是主题的混合,它看起来就像右上角的三角形。如果文档是主题二和主题三的混合,那么它看起来就像左下角的三角形。LDA 有两个影响主题构成的超参数( alpha,beta ),但我只是在我的模型中使用了默认值。这篇中的文章很好地描述了他们。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Gensim 中运行 LDA 模型

# Dictionary- word to numeric id mapping
dictionary = corpora.Dictionary(df.tokenized)# Corpus- transform texts to numerical form (bag of words)
corpus = [dictionary.doc2bow(doc) for doc in df.tokenized]# LDA Model- 15 topics, 20 passes
lda_model = models.LdaModel(corpus, id2word=dictionary, num_topics=15, passes=20 )# Print topics
lda_model.print_topics(15)

运行模型后,您应该检查您的主题,看它们是否有意义。这是 NLP 的棘手之处——没有正确的答案。你需要用你的直觉和领域知识来看看题目是否有意义。你可能要试几次。运行上面的模型后,一些主题看起来像这样:

(1,
  '0.136*"oak" + 0.069*"vanilla" + 0.045*"toast" + 0.021*"toasted" + 0.020*"toasty" + 0.017*"buttered" + 0.016*"caramel" + 0.015*"richness" + 0.015*"wood" + 0.014*"oaky"'),(7,
  '0.034*"finish" + 0.030*"apple" + 0.021*"sweet" + 0.019*"pear" + 0.018*"pineapple" + 0.018*"citrus" + 0.018*"nose" + 0.016*"melon" + 0.015*"white" + 0.014*"tropical"'), (9,
  '0.060*"blackberry" + 0.044*"black" + 0.029*"chocolate" + 0.025*"tannin" + 0.018*"ripe" + 0.017*"cherry" + 0.017*"syrah" + 0.016*"tannic" + 0.016*"oak" + 0.015*"show"'),

这些话题对我来说很有意义。第一个可能是黄油,橡木,夏敦埃酒的代表。第九种可能是巧克力和橡木红葡萄酒。

第四步:推荐相似但更便宜的葡萄酒

想象一下,你去老板家吃饭,喝了一些好酒。第二天你查看评论,发现是 200 美元。也许你想找一些口味相似、价格更实惠的东西。确定你喜欢的口味和导航混乱的描述可能会令人生畏。

推荐系统

既然主题建模已经完成,我们可以使用这些结果来创建一个推荐系统。有两种主要类型的推荐系统:基于内容和协同过滤。对于这个项目,我创建了一个基于内容的推荐系统。基于内容的模型使用关于用户和/或项目的附加信息(例如人口统计),而不是依赖于用户-项目交互。这里,因为我的模型没有任何用户信息,所以内容是葡萄酒描述的主题分布。因此,该模型推荐具有类似主题细分的葡萄酒。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

协同过滤与基于内容的对比(来源:https://www . research gate . net/figure/Content-based-filtering-vs-Collaborative-filtering-Source _ fig 5 _ 323726564)

用最简单的术语来说,推荐系统通过比较项目的距离来工作。这可以是余弦相似性、欧几里德距离、詹森-香农距离、库尔巴克-莱布勒散度或许多其他选项。它们都只是测量物体在空间中的距离。对于这个项目,我使用了 Jensen-Shannon 距离,因为这是一种测量概率分布之间距离的方法——这就是 LDA 模型中每个文档的主题分布。

为了在 python 中实现这一点,我利用了 SciPy 的熵度量。不用深究数学,只需知道詹森-香农是基于库尔贝克-莱布勒距离,而 SciPy 的熵只是库尔贝克-莱布勒距离的一个度量。Jensen-Shannon 距离的范围从 0 到 1,0 表示两个分布最接近/最相似。

运行推荐系统的步骤

获得 Jensen-Shannon 距离的第一步是将我们的矩阵从 LDA 转换成密集的文档 X 主题矩阵。在这个新的矩阵中,每一行都是葡萄酒评论,每一列都是每种葡萄酒的主题细分。一旦我们有了这个矩阵,我们运行文档向量之间的距离度量(即 Jensen-Shannon 距离)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

文档 X 主题矩阵

这包括几个简单的步骤:

# Convert from bow to sparse matrix to dense matrix to pandas
# Transform out of bow
corpus_lda = lda_model_tfidf[corpus]# Convert bow corpus into sparse matrix with docs as columns
csc_mat_lda = gensim.matutils.corpus2csc(corpus_lda)# Turn docs into rows, and convert to np array
# Now we have a doc X topic numpy matrix
doc_topic_array_lda = csc_mat_lda.T.toarray()# Convert to pandas for ease and readability
df_lda = pd.DataFrame(doc_topic_array_lda)# Set column names to topic #s for pandas df
df_lda.columns = [f'topic_{x}' for x in np.arange(0,len(df_lda.columns))]

如果我们在数据框架中随机访问一种葡萄酒,我们可以很容易地看到它的主题构成。

# Pick a random wine to examine its topic breakdown
df_lda.loc[123]
________________________________# Looks like this wine is primarily made up of topics 6, 9, and 14
topic_0     0.000000
topic_1     0.000000
topic_2     0.000000
topic_3     0.082272
topic_4     0.067868
topic_5     0.000000
topic_6     0.253451
topic_7     0.000000
topic_8     0.107688
topic_9     0.287275
topic_10    0.000000
topic_11    0.000000
topic_12    0.000000
topic_13    0.000000
topic_14    0.179217

终于到了提出一些建议的时候了

现在我们有了文档 X 主题矩阵,我们只需要运行一些函数来提取与我们的查询最相似的葡萄酒。

函数 1)在一种葡萄酒和语料库的其余部分之间查找 JSD 2)查找最相似的葡萄酒

这些函数的输出是最相似的葡萄酒的 T4 指数。它看起来像这样:

# Get the topic distribution of a query wine to find similar wines to
new_wine = doc_topic_array_lda[123].Tmost_similar_wine_ilocs = get_most_similar_wines(new_wine,full_matrix)
________________________________

array([123, 3436, 52985, 59716, 101170, 37219, 43017, 99717,         80216, 9732, 101690, 40619, 66589, 14478, 1068, 1157, 67821, 100428, 8895, 8894])

需要注意的一点是,在运行这个函数时, new_wine 是我们要从中寻找推荐的一个查询葡萄酒的主题分布。可能是你在老板家喝的酒。

好了,在我们最终做出一些葡萄酒推荐之前,还有一个步骤。来自前面函数的熊猫索引是来自文档 X 主题矩阵的 ilocs ,该矩阵只包含主题分布作为列——没有关于葡萄酒的信息。我们需要将这个数据帧与原始数据帧合并,这样当我们提取最相似的葡萄酒时,我们就有了所有的信息。如果我们希望向用户提供关于葡萄酒的描述性信息,而且希望使用描述性信息(比如价格)作为过滤器,这一点很重要。只要确保它们合并正确,否则你会有一些不匹配。一旦完成,你就可以创建一个封装了所有东西的最终函数,并且有一个价格范围的输入。

工作中的推荐系统示例

说明最终模型的最好方式是用一个例子。我从阿根廷挑选了一款 215 美元的马尔贝克,并在最终推荐系统中进行了测试。我还添加了一个价格过滤器,以便找到一个价格低于 50 美元的类似瓶子。最受推荐的葡萄酒是华盛顿州售价 35 美元的赤霞珠葡萄酒。

我绘制了两种葡萄酒的主题分布图,它们非常相似。这意味着推荐系统正在工作。当然,它并不完美,所有的主题建模都可以迭代多次,以获得更好、更清晰的主题,这反过来会返回更好的推荐。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

查询葡萄酒(左)和热门推荐葡萄酒(右)的主题分布

摘要

这个项目的目标是:1)使用自然语言处理主题建模来发现葡萄酒评论中的共同主题 2)创建一个基于内容的推荐系统来找到相似的葡萄酒。

在本文中,我回顾了文本预处理的步骤、简要的 LDA 概述以及 Gensim 中的 LDA 主题建模。最后,我介绍了构建基于内容的推荐系统的步骤。通过这个项目,我能够实现我的两个目标,并创建一个最终模型,根据文本描述的风味特征推荐葡萄酒。

这个项目的所有代码都在我的 Github 上。请随时在 LinkedIn 上联系我。

人工智能如何提升呼叫中心道德?

原文:https://towardsdatascience.com/how-can-ai-boost-call-center-moral-90573fc52ccb?source=collection_archive---------51-----------------------

利用 NLP 帮助呼叫中心代理应对压力,而不是让他们超负荷工作反馈的黑客马拉松想法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Icons8 团队Unsplash 上的照片

呼叫中心的员工流动率太高了!

呼叫中心的高流动率是一个众所周知的问题。令人惊讶的是,当我们引入更多的技术时,它们似乎都没有减少人员流动。

让我们看看今天我们是如何在呼叫中心使用人工智能(AI)的。然后,我将分享一些想法,关于我们如何应用同样的技术来帮助提高呼叫中心的士气。这将是一场由行业领导者如 Salesforce 发起的伟大的黑客马拉松。

人工智能通常如何在呼叫中心使用

想想你最后一次打电话给支持热线。会议开始前,你听到的第一件事是什么?

出于质量目的,可能会对此次通话进行录音。

没人有时间听几个小时的通话录音。但借助人工智能和自然语言处理(NLP)的力量,一种算法可以自动审查各种措施的这些记录。以下是一些例子:

  • 客户情绪分析
  • 员工情绪分析
  • 客户与员工总发言时间的比率
  • 客户提出的问题数量
  • 员工提出的问题数量
  • 员工用词选择(例如行话)
  • 关键词提及(例如产品/服务)

Salesforce 是这类呼叫中心分析的主要参与者。关于呼叫中心利用人工智能的其他方式,请查看 Alex Fly 的故事:

[## 人工智能和数据驱动的呼叫中心的 5 个最佳实践

在过去的十年中,呼叫中心发生了革命性的变化。虽然一些静态调用脚本和一刀切…

towardsdatascience.com](/5-best-practices-for-ai-and-data-driven-call-centers-647406b4234b)

想想这对员工来说是什么感觉

如果你把自己放在一个呼叫中心代理的位置上,这太糟糕了。你不仅时刻被记录,而且现在你的工作表现正由一台机器来评判。没有怜悯。

未来学家会认为呼叫中心将 100%由对话式人工智能驱动。但我不同意。当客户不高兴并且不寻求简单的答案时,升级到人是不可避免的。顾客希望被证明他们值得别人花费时间。与聊天机器人相比,他们中 86%的人更喜欢人类互动。

NLP 反而可以提升呼叫中心的道德

如果我们使用这些技术来改善呼叫中心代理人的生活会怎么样?我的意思不是指导他们做得更好。“反馈过载”已经是呼叫中心公认的问题。我的意思是帮助他们应对他们的工作令人心力交瘁的事实。

还记得上次你和康卡斯特打电话争论有线电视账单时有多沮丧吗?现在想象一下一天做 8 个小时。这就是呼叫中心代理人的生活。

在一份 IT 支持工作中,我如何手动提高自己的士气

大学期间的一个夏天,我在 SharePoint IT 支持部门实习。这是我第一次接听顾客的电话。我很快了解到,这些互动大多是负面的。人们在试图解决问题时会感到沮丧。到了午餐时间,我会感到气馁。我不得不利用手头的工具积极控制自己的情绪。

这是我想到的:

每当我收到顾客的称赞时,我都会把它写在便利贴上,然后贴在我的隔间墙上。到夏天结束时,我的小隔间里充满了赞美。这对我有很大的影响。

每当我不得不在电话里和不高兴的顾客说话时,那些便利贴让我坚持下去。它们不断提醒我,我所做的工作是帮助人们。

NLP 黑客马拉松挑战呼叫中心代理人的士气

我的解决方案的问题是它是高度手动的。为了让这样的想法得到推广,代理人必须倾听赞美并抓住它。这需要意志力,而意志力在一个接一个的电话中可能是短缺的。

还记得 NLP 是如何被用来为性能指标捕捉情绪的吗?如果同一个 NLP 引擎可以直接向呼叫中心代理发送表扬,仅仅是为了提高一点士气,那会怎么样?

  • 想法 1: 想象在代理的桌子上有一个数码相框。如果它自动填充了充满感激之情的客户的报价呢?
  • 想法 2: 我们能否生成一组正面的引言,并将其设置为代理的桌面背景?
  • 想法 3: 如果我们选择最积极的音频剪辑,创建一个“最受欢迎”的播客会怎么样?代理人可以每周听一次,重温前一周的精彩片段。

我不知道你怎么想,但我觉得这是一个很酷的黑客马拉松挑战!

AI 如何帮助让企业数据质量变得更智能?

原文:https://towardsdatascience.com/how-can-ai-help-to-make-enterprise-data-quality-smarter-9a16fcd4df64?source=collection_archive---------60-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Jelleke Vanooteghem 在 Unsplash 上拍摄的照片

几乎没有任何依赖数据的人可以说他们的数据是完美的。您拥有的数据集和您希望拥有的数据集之间总是存在差异。这种差异就是数据质量的意义所在。

数据质量问题存在于使用数据的任何地方:科技和非科技企业,公共部门,工程,科学。这些领域中的每一个都有自己的数据细节和自己的一套数据质量标准。

企业数据质量处理 ERP 数据中的数据质量——描述组织中业务流程的数据。这些包括财务交易、销售交易、合同、库存以及客户、供应商等列表。

任何大型组织和大多数中型企业都使用高度集成的企业资源规划系统来运行他们的业务流程。企业资源规划数据是这类应用程序的核心组成部分;它驱动并控制其中业务流程的自动流动。这种流动的每一点都归结为公司的财务状况。这就是为什么任何企业都希望确保他们的 ERP 数据足够好,以支持其业务流程的一致和正确的循环。

公司非常了解这一点,以至于他们花费数据分析师 50%的时间来寻找和纠正数据问题

所有用于维护企业数据质量的现代工具和流程实际上都是基于规则的,这意味着,从本质上讲,它们是通过根据一些预定义的规则或条件来评估数据来工作的。

自大型机时代以来,这种方法一直主导着业务数据环境,其核心原则从那以后就没有改变过。这样做有一个很好的理由:它是稳健的和可预测的。

然而,从那时起,世界发生了巨大的变化——公司数据库的数量和复杂性都增长了数千倍。今天,这个古老的基于规则的原则已经开始显示出它的弊端:

  1. 随着数据变得更加多样化,数据中组合和交互的数量呈指数级增长,这意味着保持相同数据质量水平所需的规则数量也呈指数级增长。对于企业来说,这意味着他们在数据质量上花费的成本和精力也在快速增长。它解释了为什么公司必须付出这么多来保持良好的数据质量。
  2. 任何基于规则的系统都有一个固有的局限性——它只能处理维护系统的人所知道的问题。但是,因为人们从错误中学习,这也意味着他们知道的每个问题之前都显示为数据事件,并且很可能导致损失。这种内在的依赖性使得所有基于规则的流程都是被动的。它解释了为什么实际上所有的数据质量保证系统都与事故管理密切相关。
  3. 所有基于规则的系统都是僵化的。它增加了更新规则集以跟上不断发展的业务的负担。它还包括更新文档、更改和测试新规则、清理旧的和不再相关的规则等等。对于有着长期变革历史的大型老企业来说,这变得非常棘手。

在过去的十年中,变化的速度越来越快,越来越多的企业迁移到现代云基础设施,并获得更强大的数据库。一家普通公司使用的数据在规模和复杂性方面都呈爆炸式增长。

因此,任何大型组织中的数据质量功能都面临着巨大的压力,随着时间的推移,这种压力只会越来越大。

企业数据质量是一个大行业,由 Informatica、IBM、SAP、Oracle 等巨头主导。为了帮助企业,他们提供各种应用程序来简化和加速规则管理。但他们没有质疑基础原则,因此没有解决使用了 60 多年的基于规则的模式的根本缺点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由朱利叶斯·西尔弗派克斯拍摄

不像其他人,我们确实质疑这种模式!在过去的三年中,我们进行了广泛的研究,寻找在典型业务数据中提高数据质量的新方法。正如你可能已经从标题中猜到的那样,我们在人工智能中找到了答案。

我们发现,不基于规则的企业数据质量方法是可行的,这种方法有许多新的好处,这些好处看起来太棒了,它们会使任何数据质量专业人员产生怀疑:

  1. 无需维护规则,因此,当您的业务流程变得更加复杂、数据变得更加多样化时,不存在伸缩问题。
  2. 人工智能算法可以发现未知问题,这些问题已经存在于数据中,但尚未显示为事件。
  3. 一个人工智能算法可以是自我学习,这意味着你不需要给它编写程序来理解你的数据或者你的业务流程。您不需要有描述您的现状的最新文档就可以开始使用它。你所需要做的就是把你的实际数据输入其中。
  4. 该算法也是自调整,这意味着它将自动跟上业务流程的变化。
  5. 由于上述两个属性,它可以工作在部署并忘记模式。
  6. 它不仅能发现问题,还能为每个发现错误的特定记录提出解决方案。
  7. 它有可能取代任何现有数据质量保证系统中的大多数规则。
  8. 最后,它可以形成一个闭环全自动数据质量保证系统,在您知道之前,数据问题就会得到纠正。你所需要做的只是观察显示算法已经防止了多少数据质量事故的报告。

看起来好得难以置信,不是吗?当然,它也有不利的一面。

像任何其他机器学习算法一样,它不会取代不需要人工智能就能很好工作的方法,例如验证地址、电话前缀、电子邮件地址。当您的数据很小时,或者当数据集中的每条记录都是唯一的并且不遵循任何模式时,它就不会很好地工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

几千年来,马一直是主要的交通工具,直到亨利·福特使汽车变得可以负担得起。现在,马更像是一种传统,能让我们产生温暖的感觉。

但是这种方法的关键的不可修复的问题正是它如此神奇的原因:它不是基于规则的。因为一般来说,业务应用程序已经使用业务规则很多年了,业务规则思维方式已经深深植根于各地的业务文化中。引入质疑这一核心原则的人工智能算法并不容易。

但是复杂不代表不可能!有了如此令人印象深刻的一系列好处和循序渐进的实施计划,像这样的人工智能方法最终将把商业文化从怀疑转变为谨慎的热情。就像过去十年发生在大数据平台和云基础设施上的一样。

你可以在LinkedInTwitter脸书 或者在data right . ai上找到我们**

不同的人工智能(AI)技术彻底改变了医学领域(AIM)

原文:https://towardsdatascience.com/how-can-artificial-intelligence-ai-revolutionize-the-field-of-medicine-3466bab60756?source=collection_archive---------52-----------------------

当前的学术和工业研究采用医学中的人工智能(AIM)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

丹尼尔·弗兰克在 Unsplash 上的照片

作为一名电子工程研究生,研究重点是生物医学技术和创新;我试图决定的第一件事是这项技术在医学上已经发展到什么程度,以及它在不久的将来会呈现什么样的前景。医生和放射科医生仍然是高需求的核心,但随着人工智能技术、机器学习(ML)和数据科学的最近干预,出现了向数据分析自动化的转变。这种转变的部分原因是因为人工智能技术提高了准确性和时间:这两者在拯救生命方面都是至关重要的因素。

医学本身是一个复杂而富有挑战性的领域。在许多商业领域,包括金融科技行业,人工智能技术在自动化和有效的数据分析方面显示出令人鼓舞的成果。人工智能有望重新设计和革新医疗保健行业。这可以包括通过机器学习(ML)设计有效的治疗计划,以及协助专业人员分析医疗数据。

在医疗保健领域集成人工智能系统可以将全球收入提高 8.4 倍。通过人工智能技术带来的创新,医疗保健行业可以预计节省约 1500 亿美元。

医疗技术和行业的不同部门人工智能医学(AIM)研究主要基于生物医学、患者数据管理和信息检索过程。充足的投资和研究也被分配来增强增强智能。这个领域包括将科学数据的力量与医学专业判断相结合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

医疗技术和产业的不同部门

医学中的人工智能(AIM) 研究主要基于生物医学、患者数据管理和信息检索过程。充足的投资和研究也被分配来增强增强智能。这个领域包括将科学数据的力量与医学专业判断相结合。

某些常春藤盟校已经投资了这项技术。

当前大学附属的 AIM 技术研究

斯坦福大学 AIMI 中心 正在利用统计学、电子工程和生物信息学方面的跨学科专业知识开发新的人工智能方法来分析医学成像。

2 HMS(哈佛医学院) 还积极参与开发数据驱动模型,以改善医疗保健行业的决策。

在开发能够在数字图像(例如视网膜图像)中发现判断特征以识别糖尿病患者的诊断算法方面进行了研究。

3 布法罗大学的研究人员正在使用 ML 来分析高分辨率医学图像中的预测模式。遗传信息和医疗记录,以改善对病人的诊断。研究人员还在努力建立一个肿瘤委员会数据库,该数据库可以将人工智能用于“精确肿瘤学”,从而改善癌症患者的护理。

4 马里兰大学 也在 AI 和医学领域采取主动,项目:AIM-HI(AI+Medicine for high impact)。截至 2020 年,他们正在致力于:(1)使用 ML 使能的生物标志物发现和传感来治疗慢性疼痛;(2)用于精神健康和风险评估优先化的多阶段 ML 框架;(3)新生儿阿片类药物戒断综合征的精确治疗(NOWS)。

上面没有列出的其他大学也在人工智能和医学领域进行类似的研究。

AIM 技术的行业关联研究

1IBM Watson Health将海量的医疗数据带入云枢纽。认知能力和传统分析将数据转化为知识。它可用于确定任何患者的正确药物治疗。
由于患者情况的变化和可用药物的范围,这项研究具有很大的潜力。使用人工智能技术,该平台可以决定特定药物是否真的适合特定患者。
然而,一些限制和批评包括推荐不正确的治疗建议。因此,当与注册医生咨询相配合时,该平台具有潜力。

2 谷歌搜索引擎 已经诚心诚意地帮助我们提供关于医疗条件或附近医院位置的信息。他们正在扩大对人工智能的研究,以帮助诊断癌症,防止失明和改善病人医疗保健的其他方法。

3Verily 的项目基线是用于与研究人员、临床医生、工程师和志愿者合作以构建下一代医疗保健工具和服务的另一种方法。他们的网站上列出了一些研究项目,包括对新冠肺炎、皮肤、情绪、睡眠的研究以及许多其他相关领域的研究。

还有其他没有在上面列出的工业项目也在人工智能和医学领域进行类似的研究。

人工智能如何彻底改变医疗行业的某些领域?

人工智能和深度学习(DL)一直是让医疗部门在数据处理方面更加高效的主要焦点。图像分析的深度学习概念可以很容易地应用于读取 X 射线图像并得出必要的结论。这消除了人为错误范围的必要性,并提供了更快的处理时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AIM 的少数应用

AIM 的少数应用

(一) 自动化: 医疗领域需要两个不可分割的方面,即数据密集型和知识型。常规咨询和其他背景分析可以通过人工智能系统轻松实现自动化。

(二) 虚拟诊断 :虚拟人工智能辅助医疗筛查平台因其较低的成本和便捷性而日益普及。这也允许早期诊断的范围,从而防止后来的保健并发症。电话筛查或虚拟访谈可以检查诊断的相关数据,并可以推荐合适的医生进行进一步的咨询(如果需要)。

该平台可以通过询问一系列与您的症状相关的问题来进行在线诊断。AI 代码可以轻松诊断病情。最常见的在线诊断包括鼻窦炎、支气管炎、哮喘、指甲感染和尿路感染。

(iii) 用于图像分析的深度学习(DL)软件: 该领域正在获得发展势头,特别是因为它提供了将医疗专业人员的能力集成到 it 平台中的范围。放射学涉及使用医学成像对损伤进行诊断和治疗的领域。图像分析中的深度学习可以提高诊断的效率,并积极地帮助从图像分析中得出关于患者治疗的结论。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

国家癌症研究所Unsplash 上拍摄的照片

这一领域在癌症治疗中得到了积极的探索。它可以使用于肿瘤诊断的图像分析过程自动化,并为早期诊断和治疗提供新的无误差模型。无误差分析还可以降低医疗成本。该领域发展势头强劲有几个原因:(1)缺乏特定领域的专业人员(2)与测试和分析相关的并发症(3)允许医生和病理学家之间的合作范围(4)通过提高诊断的准确性降低成本。

(四) 机器人辅助手术: 机器人辅助手术涉及外科技术的进步,以提高外科手术的效率。这一过程通常包括将 3D 摄像机和微型手术器械插入患者体内。外科医生使用外部控制系统来操纵仪器,以精确地完成手术任务。虽然到目前为止,外科医生只是积极地参与手术决策过程,但人工智能技术仍有改进和自动化一些系统以提高准确性的空间。这一点尤其重要,因为人工智能技术可以在 3D 摄像机无法到达的地方运行。

(五) 原始数据处理 : 大多数专业人士都难以获取相关数据,也难以整合起来做出有价值的见解。此外,数据变更和数据完整性也有可能受到损害。因此,越来越多的医疗保健初创公司积极参与处理大量医疗数据。它们执行数据标准化和协调,并用于 ML 平台。

AIM 的未来

AIM 的主要目标是将医疗专业人员的能力与数据密集型系统相集成。这可以允许对医学信息和数据的全面理解的范围。人工智能有助于准确找到相关数据,既耗时又划算。医疗保健行业是一个数据密集型系统,因此人工智能集成可以找到改善护理和减少信息过载的方法。
一些限制和批评包括推荐不正确的诊断和治疗建议。AIM 平台在注册医生咨询的辅助下具有潜力。医生、目标和医疗技术的整体作用可以改善当前的医疗保健系统。

人工智能如何应用于制造业?

原文:https://towardsdatascience.com/how-can-artificial-intelligence-be-applied-in-manufacturing-8662eaaea999?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能和机器学习正在为制造商提供前所未有的能力,以大幅提高吞吐量,优化供应链,并加速研发。

自从互联网兴起以来,世界顶级的生产工厂已经将他们的操作数字化了。现在,万亿字节的数据从工厂车间的几乎每一个工具中流出,给组织提供了他们不知道如何处理的更多信息。

不幸的是,许多公司缺乏翻译这些信息以降低成本和提高效率的资源。为此,公司需要人工智能。

是什么推动了采用人工智能的紧迫性?

高收入波动性需要不断寻求成本节约缩短生产时间增加监管和检查工厂车间的学习和适应性制造能力和供应链需求增加对小批量和/或定制商品的需求

未来的工厂可以……

  1. 在整个生产过程中检测缺陷。
  2. 部署预测性维护以减少停机时间。
  3. 响应供应链中需求的实时变化。
  4. 验证像微芯片这样复杂的商品是否被完美地生产出来。
  5. 降低小批量或单批货物的成本,实现更大程度的定制化。
  6. 通过将日常任务转移到机器上来提高员工满意度。

人工智能在制造业的主要用途

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

缺陷检测

今天,许多装配线没有适当的系统或技术来识别整个生产线的缺陷。即使那些可能已经到位的也是非常基础的,需要熟练的工程师来构建和硬编码算法,以区分功能和缺陷组件。这些系统中的大多数仍然不能学习或整合新信息,导致无数的误报,然后必须由现场员工手动检查。

通过向该系统注入人工智能和自学能力,制造商可以通过大幅减少误报和质量控制所需的时间来节省无数时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

质量保证

制造业需要对细节的高度关注,这种必要性在电子领域更加突出。从历史上看,质量保证一直是一项手工工作,需要高技能的工程师来确保电子设备和微处理器的制造正确,并且所有电路的配置正确。

今天,图像处理算法可以自动验证一个项目是否已经完美生产。通过在工厂车间的关键点安装摄像头,这种分类可以自动实时进行。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

装配线集成

如今,制造商使用的许多设备都会向云发送大量数据。不幸的是,这些信息往往是孤立的,不能很好地结合在一起。

要全面了解您的运营情况,需要几个不同的控制面板和一名主题专家来理解这一切。

通过创建一个集成的应用程序,从您使用的广泛的物联网连接设备中提取数据,您可以确保获得对操作的神一样的看法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

装配线优化

此外,通过将人工智能分层到您的物联网生态系统中,这些丰富的数据,您可以创建各种自动化。例如,当设备操作员出现疲劳迹象时,主管会收到通知。当一台设备发生故障时,系统可以自动触发应急计划或其他重组活动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

创成式设计

除了促进制造过程,人工智能还可以帮助组织设计产品。它是这样工作的:设计师或工程师将设计目标输入到生成式设计算法中。然后,这些算法探索解决方案的所有可能排列,并生成设计备选方案。最后,它使用机器学习来测试每次迭代并对其进行改进。

这些制造业人工智能用例来源于 Manceps 的 制造业人工智能服务 页面。Manceps 帮助企业组织大规模部署 AI 解决方案——包括制造商。我们甚至有一个关于生成式设计的 案例研究

想把人工智能带到你的运营中?下载我们的免费资源:将人工智能引入组织的完整指南。在 7 章中,你将获得所有你需要的信息,不仅在技术上,而且在文化上为人工智能的转变做准备。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能如何帮助医疗保健?

原文:https://towardsdatascience.com/how-can-artificial-intelligence-help-healthcare-1a2bd72ca94b?source=collection_archive---------39-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能和机器学习正在为医疗保健提供商提供前所未有的能力,以有效地组织患者护理,自动化合同和支付,并加快诊断和治疗开发过程。

在过去的几年里,医疗保健提供商和保险承保人已经开始看到将机器学习引入他们行业的力量。现在,各种规模的医疗组织都在争先恐后地减少官僚主义,同时提高诊断的准确性和批准治疗患者的速度。

不幸的是,许多医疗保健组织(尤其是保险公司)仍在手动处理患者病历,这可能是一个费力且容易出错的过程。人工智能使医疗保健提供商能够轻松地为患者护理带来自动化解决方案。

是什么推动了采用人工智能的紧迫性?

医疗保健的高成本,尤其是诊断和药物研发。与维护患者记录和批准治疗计划相关的官僚效率低下。缓慢的临床试验需要更多的医生培训。

当机器学习进入医学领域时—

  1. 医生使用图像识别技术来更容易地检测疾病,在某些情况下,甚至是自动检测。
  2. 保险提供商使用自然语言处理来总结患者病例文件并更快地批准治疗计划。
  3. 制药公司大大缩短了识别有效分子并将其推向市场的时间。
  4. 外科医生在机器人和人工智能的帮助下进行手术。
  5. 药剂师及早发现危险的药物相互作用。
  6. 患者得到更好、更个性化的护理。

人工智能在医疗保健中的主要用途

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

患者病例文件处理

自然语言处理一直是医疗保健部门的福音。事实上,我们已经看到了将 NLP 和光学字符识别引入共享、评估和总结患者病例文件的过程中的一些努力。

传统上,保险组织必须手动批准治疗计划。为了完成这项艰巨的任务,医疗专业人员评估病人的病例档案,以作出决定。为了确保高质量的护理和限制责任,这些文件可能长达数百页,包含从详细的患者健康信息到保险范围细节的所有内容。

通过将机器学习融入这一过程,医疗保健组织大大简化了这一过程。人工智能算法可以自动执行重复的任务,甚至可以用自然的人类语言总结患者资料的重要方面。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

诊断和疾病检测

似乎每周,研究人员都在宣布使用图像识别和深度学习进行疾病检测的新方法。到目前为止,人工智能已经被用于检测乳腺癌、早期阿尔茨海默氏症、肺炎、眼病、细菌性脑膜炎和许多其他疾病。

训练深度学习模型来检测疾病的过程可能很复杂。例如,很难积累必要的阳性数据集来训练模型。通过与人工智能公司合作,研究人员可以接触到高技能的数据科学团队,他们可以在整个研究过程中帮助你。在某些情况下,它可以简单到概述您的研究项目目标,开发人员可以开始工作,构建人工智能解决方案,帮助您收集数据和部署诊断模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

药学研究

虽然疾病检测通常依赖于图像识别模型,但制药研究在更复杂的数据集中发现模式。尽管如此,卷积神经网络在提供新的药物分子方面已经显示出如此大的前景,它们现在被 150 多家初创公司和 40 家制药公司用于支持药物发现过程。

然而,你可能会感到惊讶,这些组织中很少有足够强大的人工智能团队来快速推进他们的研究。研究机构应该让一群人工智能专家和数据科学家来应对你最紧迫的疾病治疗挑战。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

个性化患者护理

没有什么比医疗保健更私人的了。然而,随着专业人士看到越来越多的患者,越来越难以提供个性化的护理。好消息是,人工智能与分析和大数据相结合,最终使得在整个行业大规模部署定制护理成为可能。通过部署大分析和高级解决方案,这些新方法正在以更低的成本带来更高质量的护理。

无论你的公司规模如何,人工智能工具都可以大规模提供定制护理。这些工具可以在流程的任何阶段支持医疗保健提供商:从电话上的交互式客户服务代理到诊所或药房中由人工智能驱动的医生助理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能驱动的医疗设备

由于人工智能将越来越多地在医疗保健领域发挥巨大作用,我们可以预计医院和诊所将越来越多地转向利用人工智能的医疗设备。各种设备都可以被注入人工智能,以简化诊断并确保准确性。未来的医疗设备制造商将找到新的方法,用人工智能为他们的产品提供动力。

这些例子来源于 Manceps 的 医疗保健 AI 服务页面 。Manceps 帮助企业组织大规模部署人工智能解决方案,包括医疗保健提供商。我们甚至有一个关于医疗保健公司如何使用 NLP 案例研究。

希望将人工智能引入您的组织?获取我们的免费指南。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我如何向企业解释我的 ML 模型?

原文:https://towardsdatascience.com/how-can-i-explain-my-ml-models-to-the-business-dc4d97997d64?source=collection_archive---------23-----------------------

3 个框架让你的人工智能更容易解释

可解释性无疑是人工智能领域最热门的话题之一——随着人工智能领域的投资越来越多,解决方案越来越有效,一些企业发现他们根本无法利用人工智能!为什么?简单来说,许多这些模型被认为是“黑箱”(你可能已经遇到过这个术语),这意味着没有办法解释某个算法的结果,至少在我们能够理解的方面。

许多人工智能模型被认为是“黑箱”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

向人类解释黑盒模型所做决策的重要性。来源

在下面的图片中,我们可以看到一个复杂的数学表达式,其中有许多运算链接在一起。此图显示了神经网络功能内层的工作方式。似乎太复杂而难以理解,对吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自神经网络的链式数学表达式—通过 Rulex

如果我告诉你,下面的表达式指的是与上面的图像相同的神经网络。更容易理解,对吧?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果,否则来自神经网络的逻辑—通过 Rulex

简而言之,这是可解释人工智能的本质——我们如何以企业和个人理解的方式翻译训练黑盒模型过程中涉及的复杂数学表达式

这被称为正确的解释,它无疑动摇了公司实施人工智能的方式。

但是随着需求和规则的出现,也出现了针对人工智能可解释性的新解决方案(yeyyy!!)来支持那些希望利用人工智能同时能够解读它们的企业!*不再有黑箱,欢迎透明!*如果你好奇想知道更多关于我们为什么需要可解释性,我建议去看看这篇文章

人工智能解释框架

这是一个许多作者已经探索过的主题——2016 年,在 Marco Ribeiro、Sameer Singh 和 Carlos Guestrin 的研讨会工作中,提出了一个关于黑盒模型可解释性的新颖解决方案。提出的解决方案旨在建立两种类型的信任:信任模型提供的预测信任模型。

从那时起,许多其他框架和工具被提出来,以使人工智能在不同数据类型和领域的可解释性成为现实。今天在这篇博文中,我将介绍石灰、TF-Explain 和假设。

石灰

LIME 由华盛顿大学的研究人员开发,旨在获得算法内部发生的更大透明度,它已经成为可解释人工智能社区中非常受欢迎的方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基于预测模型的石灰产量和可解释性。来源

当谈到在低维度数据集上开发模型时,可解释性可能更容易,但当涉及到更高维度时,模型的复杂性也会增加,这使得很难保持局部保真度。 LIME (局部可解释模型不可知解释)不仅解决了模型优化中的可解释性需求,还解决了领域和任务可解释性标准合并的可解释表示的概念。

有几个将 LIME 与常见的数据科学包(如 Scikit-Learn 或 XGBoost)结合使用的例子。在这里你可以用 Scikit-Learn 和 LIME 检查一个关于人工智能可解释性的实际例子。

ou 也可以深入看看 LIME 的工具,在他们的 Github LIME 上。

TF-解释你的模型!

Tf-explain 是一个提供可解释性方法的库。Tf-explain 实现了可解释性方法,同时利用 Tensorflow 2.0 回调来简化神经网络的理解。这个有用的包是由 Sicara 提供给我们的。

该库旨在提供可解释性方法的完整列表,可直接用于您的 Tensorflow 工作流程:

tf-explain 中实现的方法都是从文献中已知的,如激活可视化、Grad Cam、遮挡敏感度或香草梯度。所有这些风格都是为了图像的可解释性,但是表格数据和时间序列呢?

如果……

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可解释人工智能的假设解决方案界面。来源

如果为了更好地理解 TensorFlow 模型的输出,存在一个具有酷的交互式可视界面的框架,会怎么样?假设工具正是如此。假设您需要分析一个先前部署的模型,您可以,不管它是使用 Tensorflow 还是其他包(如 XGBoost 或 Scikit-Learn)开发的模型。

除了在部署后监控模型之外,您还可以按要素对数据集进行切片,并跨不同切片比较性能,同时确定模型在哪些子集中性能更好或最差。这不仅有助于你的模型的可解释性,也为研究和理解诸如偏见和数据公平性等主题提供了机会。

在这里,您可以查看一个在 Google Colab 中使用的假设分析工具的示例。

最终韧性

毫无疑问,可解释性是一个重要的话题,将成为未来几年公司首先关注的问题之一,这不仅是因为法规,还因为社区和个人对基于人工智能的解决方案的潜力越来越了解和敏感。

然而,尽管过去几年在人工智能可解释性方面已经取得了重大而有趣的进展,但关于如何将获得的解释应用于实践,在方法和理论上仍有挑战需要解决——例如,解释必须超越可视化和对解释质量的客观评估!

可解释方法允许我们深入了解人工智能模型是如何工作的。但是我们寻找的所有答案都是模型工作的方式吗?或者数据质量和可解释性可以发挥巨大作用?

法比亚娜 是 CDOy data

人工智能的改进和合成数据

YData 为数据科学家提供了一个以数据为中心的开发平台,致力于高质量的合成数据。

机器学习算法如何包含更好的因果关系?

原文:https://towardsdatascience.com/how-can-machine-learning-algorithms-include-better-causality-e869ca60e54d?source=collection_archive---------34-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用因果建模工具进行因果发现

近年来,机器学习算法取得了巨大的成功。由于大量数据的可用性和计算速度的提高,它们已经超过了通常的统计方法。

然而,随着我对它们如何工作以及如何应用的了解越来越多,我发现了一个令人惊讶的事实:这些算法大多专注于做出最准确的预测或分类,而不是证明因果关系。

然而,这种关系在决策中至关重要,尤其是在健康、社会或行为科学领域。

考虑以下问题:

  • 尼古丁贴片在减少人们吸烟习惯方面有多有效
  • 重建政策对贫困地区的发展有什么影响?
  • 上一个营销公司对销售增长的贡献有多大?

你可以看到这些问题是因果问题而不是联想问题。他们不仅需要证明因果关系,而且需要量化它。

大多数情况下,使用实验干预:分析师进行调查,收集数据,并用复杂的统计方法进行分析。然而,这些实验在时间和金钱上都很昂贵,在某些情况下甚至会引发伦理问题。

此外,当谈到机器学习算法时,它们通常受到 3 个主要原因的限制:

  1. 缺乏适应新环境的能力他们没有接受过训练
  2. 有限的可解释性因为他们给出的预测或建议背后的理由很少,这可能会导致用户的不信任
  3. 不了解因果关系

那么,有没有其他替代方案呢?

在本文中,我将与您分享我对一些重要的因果建模工具的主要发现,如结构模型、因果图及其关联逻辑。

阅读本文后,您将了解到:

  • 因果推理有哪些不同的层次?
  • 如何通过图形学习一个因果结构?
  • 如何量化因果关系?

相关性并不意味着因果关系

在开始之前,有必要重温一句众所周知的格言:相关性不是因果关系。这意味着你不能仅仅因为观察到两个变量之间的相关性就合理地推断出它们之间的因果关系。

为了说明这一点,让我们考虑一下梅瑟利在 2012 年发表在他的论文巧克力消费、认知功能和诺奖得主 ( 全文在此)中的下图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如作者所指出的,一个国家的巧克力消费水平与其人口的认知功能之间存在相关性(r=0.791,p <0.0001). Does it mean that eating more chocolate would make smatter? Unfortunately, probably not!

To put it more precisely, if two random variables XY 在统计上是相关的 (X ⊥ Y) ,那么要么:

  • X 原因 Y
  • Y 原因 X
  • 存在第三个变量 Z 导致 XY 。在这种情况下, XY 成为独立给定的 Z ,即 X ⊥ Y | Z

这被称为共因原则,由赖欣巴哈于 1956 年提出。

因此,为了真正调查巧克力消费的影响,有必要进行一项实验。例如,这需要强迫一个国家吃更多的巧克力,并观察这是否会导致更多的诺贝尔奖获得者。

如你所见,实验是不可能的。当涉及到健康问题时,它甚至会引发伦理问题。因此,需要其他工具来证明因果关系。

因果推理的阶梯

正如 Pearls 在他的因果推理工作中所发展的那样,因果信息可以分为三个层次。

  1. 联合
  2. 干涉;干预
  3. 反事实

这种层次结构有助于了解每类信息可以回答什么样的问题。

让我们进一步发展每个级别…

1.联想或观察

这是第一级,也是最基本的一级。它依赖于使用可用数据的纯统计关系。

例如,购买面粉的顾客很可能也会购买黄油。这种关联可以使用条件概率和来自观察数据的期望直接建立。如果 x 是购买的面粉数量, y 是黄油数量,那么我们就可以根据数据计算出 P(y|X=x)

目前的机器学习方法非常适合回答这种任务。人们可以想到亚马逊和类似公司使用的推荐引擎的有效性。然而,他们的结果很少告诉我们变量之间的实际统计相关性。

2.干预还是行动

这一层次高于联想,因为它不仅在于观察数据,而且在于改变数据。

例如,在我们之前的案例中,有必要进行干预来回答以下问题:如果我们将面粉价格提高两倍会发生什么?

由于价格的这种上涨可能会导致顾客行为的改变,所以不可能仅仅从观察到的数据来回答这个问题。如果 x 是购买面粉的数量 to, y 是黄油的数量,那么我们要计算 P(y|X=do(x)) ,其中 do 表示我们已经干预将 X 的值设置为 x

重要的是要记住,当存在共同基础时,即一个变量同时影响因变量和自变量时:

P(y | X = do(X))≠P(y | X = X)

为了说明这一点,考虑顾客购买面粉和黄油只是为了烤一个蛋糕。面粉价格的上涨会使他们根本不去烘焙。

3.反事实还是想象

最后一层由反事实来代表。他们回答了一个典型的问题:如果我采取不同的行动会怎样?因此,他们依赖追溯推理。

例如,我买的面粉的数量是我买了很多黄油的唯一原因吗?还是因为最近的促销?

如果 x 是购买的面粉的数量 to,而 y 是黄油的数量,那么我们要计算 P(y|x’y’) ,即假设我们实际观察到的 Xx 和*,那么事件 Y = y 被观察到的概率*

请注意,可以回答反事实问题的模型也可以回答关于干预和观察的问题。这种可能性在相反的方向上不起作用。这就是为什么反事实被放在层级的顶端。

因果发现方法

既然我们已经确定并分类了不同的因果推论,让我们把注意力集中在建立它们的主要方法上。

为此,我们将首先讨论用于建模因果结构的图形模型和用于学习它们的算法。然后,我们将描述量化这种因果关系的方法。

本节末尾将提供一个总结图来综合要点。

通过图形模型对因果结构进行建模

图形模型可以被认为是给定概率分布的依赖结构的映射。

在进入技术细节之前,必须区分两种情况:

  1. 情况 1: 数据集不包含任何省略变量选择偏差
  2. 情况 2: 数据集包含省略变量或/和选择偏差

情况 1:没有遗漏变量,也没有选择偏差

因果结构可以通过**有向无环图(DAG)可视化。**它是一个由图组成的数学工具,即由节点和有向边组成,不包含任何循环。

然而,相同的数据集及其变量之间的条件(不)依赖关系可能导致多个 DAG

让我们考虑下面的例子:我们想找出影响学生成绩的主要因素,并衡量其效果。为了简单起见,我们只取 3 个变量: X 数学的课时数(包括家里的个别课), Y 学生家到学校的距离,Z 学生的数学成绩。我们可以假设 X ⊥ Y | Z

这种假设导致 3 种可能的 Dag:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2 —作者的插图

这就是为什么有必要引入一个额外的概念:等价类。这是一组骨架相同但边缘标记不同的图形。DAG 的等价类叫做完全部分有向无环图(CPDAG)。

在 3 个变量的情况下,很容易得出节点的条件(不)相关性。但是当图形包含很多变量时,就需要引入一个额外的工具: d-separation

我们来定义 d-分离:
两个节点 X 和 Y 是d-可分离的L 组成的一组节点,如果条件作用于 L 中的所有成员,就阻塞了两个节点之间的所有路径。

为了说明这一点,这里有两个例子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3—作者的插图

因此,d-分离的概念为我们提供了定义在图上的(不)依赖关系,这些关系反映了变量之间的条件(不)依赖。

如何基于给定数据集学习 DAG 图?

一个众所周知的算法, **PC 算法,**在 R 包 pcalg 中提供。基本上,它从一个完整的无向图开始, *G0,*并执行一系列删除边的条件独立性测试。这就引出了骨架。然后,基于保存在条件集中的信息来引导骨架。

但是,可能会出现两个问题:

  • 隐藏变量或混杂变量,即不包括影响变量的变量
  • 由于变量和样本的选择而产生的选择偏差

情况 2:省略变量和选择偏差

在这种情况下,我们需要找到一个结构,在给定所选变量的情况下,表示观察变量之间的所有条件独立关系。这意味着我们需要边缘化所有的潜在变量,并能够可视化的条件独立,只有在观察到的变量。

由于边限下 Dag 是不闭合的,我们需要使用另一类图:(MAG)。这个类允许对应于条件独立性的丢失边。同样,部分祖先图 (PAG)是 a MAG 和m-分离的等价类,是 d-分离的推广。**

如何基于给定数据集学习 MAG 图?

学习 MAG 可以通过 FCI 算法(“快速因果推断”)来完成,该算法使用与 PC 类似的方法,但具有更多的条件独立性测试和更多的方向规则。也可以使用 RFCI 算法(“真正快速的因果推断”),这种算法速度更快,但输出的信息通常略少。两种算法均可在 R 封装 pcalg 中获得。

因果效应估计

***仅仅观察数据并不能使我们量化一个变量对另一个变量的因果影响。*要做到这一点,我们需要测量 Y 的状态,如果 X 被迫取值 x 并将其与 Y 的值进行比较,如果 X 被迫取值 x + δ我们依靠这个对 P(y|X=do(x))的分布。

当没有隐藏变量和选择偏差时,并且当因果结构是已知的 DAG 时,可以通过使用由 Pearl 开发的被称为“do-calculus】的一组推理规则来获得关于介入分布的信息。

实际上,因果结构很少为人所知。然而,通过考虑真实因果 DAG 的等价类并在等价内的每个 DAG 上应用 do 演算,仍然有可能进行估计。这给了我们一个有用的近似值。

这些想法被纳入了 IDA 方法(当 D AG 为 a bsent 时 I 介入演算)。

主要发现

想法:机器学习算法必须超越预测,才能真正评估因果关系,回答因果问题。

这一点非常重要,主要有三个原因:

  1. 能够适应他们没有接受过培训的新环境****
  2. 提供更多关于他们预测或建议的解释****
  3. 提供对感兴趣变量之间因果关系的理解****

在这种情况下,因果推理通过模拟干预的结果和形式化反事实推理超越了预测。

下图提供了本文中讨论的主要工具和算法的总结。****

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4——摘要图,作者的说明

参考

[1] J. Pearl,因果推理的七个工具,以及对机器学习的反思,ACM 通讯,2019 年 3 月

[2] F .达布兰德, 因果推理导论 ,2019 年 11 月 30 日

[3] K. Binz, 用 pcalg 进行因果推断2014 年 4 月 9 日

[4] M. Kalisch 等人, 【用 R 包的图形模型进行因果推断】pcalg ,统计软件杂志,2012 年 4 月

注意:本文旨在涵盖理论概念,并根据网上提供的信息展示实际操作示例。

如何在你的机器学习模型中考虑可解释性?

原文:https://towardsdatascience.com/how-can-we-build-explainable-ai-f79f4a134406?source=collection_archive---------48-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源

理解模型行为、解释预测和构建可信模型的分步指南

为什么还要谈赛?

随着 AI 模型越来越复杂,以及这些模型在现实应用中的使用,这些 AI 模型对我们生活的影响是不可估量的。可以毫不夸张地说,这些人工智能模型比我们自己更了解我们!虽然这很惊人,但同时也很可怕。随着算法复杂性的增加,我们正在付出降低可解释性和信任度的代价。这意味着一个模型越复杂,我们越不可能理解它是如何工作的。这是这些人工智能模型被称为黑盒的主要原因:我们不知道这些复杂算法背后的原因。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

准确性与可解释性。来源:ExplainX.ai 内部

现实是,这些算法正在成为我们日常生活的一部分:从脸书新闻供稿到抖音,再到我们最近的在线信用卡应用,这些交互都是由强大的人工智能算法驱动的——其中大多数是黑盒。当我们在关键任务用例中积极使用这些算法时,如预测癌症或事故,或根据代表它们的文本评估候选人,我们需要框架和技术来帮助我们导航和打开这些黑盒。

简而言之,模型开发人员需要回答这五个主要问题:

  1. 为什么我的模型会给出这个预测?
  2. 我的模型预测与业务/领域逻辑一致吗?如果答案是否定的,那么识别并处理那些更有分量的不相关的特征。
  3. 我的模型行为在不同的数据子集之间是一致的吗?如果答案是肯定的,那么比较和对比,以确定行为在哪里以及如何变化。
  4. 我的模型是否偏向数据集内的某个特定特征?如果答案是肯定的,那么找到偏见在哪里,并消除它?
  5. 我能做些什么来影响预测,或者我能采取什么行动来实现理想的结果?
  6. 可选:我的模型是否支持审计以符合法规要求? (相关主要针对金融机构)

数据科学家或模型开发人员的角色是自信地回答所有这些问题。负责任地构建这些算法、消除偏见、理解模型行为并确保信任是数据科学家需要完成的核心任务。

我们开始行动吧!

鉴于 xAI 日益增长的重要性,我提供了一个模型可解释性框架来确保 ML 生命周期中的可解释性和公平性。

请注意,我不会在这篇文章中深入探究各种可解释性技术,但是我会发表一系列文章和视频,以一种彻底而有趣的方式介绍可解释性概念。敬请关注。

为了避开框架的范围,我将只关注机器学习生命周期的模型构建&验证阶段。我还假设您已经定义了用例,准备了数据,现在准备好构建模型。

在模型构建和验证阶段,您必须实现两个个人目标:

信心:确保你的模型健壮、可靠、公正。
沟通&信任:与利益相关者分享模型见解

这是五步框架:

  1. 从可解释的模型开始,逐步发展到黑盒模型
  2. 定义测试用例以及边缘用例
  3. 使用可解释性技术来理解模型行为,消除偏见并解释预测——利用 解释
  4. 通过交互式仪表盘建立叙述并与利益相关方交流结果
  5. 通过反馈改进你的模型

首先,在高风险的环境中,即使是一个小小的错误也会产生巨大的影响,或者会花费大量的金钱,你应该总是从可解释的模型开始。从黑箱模型开始通常是一场艰苦的战斗。

不管您决定使用哪种类型的模型,从定义测试用例开始——模型应该按照预期行为的用例集。做这个练习来验证你的模型。这一步还需要与其他拥有领域和业务知识的利益相关者合作。

在定义了测试用例之后,更进一步,构建边缘用例——模型行为特别不确定或出乎意料的用例集。对你的机器学习模型进行压力测试是一个很好的策略。

接下来,你应该采用模型不可知的可解释性技术,如 SHAP、反事实、代理决策树、原型或 IG。这些方法提供了全局级别(解释整个模型)和局部级别(模型做出的单个预测)的解释。

不幸的是,有这么多的技术,选择一个正确的是压倒性的。一旦确定了可解释性方法,您就必须对其进行编码、定制以适应您的模型和数据、修复过程中的任何错误、优化速度并使用其他工具集来可视化结果。

每种不同的技术都有自己的挑战。幸运的是,你可以使用explainex,这是一个开源的可解释人工智能库,它在一个屋檐下提供了最先进的模型可解释性技术,并且只需一行代码就可以访问它们——节省了你大量的编码、调试和工作时间。

通过使用这些可解释性技术,您应该从四个方面来描述您的模型:

  1. 关注整体模型行为
  2. 关注实例
  3. 关注特性
  4. 关注车型对比

这些镜头中的大部分都非常简单,但是你也应该把重点放在特征上,以便更好地理解你的模型。通过分析特征排名,您可以快速测试模型的合理性和适用性。此外,解释一个模型是有帮助的,但是比较和对比两个或更多的平行模型更有效。它帮助您逐步构建、比较和完善您的模型。

在你从多个角度理解了你的模型之后,是时候与利益相关者交流你的叙述了。这里的目标是通过反馈改进你的模型,并获得他们的信任。请记住,交流将是反复的,反馈对于帮助您进一步优化模型性能至关重要。

理想情况下,使用利益相关者可以理解的语言和表示来共享具有洞察力的交互式仪表板。利益相关者应该能够无缝地添加他们的评论或要求澄清。

让那里有光

坚持到最后的荣誉。解释和调试黑盒机器学习模型是一项艰巨的任务。但是有了正确的框架和解释技巧,你很快就能做到。对你来说好消息是:explax是开源的。

在下一篇文章中,我将分享一个部署、维护和使用阶段的可解释性框架。

在那之前,让那里有光。

我们如何消除人工智能算法中的偏见?钢笔测试宣言

原文:https://towardsdatascience.com/how-can-we-eliminate-bias-from-ai-algorithms-the-pen-testing-manifesto-4b09974e8378?source=collection_archive---------46-----------------------

苹果、高盛和威斯康星州立大学被指控使用有偏见的人工智能。我们能保证人工智能没有偏见、种族主义和成见吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图像来源:像素

信用评分 AI 中的性别偏见?

几个月前,美国的许多苹果卡用户报告说,尽管他们和他们的伴侣拥有相同的收入和信用评分,但他们的品牌信用卡却被分配了非常不同的信用额度(见 BBC 文章)。苹果公司的联合创始人史蒂夫·沃兹尼亚克在推特上写道,他的信用卡信用额度是他妻子的十倍,尽管这对夫妇在他们所有其他的信用卡上都有相同的信用额度。

金融服务监管机构纽约金融服务部正在调查用户性别可能是造成差异的原因的指控。苹果热衷于指出高盛对算法负责,这似乎与苹果的营销口号“由苹果创造,而不是银行”不一致。

由于监管机构的调查仍在进行中,还没有证据表明存在偏见,所以我在这篇文章中只是假设性地写了些东西。

司法系统使用人工智能的偏见

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:像素

苹果卡的故事并不是最近算法偏差登上头条的唯一例子。去年 7 月,美国全美有色人种协进会(全国有色人种协进会)签署了一份声明,要求暂停使用自动化决策工具,因为其中一些工具被证明在用于预测累犯率——换句话说,预测罪犯再次犯罪的可能性——时存在种族偏见。

2013 年,埃里克·卢米斯被判处六年监禁,此前威斯康星州使用了一个名为 COMPAS 的程序来计算他再次犯罪的几率。COMPAS 是一种专有算法,其内部工作原理只有其供应商才知道。卢米斯试图在威斯康星最高法院挑战该算法的使用,但他的挑战最终被驳回。

不幸的是,诸如此类的事件只会恶化人工智能作为一种危险工具的广泛看法,它不透明,监管不足,能够编码最糟糕的社会偏见。

一个人工智能怎么会有偏见、种族歧视或偏见?哪里出了问题?

我将在这里集中讨论贷款申请的例子,因为这是一个比较简单的框架和分析问题,但我提出的观点可以推广到任何类型的偏见和受保护的类别。

我想首先指出,我强烈怀疑苹果或高盛的任何人坐下来制定了一套明确的规则,在贷款决策中考虑性别因素。

首先,让我们想象一下,我们正在创建一个预测一个人拖欠贷款概率的机器学习模型。有一些“受保护的类别”,比如性别,我们不允许歧视。

开发和训练贷款决策人工智能是 Kaggle(一个让你参与数据科学竞赛的网站)上经常出现的那种“香草”数据科学问题,有抱负的数据科学家可以期待在工作面试中被问到。制造机器人信贷员的方法如下:

假设您有一个 10,000 行的大表,都是您的银行过去见过的贷款申请人的信息:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

潜在贷款申请人的数据表示例。

最后一列是我们要预测的。

您可以将这些数据分成三组,分别称为定型集、验证集和测试集。

然后,您选择一种机器学习算法,如线性回归、随机森林或神经网络,让它从训练行中“学习”,而不让它看到验证行。然后在验证集上测试它。对不同的算法进行清洗和重复,每次都调整算法,最终部署的模型是在验证行中得分最高的模型。

完成后,您可以在测试数据集上测试您的模型,并检查其性能。

删除一列并期望偏见从人工智能中消失的谬论

现在,很明显,如果“性别”列出现在训练数据中,那么就有建立有偏见的模型的风险。

然而,苹果/高盛的数据科学家可能从一开始就将该列从他们的数据集中删除了。

那么,数字货币贷款人怎么还会有性别偏见呢?我们的算法肯定没有性别歧视,对吧?毕竟,它甚至不知道申请人的性别!

不幸的是,与直觉相反的是,偏见仍然有可能蔓延开来!

我们的数据集中可能有代表性别的信息。例如:目前工作的任期,薪水,尤其是职称都可能与我们的申请人是男是女有关。

如果有可能在你的净化数据集上训练一个机器学习模型,以任何准确度预测性别,那么你就在冒你的模型意外带有性别偏见的风险。您的贷款预测模型可以学习使用数据集中关于性别的隐含提示,即使它看不到性别本身。

无偏见人工智能宣言

我想对人工智能开发的工作流程提出一个补充:我们应该从不同的角度攻击我们的人工智能,试图在部署它之前发现任何可能的偏差。

仅仅从数据集中删除受保护的类别,掸掉手上的灰尘,然后认为“任务完成”是不够的。

人工智能偏向笔测验

当我们开发一个人工智能时,我们也需要唱反调,而不是试图消除偏见的原因,我们应该试图证明偏见的存在。

如果你熟悉网络安全领域,那么你应该听说过笔式测试或渗透测试的概念。一个没有参与开发您的系统的人,可能是一个外部顾问,试图入侵您的系统来发现漏洞。

我建议我们应该引入人工智能笔测试:一种类似于发现和消除人工智能偏差的笔测试:

人工智能笔测试会涉及到什么

为了测试人工智能的偏见,外部人员或内部数据科学家(不参与算法开发)将尝试建立一个预测模型来重建被删除的受保护类别。

所以回到贷款的例子,如果你从数据集中删除了性别,测试笔的人会尽最大努力建立一个预测模型把它放回去。如果他们能够以任何程度的准确性重建性别,反映出如果你无意中推出了性别歧视的贷款预测模型,你本来会花在损失控制上的钱,或许你应该给他们奖金。

进一步的人工智能偏差压力测试

除了上面的笔测试,我建议进行以下进一步检查:

  • 将数据按性别分类。
  • 评估每个性别的模型的准确性。
  • 识别任何高估或低估任一性别违约概率的趋势。
  • 根据性别确定模型准确性的任何差异。

进一步措施

我还没有谈到人工智能偏见的一些更明显的原因。例如,训练数据本身可能是有偏差的。在刑事司法系统中使用的一些算法的情况下,这是非常可能的。

如果你发现了偏见,该怎么办?

让我们假设你已经发现你训练的算法确实表现出对性别等受保护类别的偏好。减轻这种情况的方法有:

如果 pen-test 显示另一个输入参数(如职位)作为性别的代理,您可以删除它,或者尝试模糊它与性别相关的方面,或者进一步净化数据,直到 pen-tester 无法重建性别。您可以对 pen-test 的结果进行反向工程,以人为改变您的训练数据,直到性别不再可发现。您可以手动纠正模型的内部工作方式来补偿偏差,也可以检查训练表中的偏差。如果你的人工智能从有偏见的数据中学习,那么我们不能期望它是无偏见的。如果你对女性的预测不如男性准确,那么很可能你对男性的训练数据比女性多。在这些情况下,您可以使用数据扩充:复制数据中的每个女性条目,直到您的训练数据集达到平衡。您还可以为代表性不足的类别收集额外的训练数据。你可以试着让你的模型变得可以解释,并找出偏见在哪里蔓延。如果你对机器学习可解释性的更多细节感兴趣,我邀请你也阅读我之前关于可解释 AI 的帖子。

题外话…招聘中的偏见?

我有兴趣进一步研究这种方法的一个应用,就是如果你在招聘中使用机器学习,如何消除偏见。想象一下,你有一个将简历与工作匹配的算法。如果它无意中发现了人们简历中与产假以及性别相对应的空白,我们就面临着歧视性人工智能的风险。我想这可以通过上面的一些建议来弥补,比如调整训练数据和人工消除这种信号。我认为笔式测验将是应对这一挑战的有力工具。

公司如何避免偏见再次出现?

如今,大公司非常清楚不良公关传播的可能性。因此,如果 Apple Card 算法确实有偏差,我很惊讶在发货前没有人更彻底地检查算法。

贷款限额因性别而相差 10 倍是一个惊人的错误。

如果参与贷款算法的数据科学家,或者威斯康辛州使用的累犯预测算法,按照我上面的清单对他们的算法进行钢笔测试和压力测试,我想他们会在公关灾难有机会成为头条新闻之前发现它。

当然,事后指责很容易,大工业中的数据科学领域还处于起步阶段。有人会称之为监管不足的西部荒原。

我认为,我们也可以感到高兴的是,医疗保健等一些保守行业尚未在重要决策中采用人工智能。想象一下,如果黑色素瘤分析算法或羊膜穿刺术决策模型被证明有种族偏见,会有什么后果。

出于这个原因,我强烈建议将算法发布到野外以做出重要决策的大公司开始分离出一个数据科学家团队,他们的工作不是开发算法,而是对算法进行笔测试和压力测试。

开发模型的数据科学家承受着太多的时间压力,无法自己完成这项工作,正如网络安全行业通过多年的经验发现的那样,有时最好让外部人员唱反调,试图打破你的系统。

参考

[1] S. Natarajan 和 S. Nasiripour,关于 Apple Card 的病毒推文导致高盛调查 (2019),彭博

[2] 苹果“性别歧视”信用卡被美国监管机构调查 (2019),BBC

[3] 州诉卢米斯 (2017),《哈佛法律评论》

如何解释图形神经网络—gnnexplaner

原文:https://towardsdatascience.com/how-can-we-explain-graph-neural-network-5031ea127004?source=collection_archive---------18-----------------------

PyTorch Geometric 中实现的节点和图形解释的 GNNExplainer 的分步指南。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:马努奇通过皮克斯拜

图形神经网络(GNN)是一种可以直接应用于图形结构数据的神经网络。我之前的帖子简单介绍了一下 GNN。读者可以通过这篇文章了解更多细节。

许多研究工作显示了 GNN 理解图形的能力,但是 GNN 是如何工作的以及为什么工作的对大多数人来说仍然是一个谜。与 CNN 不同,在 CNN 中,我们可以提取每一层的激活来可视化网络的决策,而在 GNN,很难对网络学习了什么功能做出有意义的解释。为什么 GNN 确定一个节点是 A 类而不是 B 类?为什么 GNN 确定一个图形是化学物质还是分子?似乎 GNN 看到了一些有用的结构信息,并根据这些观察做出了决定。但现在的问题是,GNN 看到了什么?

GNNExplainer 是什么?

本文中介绍了 GNNExplainer。

简而言之,它试图建立一个网络来学习 GNN 人所学的东西。

GNNExplainer 的主要原理是减少图中不直接影响决策的冗余信息。为了解释一个图,我们想知道图中影响神经网络决策的关键特征或结构是什么。如果一个特性很重要,那么预测应该通过删除或用其他东西替换这个特性来进行很大程度的修改。另一方面,如果移除或更改某个特征不会影响预测结果,则该特征被视为不重要,因此不应包含在图表的解释中。

它是如何工作的?

GNNExplainer 的主要目标是生成一个最小图来解释一个节点或一个图的决策。为了实现这个目标,该问题可以被定义为在计算图中找到一个子图,该子图使用整个计算图和最小图来最小化预测分数的差异。在本文中,这个过程被公式化为最大化最小图 Gs 和计算图 G 之间的互信息(MI ):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此外,还有一个次要目标:图形需要最小化。虽然在第一个目标中也提到了,但是我们也需要一个方法来制定这个目标。该论文通过增加边数的损失来解决这个问题。因此,GNNExplainer 的损失实际上是预测损失和边缘尺寸损失的组合。

解释任务

本文讨论了三种类型的解释:一个节点的解释、一类节点的解释和一个图的解释。主要区别在于计算图表。

对于单个节点的解释,计算图是其 k 跳邻居,其中 k 是模型中的卷积数。

对于一类节点的解释,建议选择一个参考节点,用同样的方法计算解释。可以通过取其特征最接近具有相同类别的所有其他节点的平均特征的节点来选择参考节点。

为了解释整个图,计算图成为图中所有节点的计算图的并集。这使得计算图等同于整个输入图。

面罩接近

最小图 Gs 的学习是通过学习用于边的掩码和用于特征的掩码。也就是说,对于计算图中的每个边,在 edge_mask 中存在确定边的重要性的值。同样,对于结点要素中的每个要素,feature_mask 确定该要素对于最终决策是否重要。

简短的摘要

有了这些概念,我们可以为 GNNExplainer 总结一切:

  1. 我们需要提取计算图,它是节点分类的 k 跳邻居,或者是图分类的整个图。
  2. 为计算图中的每条边初始化一个 edge_mask,为每个特征尺寸初始化一个特征 mask。
  3. 构建一个神经网络,该网络学习具有上述损失的边缘 _ 掩码和特征 _ 掩码。
  4. 使用 edge_mask 和 feature_mask 将计算图形缩减为最小图形。

在 Pytorch 中实现 GNNExplainer

这就是我们在实现 GNNExplainer 之前需要知道的一切。综上所述,我们正在尝试学习边 _ 掩码和节点 _ 特征 _ 掩码,它们从计算图中移除一些边和特征,同时最小化预测得分的差异,所得的图是解释节点或图的决策的最小图。

我将在 Pytorch Geometric(PyG)中实现这一点。PyG 的一个很大的优点是它更新非常频繁,并且有许多当前模型的实现。令人惊讶的是,我发现 GNNExplainer 已经在 PyG 库中实现了,这节省了我很多时间。尽管它只适用于节点解释,但由于它是开源的,因此不难将其修改为也适用于图形解释。

节点解释器

首先,我们需要安装 PyG。GNNExplainer 目前还没有发布(PyG 1.4.4 ),但是代码已经在 Github 中发布了。所以要获得 GNNExplainer,你必须从他们的 Github 库克隆并从那里安装。

示例代码在 PyG 网站上提供。这很容易理解,所以我不打算在这篇文章中展示代码。但是实现细节是我们想要检查的,并在之后用于图分类。

我将根据我上面的简短总结来追踪代码。示例代码将节点索引以及完整的特征矩阵和边列表传递给 GNNExplainer 模块。

explainer = GNNExplainer(model, epochs=200)node_idx = 10node_feat_mask, edge_mask = explainer.explain_node(node_idx, x, edge_index)

GNNExplainer 中发生的事情正是我们在上一节中讨论的。

  1. 提取计算图

为了解释一个节点,我们首先需要得到它的 k 跳计算图。这是通过PyG 中的 ** 子图 __()** 方法完成的。

x, edge_index, hard_edge_mask, kwargs = self.__subgraph__(
            node_idx, x, edge_index, **kwargs)

hard_edge_mask 移除 k-hop 邻域之外的所有其他边缘。

2.掩码由 set_mask() 方法初始化,并应用于网络的每一层。

self.__set_masks__(x, edge_index) **def** __set_masks__(self, x, edge_index, init="normal"):         
    (N, F), E = x.size(), edge_index.size(1)          
    std = 0.1         
    self.node_feat_mask = torch.nn.Parameter(torch.randn(F) * 0.1)                    std = torch.nn.init.calculate_gain('relu') * sqrt(2.0 / (2 * N))               self.edge_mask = torch.nn.Parameter(torch.randn(E) * std)                  **for** module **in** self.model.modules():             
        **if** isinstance(module, MessagePassing):                          
            module.__explain__ = **True**
            module.__edge_mask__ = self.edge_mask

3.使用经过训练的模型执行初始预测,然后将预测用作标签来训练 GNNExplainer。

*# Get the initial prediction.*         
**with** torch.no_grad():             
    log_logits = self.model(x=x, edge_index=edge_index, **kwargs) 
    pred_label = log_logits.argmax(dim=-1) # Train GNNExplainer **for** epoch **in** range(1, self.epochs + 1):                  
    optimizer.zero_grad()             
    h = x * self.node_feat_mask.view(1, -1).sigmoid()             
    log_logits = self.model(x=h, edge_index=edge_index, **kwargs)              
    loss = self.__loss__(0, log_logits, pred_label)             
    loss.backward()             
    optimizer.step()

4.损失的定义是

**def** __loss__(self, node_idx, log_logits, pred_label):         
      loss = -log_logits[node_idx, pred_label[node_idx]]          
      m = self.edge_mask.sigmoid()         
      loss = loss + self.coeffs['edge_size'] * m.sum()         
      ent = -m * torch.log(m + EPS) - (1 - m) * torch.log(1 - m + EPS)         
      loss = loss + self.coeffs['edge_ent'] * ent.mean()          
      m = self.node_feat_mask.sigmoid()         
      loss = loss + self.coeffs['node_feat_size'] * m.sum()         
      ent = -m * torch.log(m + EPS) - (1 - m) * torch.log(1 - m + EPS)         
      loss = loss + self.coeffs['node_feat_ent'] * ent.mean()          **return** loss

图形解释器

目前的实现是 PyG 只是为了节点解释。但是理解了背后的原理,重新编写图形解释函数就不难了。

我们只需要替换几个函数:1)我们需要替换 subgraph function 来获得整个图的计算图。2)我们需要为整个图形设置遮罩。3)我们需要改变损失函数来计算图的损失。

完整的代码实现可在这个 Github 链接获得。

结论

GNNExplainer 提供了一个框架来可视化一个 GNN 模型学到了什么。然而,实际的解释结果可能不足以解释一个巨大的图形,因为最佳解释的搜索空间比一个较小的搜索空间大得多。除了拟合神经网络之外,也可以应用其他搜索技术来寻找借用相同概念的最佳解释,并且性能还有待证明。

参考:

GNNExplainer:为图形神经网络生成解释,https://arxiv.org/abs/1903.03894

Pytorch 几何,https://pytorch-geometric.readthedocs.io/en/latest/

我们如何影响幸福?

原文:https://towardsdatascience.com/how-can-we-impact-well-being-b19dd7b5c459?source=collection_archive---------23-----------------------

使用机器学习找出从哪里开始

我参加了一个沉浸式数据科学训练营,学习如何更好地利用数据帮助解决 T2 的贫困问题。这个仪表盘(想不到吧?但只有桌面兼容)是在结合了来自 6 个不同来源的 27 个数据集,并使用 Python、Tableau 和优秀的旧 Excel 建立了一个推理(有时是预测)机器学习模型之后的输出。哒哒!

如果你在社会影响/非营利领域和/或数据领域,这篇文章概述了我是如何(以及为什么)着手做这件事的。这本书很长,而且很有技术含量,但我希望它值得你去读。

如果你说“不,去他妈的!”如果你想看看从中有什么发现,直接跳到最后,看看这个模型的发现和局限性。

对于编码人员: 如果你感兴趣,这里有GitHub 链接,包含所有代码、数据和 Tableau 仪表板文件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“奇特”仪表板的快照(如果你之前懒得点击链接)——作者截图

放弃

如果你真的看了一下仪表板,一些警钟可能已经响起。这是公平的。不,我并没有声称已经通过这个仪表盘解决了贫困问题,远远没有。有许多假设、免责声明和不完善之处吞没了它的一切。这也恰好是影响空间的固有性质——很难定义和衡量“影响”

但这并不意味着我们不能尝试。

设置(“为什么”)

我相信,数据是决策的未来。

这种信念驱使我在过去的一年里去伦敦参加了为期三个月的沉浸式数据科学训练营。

我已经,在某种程度上,知道我要做什么——我想专注于解决多维贫困;首先通过我自己的社会企业,然后,如果失败了,通过任何最有意义的方式。

在为非营利组织工作了两年后,我突然意识到,平均而言,impact space 没有足够的技术专长。我记得我工作过的一个组织雇用了一个家伙,给他的电子邮件地址是“fellow3@company.org”。我是“financefellow@company.org”。

我们有很多心脏,但我们没有足够的工程师、数据科学家、财务专家、图形设计师和其他技术人员来有效地运营任何类型的组织。

我不想成为那种陈词滥调。我喜欢数据,如果我要创办一家社会企业,我希望站在最新科技的前沿,而不是落后。

问题是

T2 有超过 13 亿人处于多维贫困状态。这个“多维”的东西是什么意思?这就是——贫困的概念有多个层面——健康、教育、生活水平和往往无法衡量的层面——尊严。这不像 T4 极端贫困那么简单,极端贫困是指每天收入低于 1.90 美元的所有人。

我们如何尽快解决这个问题?在过去的几十年里,贫困已经大大减少,但仍有很长的路要走。那么,我们如何加快这一进程呢?

多边组织(联合国、世界银行、国际货币基金组织)、各国政府以及通过有争议的企业社会责任方式(仍然有效)做了很多工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

这些玩家也在收集大量数据——不一定干净或容易收集,但确实有数据。

不过,我的假设是,这种高水平的全球数据还没有足够的综合。从上面倒过来的蓝色三角形可以看出,这就是需要更多关注的差距。这是连有效利他主义运动都认为是正确的——全球优先研究是影响空间最紧迫的问题之一。

那么,综合所有的全局、宏观数据来看,哪些 可控因素 对多维贫困有 最高影响 ?我能使用 机器学习 在数据瀑布中找到任何 有意义的关系吗?

我运行了一个由影响力领域的关键人物组成的焦点小组的问题陈述,这些人是社会企业家和影响力投资者,他们也参与了这场游戏。他们的本能反应是,“等等,什么?”

人们坚信答案就在实地,而不是隐藏在一些收集不当的全球数据中。我不反对这一点。无论数据显示什么,干预措施在大规模实施之前都需要在当地进行测试,特别是因为大多数时候,生命处于危险之中。

此外,还有研究结果的“可移植性”——仅仅因为它在过去或在肯尼亚有效,并不意味着它在今天或在印度也会有效。我并不反对这些。

但如果这个“收集不良”的全球数据给了我们 起点 呢?如果他们给我们比直觉或轶事证据更好的假设来测试呢?我们能否利用机器的力量告诉我们一些大脑无法进行物理计算的事情?

这个想法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

因此,我的想法是尽可能多地收集尽可能多国家的宏观数据,使用回归模型(机器学习)分离出 10-15 个最有效的因素/指标,看看我是否可以再次使用机器学习在这些分离的因素和多维贫困之间建立推理关系(见上图)。然后,当我有了这种关系,创建一个实际上可以被非技术用户使用的仪表板。

听起来很直接,对吧?理论上也许是,但我必须弄清楚很多:

A) 多维贫困的目标变量是什么。我预测/试图理解的度量标准是什么?
B)我可以在哪里找到影响这个贫困指标的所有因素或数据(以及当我找到它时如何合并和清理它)。
C) 如何找到这些可控因素与多维贫困之间的可靠关系。以及如何把所有这些都放到一个漂亮的可用仪表盘上。

a)决定多维贫困的衡量标准

联合国开发计划署有一个多维贫困指数,称为多维贫困指数。你以为我会用这个,对吗?是的,那是计划。但是没有足够的相关年份的数据,没有足够的覆盖国家,计算起来也很复杂。算了吧。

我可以用极端贫困——它很容易得到,有很多数据点,但它是一维的,与我所代表的一切都背道而驰。把那个也划掉。

然后我看到了人类发展指数 (HDI),有种耶稣回来了的感觉。它是多维的,因为它考虑了教育、医疗保健和收入(非常接近 MPI),有许多数据点与它相关联,跨越许多年和国家,并且它相当容易计算。是的,它没有具体衡量贫困,但它确实衡量了幸福,是的,它不是一个完美的衡量标准,但让完美不要成为好的敌人。

哒哒!有时候你需要的只是一点合理化。

b)找到数据(并清理数据)

接下来,我不得不从万维网上搜集数据。我找到了来源。我不得不在某个时候停下来,因为这个数据收集的过程可能是无止境的。最后,我从 6 个不同的来源收集了 27 个数据集的数据,这些数据跨越了 147 个国家 59 年的时间,包含了大约 800 个因素/特征/指标。

****对于 Python 编码人员:有一个很酷的世界银行数据包装器,你可以用它在 Python 本身中进行大量数据提取。另外,你可以在这里找到我收集、清理和合并的所有数据,以及代码(Jupyter 的笔记本叫做“A —合并数据”)。

我知道这听起来令人印象深刻,但其中也有许多垃圾——许多(许多)空值、许多偏差、重复因子和高度相关(彼此密切相关)的因子。所有数据科学家都知道,所有这些都需要处理。这并不总是一个有趣的过程,但它非常重要。

我使用 Python 和 Excel 来清理和合并数据——这并不难。然而,空值是我的数据集中的毒瘤。

在合并和清理(某种程度上)数据之后,它看起来是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者截图

它有超过 800 列和 4000 行,但是正如你所看到的,也有很多空值。空值的问题是,如果任何行或列有空值,它对机器学习不友好。您要么删除空值(并希望留下足够的数据),要么尝试智能地填充它。

我的数据集中有太多的空值,如果我删除所有的空值,我将丢失所有的行和列,也就是所有的数据。那可不行。

所以为了给我的项目带来希望,我必须用一些逻辑来估算值。感谢上帝有了机器学习。我利用机器的力量,根据每个国家可用的其他信息,为那些该死的空值生成近似值。这是一个相当复杂的过程,但这是插补过程后上述相同样本的样子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者截图

现在你可能在想,“等等,什么?你刚刚凭空创造了数据吗?而你要用这些假数据来解决贫困?”

是的,这肯定是一个危险信号,但是有一个解决方法。只要我们使用真实数据来衡量我们的机器学习模型的准确性(即作为“测试”集),我们就可以减轻估算数据导致我们偏离的风险。我们会继续讨论这个问题。

对于 Python 程序员: Sklearn 有一个令人难以置信的迭代估算器,它仍处于实验阶段,但就我的意图和目的而言,它工作得完美无缺。估算器的 sklearn 文档可以在这里)找到,你可以在我的 Github 这里看到我是如何使用它的(在 Jupyter 笔记本“B-输入缺失值”中)。在估算过程中,我必须提取 147 个国家的数据,并估算每个国家的值。上面的文件还包含了与该过程相关的所有函数。

在清理、合并、估算和丢弃空值(甚至不可估算)之后,我的最终数据集是一个整洁的 1,353 行 x 513 列,跨越 46 个国家 28 年,有 500 多个因子/特征。

c)分离出主要因素,并找到与幸福的最佳关系(模型)

现在我们有了数据,是时候进入数据科学的核心了。该过程的第一部分是分离出前 10-15 个因素。为什么?因为如果我要为非编码用户构建一个仪表板,它不可能有 500 个要切换的因素。这可能会让用户精神错乱,但更重要的是,远离我的仪表盘。所以我不得不减少这些因素。怎么会?

我用来筛选这些因素的标准有三点:

  1. 影响力(如果这是一个词的话):这些因素与幸福感的相关性有多强。例如,腐败与幸福更相关(相反)还是与失业更相关?我使用机器学习算法对每个因素的影响进行排序。
  2. 可控性:企业家或个人能在合理的范围内影响这个因素吗?我没有使用任何花哨的数据科学,只是我的直觉。魔法也有其局限性。
  3. 不相关:这些因素可能 而不是 与 HDI(幸福指数)和其他因素密切相关。因为如果他们是,那就太容易作弊了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

****对于 Python 编码人员:为了提取因素的影响,我被限制使用那些推理性的 ML 算法,即那些给我系数或特征重要性的算法。所以我不能使用神经网络或 KNN,但我运行了一系列推理回归器——套索、脊、弹性网、决策树(用 AdaBoost 堆积)和支持向量机。

我的目标变量是 HDI,我的 X(预测矩阵)包含了数据集中所有的 511 个因素。我的测试集主要由真实值(非估算值)组成,这降低了估算数据污染模型的风险。

在运行了所有的模型之后,最好的模型碰巧是 LassoCV(这种情况经常发生),它在测试集上给了我 0.94 的 R2 分数和 0.98 的分数。因为我使用的是年度数据,所以我也运行了时间序列交叉验证,这给了我 0.97 的测试分数。所以,总的来说,模型看起来不错。

你可以在我的 Github 项目页面这里找到这个(在 Jupyter 笔记本“C-挑选预测器&最终模型”里)。

这是一个超级迭代的过程。我运行了许多机器学习模型,每一次,它们都会出现一两个新的因素,要么与人类发展指数的组成部分高度相关(例如,GDP 与用于计算人类发展指数的人均国民总收入高度相关),要么是而不是必然可控的东西(不确定一个企业家如何能够改变大片土地,除非你是迪拜,并且能够建造岛屿)。所以,我不得不放弃这些因素,再次运行模型。再一次。再一次。

另一个问题是,10-15 个因素太少了,所以最终,经过一场木兰式的大规模斗争,我陷入了一个黑洞,有一段时间,我将 511 个因素缩小到以下 19 个因素,这些因素在某种程度上符合我之前强调的标准:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者截图

这些因素/预测因素绝不是完美的,您可以根据自己的喜好插入和使用其他因素,但对于这个练习,这些因素似乎是可行的。

好了,现在进入这一步的第 2 部分——使用这 19 个独立因素建立最终模型。

正如你现在所知道的,我们正试图使用人类发展指数(HDI)作为我们的目标变量来预测福祉。理解 HDI 是如何计算的很重要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

人类发展指数由四个组成指标组成——出生时预期寿命、平均受教育年限、预期受教育年限和人均国民总收入。有一些稍微复杂的公式用于获取这些组件指标并计算 HDI,我们非常欢迎您通过访问这里来探索这些公式。

我们的目标是预测这些指标,然后用这些预测来计算人类发展指数。这将是构建具有孤立(“顶部”)因素的最终模型的基础。它将为每一个将与人类发展指数挂钩的组成指标纳入 4 个微型模型。大概是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

是时候做模特了!

****对于 Python 程序员:这里的护栏是我只能使用一种类型的机器学习算法。这是因为无论我得到什么输出,我都必须能够将其导出到 Tableau 中,以便能够创建一个交互式仪表板。因为我没有的 Tableau 服务器,我用的是的 Tableau Public (免费!!)为了构建 dash,我不能使用 TabPy (一个允许你动态运行 Python 代码并在 Tableau 中显示可视化效果的库/工具)。TabPy(在撰写本文时)只适用于 Tableau 服务器,价格为$$$。这基本上意味着我只能使用线性回归模型,因为线性回归给了我一个方程。一旦我有了这个方程的系数和截距,我就可以将它们导出到一个 CSV 中,并使用它在 Tableau 中构建相同的线性回归方程。是的,这是复杂的,是的,我希望塔比与 Tableau 公共工作。

但你不会放弃,你会适应。

对于那些不熟悉机器学习的人来说,一个用于评估机器学习模型/算法的常见度量标准被称为 R 平方 (R2)。你可以随意阅读更多的相关内容,但是在这篇文章中你需要知道的是,R2 1 分意味着这个模型是完美的,0 分意味着它很糟糕。所以我们希望 R2 分数接近 1

在构建、调整和优化机器学习模型之后,我的模型的最终得分如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

健康的模特,对吧?呜哇!

如果你想知道为什么组件模型的分数比人类发展指数的最终分数低,那是因为这些组件被用来计算其他指数,然后这些指数被加权来计算人类发展指数,在整个过程中,我们的模型在抽象后表现相当好。

****对于 Python 编码者:上面绿色的分数代表只包含真值(非估算值)的测试集的分数。这样做是为了降低在我的训练数据中使用估算值的风险。

对于四个组成模型(预期寿命、平均受教育年限、预期受教育年限和人均国民总收入),我再次使用了 LassoCV。我使用 GridSearch 进一步优化了这些模型。我不得不减少一些因素/特征的偏斜度,通过记录高度偏斜的因素来做到这一点。如果因子的偏斜度大于 1,那么它们就是“高度偏斜的”。

一旦调整了四个模型,我就用它们的预测按照开发计划署的公式计算人类发展指数。然后,我将计算出的人类发展指数数据与实际的人类发展指数数据进行对比,结果显示我的 R2 得分为 0.97。总的来说,分数相当不错。

你可以在我的 GitHub 项目页面这里找到更多细节(在 Jupyter 笔记本“C-挑选预测器&最终模型”中)

模型建立了。分数不错。现在是时候把这个模型输出到一个花哨的画面中了。

d)将所有内容融入 Tableau,构建一个交互式仪表盘

这个仪表板的目标是将机器学习的能力放到一个并不真正知道如何编码的用户手中。如果我能给我的目标受众一个使用起来有些直观的 dash,我构建的机器学习模型将更具可扩展性。

那么谁是我的目标受众呢?主要是社会企业家,其他在影响力领域工作的人是次要的。

这对他们有什么用?也许这能给我的目标受众一个工具,让他们了解不同的可控因素是如何影响幸福的。例如,如果他们减少了 5%的腐败,对福利的大致影响是什么?或者,如果他们将农村电气化提高到 100%,他们所选择的国家的福祉会发生怎样的变化?所有这些都将基于跨越 28 年、涵盖 122 个国家的所有类型的数据,并且将由使用机器学习计算的关系来驱动,这是人类无法在大脑中(或手动或在 Excel 中)完成的。*

显然,这不是一段完美的关系。但正如我前面提到的,这是他们可以用来作为当地基层研究的起点的东西。这就是我打算如何使用它。

在 Tableau 中制作性感的仪表盘相对容易,因为它是一个点击式软件。但是,正因为如此,它也相当严格。因为我使用的是免费的公开版本的软件,所以我能做多少有趣的东西受到了一些限制。

本质上,我必须将机器学习模型从 Python 导出到 Tableau 中可消化的格式。我还必须以这样一种方式构建仪表板,即我可以从用户那里获取信息(或输入)。我想给用户开关,他们可以切换,并立即看到如何改变一个因素会影响福祉。

经过大量的努力,这是的最终输出(你可能一开始就点击了,也可能没有点击,如果你在手机上,肯定没有,因为它只在桌面上有效)。如果你已经看到了这篇文章,我希望你能看看,如果你有任何想法,请不要犹豫,分享出来。它并不完美,有点笨拙,但可能有用。如果是(或者不是),让我知道(或者不知道)。

我自学了 Tableau 如果你愿意花时间,这并不太难。YouTube 上有很多有用的视频,Tableau 自己也有一堆培训材料,这可能是一个很好的开始。你可以在 GitHub 项目页面的上找到我使用的 working Tableau dashboard 文件。

****对于 Python 编码者/ Tableau 专家:前面说过,我受到了 Tableau Public 的限制。如果我有 Tableau Server,我可以使用tabby并利用更复杂的模型。不过最后,我的分数相当不错,所以我并不大惊小怪。的。dash 的 twbx 文件在本项目的 GitHub 页面上。尽情享受吧!

调查的结果

我即将成为一名社会企业家。所以我差不多是这个仪表板的目标受众。我学到了很多。这可能看起来有点争议,但是你必须意识到这并不完美;它应该仅仅是为了缩小进一步的地方、基层研究的起点。

  1. 农村电气化可能改变游戏规则。根据这个模型,它似乎对幸福有最大的影响。对印度来说,如果我们将农村电气化从 77%提高到 100%,我们可以看到整体福利增加两个百分点。
  2. 政府需要在医疗保健上投入更多。这也与幸福感密切相关。对印度来说,如果我们将政府人均医疗支出增加两倍,我们的福祉将提高两个百分点。这看起来很小,但目前印度在人口上的人均支出很少(约 61 美元),而大多数高收入国家的人均支出超过 2500 美元。
  3. ****青春期女性(15-19 岁)的高生育率对幸福有很大的负面影响。这似乎是显而易见的,也是意料之中的,对幸福有着很高的重要性。减少少女怀孕很重要。
  4. 我们需要减少对农业的关注。根据模型,农业、林业和渔业增加值的增加可能导致福利的减少。这似乎有点争议,但它凸显了世界正从一个农业社会转向一个更加以服务为基础的社会。****
  5. 小学入学率不足和教育不平等是真正的福祉障碍。这并不奇怪,教育就是一切——只不过这需要一代人或更多的时间来影响变化。
  6. 依靠政府投资教育可能不是解决问题的办法。再次,有点争议,但似乎政府在教育上的支出与福祉成反比。请注意,根据模型,它是 而不是 一个重要的预测因素,因此它总体上不会对幸福感产生太大影响。
  7. 失业、劳动力参与率和收入不平等对幸福的贡献可能没有我想象的那么大。根据模型,这些对幸福感没有太大影响。这对我来说有点令人震惊,因为这是我想要关注的。我需要重新考虑解决失业和创造就业的影响到底有多大。

限制

正如我在这篇文章中反复提到的,这无论如何都不是一个完美的模型,如果有什么不同的话,它应该作为一个起点。很抱歉打破了记录,但重要的是不要从这个模型中得出结论。原因如下:

  1. 该模型目前可以概括不同国家和日期的情况,可以用更复杂的模型进行改进(想想贝叶斯多元时间序列)。按照这些思路,这种模式可能会遭遇辛普森悖论,这基本上意味着对所有国家都适用的可能对某个特定国家不适用。
  2. 其他因素(被隔离的 19 个因素之外)可以被用来建立具有相似(但不一定相同)精确度水平的模型。
  3. 人类发展指数不是衡量福祉的防弹指标。围绕它的一些组成部分的有用性,如受教育年限和预期寿命,已经有了相互矛盾的发现。

下一步

还记得这个倒三角形吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

我觉得我已经花了相当多的时间在“综合数据以进行高层次的优先排序”上。我现在需要用我从这个练习中学到的东西来思考我将如何在印度做基层研究。

在印度和世界各地已经有很多这样的事情发生了。这种本地方法可以说是最有用和最有影响力的,尤其是在涉及到深刻而持久的变革时。像 J-PALIPAEvidence Action 这样的公司正在进行一些令人难以置信的随机对照试验,这些试验正在改变我们在地方层面做出积极改变的方式。许多草根非营利组织(赤脚大学GiveDirectly )也在直接改善当地的生计。我必须特别向我们的数据世界大声疾呼——他们正在做令人难以置信的事情,综合宏观层面上可用的数据。

所以我现在在印度,试图处理这一切。不打算说谎,我有点被过去两年里我所阅读的所有信息、经历和书籍所淹没。这其中最严重的部分是危险的(但也是重要的)愿望,那就是尽可能地把事情做好,而不要把自己想死。

我需要看看农村电气化是否像模型宣称的那样有影响力。我需要重新评估创造就业和改善劳动力的重要性。如何扭转浪费?它甚至不在模型中,但随着消费主义的增长,浪费也在增加,循环经济的整个困境可能开始变得更有意义。或者不是。

不确定性并不好玩,尤其是当你知道现在不确定性很重要的时候。

一个 poco 一个 Poco。

谢谢你一路读到这里。说真的。把你的电子邮件发给我,我会想办法给你寄一瓶啤酒。但是可能会有测验来过滤掉那些刚刚滚动到末尾的内容。等等,让我建立一个 ML 模型来解决这个问题。机器来了。

********* 将因子从 511 浓缩到 19 后,我有了更多的可用数据,这些数据不必通过删除空值来排除,因为使用的列更少了。**

我们如何利用计算机视觉来强化戴口罩的建议?

原文:https://towardsdatascience.com/how-can-we-reinforce-mask-wearing-recommendations-using-computer-vision-3557a8881dbc?source=collection_archive---------64-----------------------

戴口罩是保护每个人免受冠状病毒感染的最有效和最基本的方法。

活在近代史的历史性时刻难道不应该很牛逼吗?!哦…对了。这是一个疫情。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马丁·桑切斯在 Unsplash 上的照片

我和欧正生活在一个历史性的时刻,2020 年将作为永远改变世界的 2020 年事件而被载入史册。我们这一代是现代瘟疫的一部分,这种瘟疫可能是因为我们撕裂了这个星球而产生的,也可能是在实验室里被设计出来的,也可能只是错误的穿山甲遇到了错误的猪,让我们称之为信仰。你可以自由选择相信什么,但是有一个事实不容置疑:你所知道的生活将会改变很多。冠状病毒也被称为新型冠状病毒病毒,它会留在我们的经济、我们的习惯、我们的恐惧和空气中(?).

但是,嘿,并不是一切都是坏的!有好消息!还记得另一次疫情事件吗?每个人都在谈论“西班牙流感”或“1918 年疫情流感”,那次事件导致大约 5 亿人死亡。从技术上来说,我们要先进得多,我们有人工智能,更快的通讯,社交媒体,更好的理解突破,抗生素,当然还有能力制造疫苗并在世界各地传播,以根除病毒,就像我们对其他病毒所做的那样。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Unsplash 上的融合医学动画拍摄

问题是制造疫苗需要很多时间,一旦临床试验表明疫苗有效,大量生产可能需要大约四年时间。这个时间表包括设计、建造、认证和许可生产设施,然后生产足够数量的疫苗上市。

现在,4 年对于“恢复正常”来说听起来是一段很长的时间,这就是为什么人们在谈论#新正常或#次正常的意思,你可以继续你的生活或业务,但需要一些考虑或措施,如社交距离、手部卫生和使用口罩。这些措施中的一些甚至不是一个建议,它们已经成为法律,并且有一个很好的理由,它们可以帮助减缓传染病并拯救成千上万的人。

但是为什么用口罩遮住脸如此重要呢?

一旦有人被感染,病毒颗粒就会悬浮在我们肺部、口腔和鼻子的体液中。然后,当受感染的人咳嗽时,他们可以将充满病毒的微小水滴喷到空气中。

已经发现 Sars-CoV-2 病毒在这些液滴中存活至少三个小时。但其他非官方研究表明,Sars-CoV-2 病毒在悬浮于气溶胶液滴中超过 16 小时后仍具有传染性。研究发现,与他们研究的其他类似冠状病毒相比,这种病毒“在气溶胶形式下具有显著的弹性”。

此外,研究表明,6 英尺的社交距离政策是不够的,如果即使有微风(约 2 英里/小时),咳嗽产生的飞沫也可以传播到 6 英尺以外。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://news . okstate . edu/articles/communication s/2020/OSU-研究人员-检查-社交-距离-模型-鼓励-谨慎. html

那么我们如何实施其中的一些建议呢?我坚信人工智能可以成为实施这些措施的关键因素,特别是计算机视觉可以用来有效地识别风险。

什么是计算机视觉?它是如何工作的?我喜欢这个定义:

“计算机视觉是人工智能的一个领域,它训练计算机解释和理解视觉世界。使用来自相机和视频的数字图像以及深度学习模型,机器可以准确地识别和分类物体……”

基本上,你使用图像和视频数据来教计算机检测和识别感兴趣的对象。例如,教一个系统识别一个人是否戴着面具。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由朱利安万Unsplash 拍摄

我认为我们可以使用这种经过训练的计算机视觉模型来监控街道,超市和公共交通,公园检测谁戴着口罩,谁没有戴,识别风险并绘制可能是潜在感染焦点的区域。让我们看看它看起来如何像一个被训练来识别“戴面具”的模特:

我认为这个用例有几个方面需要检查:

(任一)战术:一旦发现风险就采取行动,就像未蒙面的访客。例如,商场、超市、学校、办公楼等的入口。可以被摄像机 24/7 全天候监视,寻找对其他人有危险的不戴口罩的人。

(或)战略性的,意思是获取尽可能多的信息,并绘制出需要部署更强控制、通信和更有效执行的高风险区域。通过生成决策数据,政府和私人组织能够优化控制、节省资金,并为人们提供更安全的环境。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

托尼克在 Unsplash 上拍摄的照片

“强制戴口罩”似乎是一个简单的策略,但每个不戴口罩的人都是他人的负担,我们必须明白,这样做是在拯救生命**。**

我相信这场战斗中一个非常强大的盟友当然是人工智能和技术,世界各地的人们都在帮助应用程序、网站、分析模型和难以置信的用例,因为最终我们都在一起。 #StayHome #StaySafe

参考资料:

[## 何时以及如何使用口罩

本文件提供了在社区、家庭护理和卫生保健环境中使用口罩的建议…

www.who.int](https://www.who.int/emergencies/diseases/novel-coronavirus-2019/advice-for-public/when-and-how-to-use-masks) [## 计算机视觉:它是什么以及它为什么重要

计算机视觉是如何工作的,为什么它很重要?在许多情况下,机器可以更多地解释图像和视频…

www.sas.com](https://www.sas.com/en_us/insights/analytics/computer-vision.html) [## 为什么我们都应该戴口罩

口罩是疫情时代的象征——一个潜在的微小的、看不见的病毒敌人的视觉隐喻…

www.bbc.com](https://www.bbc.com/future/article/20200504-coronavirus-what-is-the-best-kind-of-face-mask) [## OSU 研究人员检验社会距离模型,鼓励谨慎——俄克拉荷马州立大学

OSU 研究人员检查社会距离模型,鼓励谨慎疾控中心建议人们保持六英尺的距离…

news.okstate.edu](https://news.okstate.edu/articles/communications/2020/osu-researchers-examine-social-distancing-models-encourage-caution.html)

更多演示:

[## 安德烈斯·比利亚·里瓦斯在 LinkedIn 上:#周末#演示#covid19 | 20 条评论

Otro #周末#家庭演示!我们的吉祥物是一种流行于法国的吉祥物…

www.linkedin.com](https://www.linkedin.com/posts/andresvilla_weekend-demo-covid19-activity-6660928867659771904-7GbJ) [## 安德烈斯·维拉·里瓦斯在 LinkedIn 上:#homeoffice #weekend #demo | 24 条评论

欢迎#homeoffice 在您的#周末#演示中完成工作!!😄·阿奎瓦拉斯·科莫…

www.linkedin.com](https://www.linkedin.com/posts/andresvilla_homeoffice-weekend-demo-activity-6658080161705062400-pVt3)

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

如何提高你的机器学习模型质量?

原文:https://towardsdatascience.com/how-can-you-improve-your-machine-learning-model-quality-b22737d4fe5f?source=collection_archive---------31-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Unsplash 上的 Jp Valery

数据科学家减少分类 ML 模型错误的逐步方法

为什么要看这篇文章?

有时候,你的分类机器学习模型并没有预期的那么好。当面对这种情况时,许多人所做的就是随机或多或少地尝试不同的方法,或者跟着感觉走。它可能是添加更多的数据,尝试一个新的模型,或者调整一些变量,但是有一个选择首先尝试什么的方法是很不寻常的。

本文所展示的正是:根据您所面临的模型错误类型,选择最佳策略的明确定义的方法。

这种方法基于 Coursera 上的结构化机器学习项目课程,但在格式、方法和术语上有所调整。如果你喜欢这篇文章,它可能值得参加这个课程,但是,它不是太长,而且它有一些额外的有用的提示。

一步一步来

您的模型应该符合一些标准才能被视为好模型,通常一次符合一个标准,顺序如下:

  • 很好地适应训练集
  • 很好地适应验证集
  • 很好地安装测试集
  • 在现实世界中表现出色

对于这些步骤中的每一步,都有不同的策略可以让您提高性能,应该相应地应用这些策略。如果您的模型在您的训练集中表现不佳,它在现实世界中表现不佳的可能性很小,因此当您看到事情开始出错时,您应该能够找到错误的来源并首先修复它。

“独一无二的”

为了能够衡量你的模型做得好不好,你应该有一个单一数字评估指标,这个指标将使你能够比较不同的模型。当你开始尝试优化多个指标时,你并没有真正优化,你也不会得到任何客观的答案。

“好吧,但是如果我真的需要不止一个指标呢?”

然后,选择一个单一的数字指标作为你的“唯一”,其他的将成为你的满意度指标,这些指标你将设定一个截止值,但你不必优化。

比方说,你有两个模型,A 和 b。模型 A 有 95%的准确性,它需要 1 秒钟来获得一个新的观察值。模型 B 的准确率为 98%,获得一个新的观察值需要 8 秒钟。

从理论上讲,如果您正在优化准确性,您应该选择模型 b。但是想象一下运行时间对于您的应用程序也很重要,因此您不能拥有一个需要 8 秒钟来对每个观察结果进行评分的模型。但是,只要不到 2 秒,对你来说就没问题。然后,您将优化准确性,运行时间的最大限制为 2 秒,这将导致您选择模型 a。请注意,您可以有多个令人满意的指标。

错误管道

既然你已经有了误差的定义,为了理解它的来源并优化我们选择的度量,我们必须使用一种误差管道将误差分成不同的部分。

人的工作效率

永远不要派人去做机器的工作。—电影《黑客帝国》中的特工史密斯

对于一些任务,如图像识别,我们通常使用人类作为获得模型准确性的基线:如果人类有 1%的错误,通常我们实际上不能期望做得更好。这就是为什么我们使用人的表现作为贝叶斯误差的代理,贝叶斯误差是一项任务的最小理论误差,因此将是我们管道的起点。

模型误差

在定义训练、验证和测试集时,通常会有很多困惑和争论,但我认为行业标准倾向于使用训练用于训练模型的数据集(这里没有太多争论),使用验证用于首先验证模型和微调参数的数据集,使用测试数据集用于测试模型的最终数据集。重要的是,验证和测试观察来自相同的分布,并且它们都反映了您将在现实世界中遇到的数据。

训练和测试之间的默认划分通常是 70% / 30%,而训练、验证和测试之间的默认划分大约是 60% / 20% / 20%。然而,当你有大量的数据时,使用 98% / 1% / 1%的分割是很好的,只要你在每个验证和测试集中至少有大约 10 000 个观察值。

最后,如果您的训练集和验证集来自不同的分布,您可以将训练集分成两部分:训练训练-开发,并使用第一部分来训练您的模型,使用第二部分来测试来自与训练集相同的分布的数据,以便隔离由于您的模型无法概括而产生的错误和由于分布不同而产生的错误。

最后,您的误差度量将有 5 个连续的值(这是上面定义的一个度量)。它们之间的差异有不同的来源,查看最大的误差来源将会告诉您应该首先解决哪一个:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们现在将解决这些误差源中的每一个,以及处理每个误差源的最佳策略。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

亚伦·胡贝尔在 Unsplash 上拍摄的照片

改进您的模型

可避免的偏见

可避免的偏差应该尽可能接近零,因为训练集中的误差很可能是您最小的误差,并且您希望它至少与人的表现相等(如果不是更好的话)。解决这一问题的一些策略包括:

  • 训练一个更大的模型(这可能包括尝试不同的神经网络架构和扩大你的超参数搜索空间)
  • 训练更长/更好的优化算法

差异

另一方面,方差来自于这样一个事实,即您的模型过度拟合了训练集,并且还不能将其结论推广到它尚未看到的数据。您可以通过以下方式减少它:

  • 获取更多数据
  • 尝试不同的正规化技术
  • 再次尝试不同的神经网络架构,扩大你的超参数搜索空间

数据不匹配

有时,您不能让训练和测试数据来自相同的分布:假设您想训练一个面部识别算法,专门用于手机的前置摄像头,但您没有足够的具有这些完全相同特征的标记数据。然后,你求助于已经标记好的公开可用数据来训练你的模型,并在来自前置摄像头的图片上进行测试。在这种情况下,可能会发生数据不匹配错误,主要通过使您的训练数据与验证和测试集更相似来减少这种错误。

一种方法是进行手动错误分析。在我们之前的例子中,这可能意味着从验证集中随机选取一些(约 100 张)标签错误的图片,并通过与训练集中的一些图片进行比较,试图理解算法为什么会出错。由于前置摄像头质量差,有些可能会失真或分辨率低,有些可能比你的火车组更接近面部,有些甚至可能是正确的,但它们只是首先被人类贴错了标签。尝试将 100 张图片中的每一张归入一个错误类别,最后,你可以知道每一个类别产生的错误百分比。然后,您可以考虑归因于每个类别的错误百分比以及修复它们的难度/成本,这有助于您决定首先解决哪些类别。在我们的例子中,假设模型的大部分误差发生在图片分辨率较低的时候。也许您可以尝试人为降低训练集的一些图片的分辨率,使其与验证集更相似,或者只是从验证集中取出一些图片,然后将它们放入训练集中。

这一步可能看起来有点麻烦,但它实际上可以为您节省很多不必要的工作。

过度适应验证集

如果您的模型过拟合,那么尝试通过添加数据使验证集更大。

最终考虑

总结一下工作流程:

  • 定义一个数字评估指标来优化你的模型,也许还可以定义一些令人满意的指标
  • 将您的数据分成 4 个数据集 : 训练训练开发验证测试,确保训练集有足够的观察值,并且验证集和测试集来自相同的分布
  • 根据您的评估标准测量所有这些项目的误差,并将人为误差作为基准
  • 通过查看 5 个误差之间的差异,找出误差的最大来源
  • 利用上述策略,相应地解决这些问题

如果你想了解这个工作流程的更多信息,我建议你参加 Coursera 上的结构化机器学习项目课程。

职业前景如何随着敏捷革命而改变

原文:https://towardsdatascience.com/how-career-perspectives-change-with-the-agile-revolution-550933404a68?source=collection_archive---------22-----------------------

一切都变了。而且很快。在这篇文章中,我解释了如何适应不断变化的工作环境。

敏捷问题

我先介绍一下敏捷。敏捷是大量项目管理框架的重组术语,这些项目管理框架都试图解决 IT 行业中的常见问题。近年来,敏捷方法在各地的 IT 部门和初创企业中广受欢迎。

众所周知,IT 的问题往往是用户的需求和开发者的理解不匹配。举个简单的例子,当你奶奶让你在她的电脑上安装一个新程序时,你会告诉她是的,给我 5 分钟。然后发现她的电脑是迷你电脑。不幸的是,在大型 IT 项目中,类似的事情经常发生。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我希望你没有签任何说你会在一小时内安装程序的东西!!图片由https://commons.wikimedia.org/wiki/File:Minitel1.jpg提供。

敏捷解决方案

传统项目会立刻签订一份完整软件的合同,并在最后交付完整的软件包。敏捷项目提出的建议是以不同的方式定义约定:以递增的步骤。

敏捷一步一步地开发一个项目,并使反馈在每一步都成为可能。这允许定期地将项目引向正确的方向,并确保交付客户真正需要的项目。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

著名的敏捷贴 its。由乔·什切潘斯卡Unsplash 上拍摄

敏捷团队

那么人们在“做敏捷”的时候是如何组织工作的呢?这里有一些敏捷的常识,让我来解释一下。我专注于 Scrum 方法,因为这是我最熟悉的方法:

  • 冲刺
    冲刺是敏捷工作的核心。sprint 是团队需要输出产品新版本的几周时间,通常是软件产品。
  • 开发团队在冲刺阶段扮演核心角色,因为他们是构建产品的人。
  • 产品负责人
    产品负责人负责设定产品的优先级。他或她将与利益相关者互动,并具有足够的技术知识来设置一个需要由开发团队完成的明确定义的任务列表。
  • 产品积压清单就是这个清单的名字。在 sprint 的每个开始阶段,开发团队将估计他们可以完成的工作量(列表中的任务数量),而产品负责人仍然是决定任务顺序(优先级)的人
  • Scrum Master
    Scrum Master 确保每个人都理解 Scrum 框架的“规则”(敏捷实践之一),以便一切顺利进行。

敏捷组织

所以,最大的不同是:“非管理层”的人通过这些新的工作方式获得了很多自主权和责任。此外,角色是非常清楚地分开的:例如,如果你在开发团队中,你开发,你不能设置优先级。

从长远来看,这将影响职业选择。很多人的职业选择曾经是:为了有更好的待遇和更好的地位,努力从一个技术性的非管理岗位转到管理岗位。但是有了明确的角色划分,这就不再相关了:PO 将管理与涉众的谈判,并在这方面变得更好,而开发团队则专注于开发并在这方面变得更好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有了敏捷,你可以不用在工作中下棋,只要做好自己的工作就行了。JESHOOTS.COM 在 Unsplash的照片

职业前景

换句话说,我们过去做的是提拔擅长自己工作的人。这看起来很有道理,但实际上一点也没道理。当一个人善于发展时,并不意味着他会成为一个好经理。实际上,做得好的人不应该被提拔:让他们做他们擅长的事情,为他们的价值付出。

我相信职业前景在科技领域正在发生深刻的变化。如果团队真的可以自治,中低层管理就不再需要了。对许多人来说,这就剥夺了从发展到管理的职业道路。与此同时,我们看到,开发人员的工资往往是巨大的。

技术工作的薪水和地位应该会阻止这种争顶的竞赛。公司应该让技术人员做他们的技术工作,并付给他们高薪,以防止他们想要爬上职业阶梯。

在这种新的工作方式中,人们将能够做他们喜欢的事情,无论是技术性的,还是与利益相关者的沟通,或者其他任何事情。

如果你做自己喜欢的事情,并且做得很好,那么敏捷就有你的一席之地。

我最后的建议

我最后的职业建议是:如果你做你喜欢的事情,并且做得很好,那么敏捷就有你的位置。

聊天机器人如何被用来改善任何业务

原文:https://towardsdatascience.com/how-chatbots-can-be-used-to-improve-any-business-f7f3a1ebcbba?source=collection_archive---------24-----------------------

让它们运行得更顺畅、更高效

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://images.app.goo.gl/Gy5EkKpHp9egJcUV9

聊天机器人代表了人们获取信息、做出决策和交流的新趋势。—克里斯蒂·皮茨,威瑞森风险投资公司

我们都曾访问过这样的网站,在它的右上角会弹出一个小框,询问我们有什么可以帮到你的。这个小盒子是一个聊天窗口,旨在回答你白天或晚上可能有的任何问题。

它们旨在帮助客户不必等待与真人交谈。你输入你的问题,几秒钟后答案就出来了。

聊天机器人最大的好处之一就是它们可以全天候在线。顾客永远不需要等一个人吃完午饭或去洗手间回来。这为消费者提供了即时的满足感,并会让他们再次光顾。

聊天机器人可以用于许多方面来改善任何企业,无论是大企业还是小企业,除了客户服务之外,还可以用于其他方面。我们将在本文中讨论其中一些,但首先我们将提供一个什么是聊天机器人的快速定义。

什么是聊天机器人?

聊天机器人是一种计算机程序,它可以与人交流,并自动处理收到的信息。它们可以被编程为每次都以相同的方式响应,或者可以根据情况调整它们的响应。

他们利用短信、网站聊天窗口以及 Twitter 和脸书等社交媒体信息平台。今天,许多不同的公司使用这些机器人来简化他们的客户服务。但是这些也可以用来改善你的其他业务领域,如销售和营销。

你会问,他们会怎么做?好吧,下面我们来看看。

商业聊天机器人的其他领域还可以改进

聊天机器人非常通用,可以应用到你业务的不同领域。他们可以将许多需要员工参与的对话自动化,从而节省时间和金钱。我们开始在杂货店自助结账和餐馆自助服务亭的兴起中看到了这一点。

除了客户服务之外,这些在其他部门也很有用,例如:

销售

销售是受聊天机器人影响最大的部门之一。这些方便的时髦小工具可以收集关于客户的信息,销售团队可以使用这些信息来确定资格,并根据聊天机器人的交互进行推介。他们可以推荐产品,衡量客户的兴趣,并帮助引导他们通过销售渠道的每一个环节。

这些机器人可以根据顾客在你的网站上看到的内容,为某些产品带来知名度。你可以定制聊天机器人,让它等一会儿,让顾客四处看看,然后弹出来问一个基本的问题,比如“我能帮你找到什么吗?”。

营销

聊天机器人不仅可以用来回答客户服务问题,还可以用来娱乐客户。他们可以抓住你的观众的注意力,并从互动中学习,以便下次提供更好的体验。聊天机器人将整个交互体验个性化,使客户访问更加愉快和难忘。

由于许多聊天机器人都是在社交媒体网站上找到的,你可以接触到的受众是无限的。你可以通过挖掘一个你以前可能不知道的新的人口统计来获得一个新的客户群。这可以将你的营销努力扩展到之前没有包括的个人。

人力资源

聊天机器人可以让你的人力资源部门通过做一些平凡的任务而真正忙碌起来。他们可以安排面试,浏览简历,核实证书,选择合适的候选人进行面试。这将使人力资源部门有更多的时间来面试候选人,判断候选人的态度和职业精神,并确定他们是否适合公司的文化。

一旦候选人被选中,聊天机器人可以协助入职流程,包括自动化冗长的文书工作。新员工会感到欣慰的是,他们不必在开始阶段接触同事。新员工将会很自信,不会浪费时间在公司里摸索前进。他们将能够更快地适应,更快地、更有热情地履行自己的职责。

现在你知道了公司聊天机器人的哪些功能可以帮助你变得更有效率,你该如何使用它们呢?

大约 80%的企业计划在 2020 年前整合聊天机器人。—商业内幕

聊天机器人可以使用的平台

聊天机器人可以在你的网站上实现,也可以在脸书和推特这样的社交媒体网站上实现。他们每个人都有自己的方式与你的潜在客户交谈。比起在脸书和推特上,访问你网站的人会对你提供的产品和服务有更广泛的了解。社交媒体账户的人口统计数据会有所不同,你可能需要对它们进行研究,以便更好地了解它们。你将不得不对你的机器人进行相应的编程,以便对任何一个机器人提出正确的问题。

这太好了,除了聊天机器人可以用来开始我的网站和社交媒体吗?下面分别列出了几个例子。

在你的网站上使用聊天机器人

Imperson — 这款聊天机器人是对话式的,能够提供真实且吸引人的客户聊天体验。导航员使用关系记忆、NLP 用户意图和深层对话上下文来引导对话,帮助实现客户目标。Imperson 通过托管和部署您的 bot 并提供实时性能更新来提供端到端的 bot 解决方案。

Reply.ai — 是市面上最受欢迎的 ai 聊天机器人之一。企业级 bot 是一种建筑和管理软件解决方案,使公司能够改善其客户服务。它配备了一个内置 CRM、机器学习和实时洞察的仪表板,使机器人在收集信息时更加智能。

Flow XO — 让你无需学习如何编码就能创建智能的交互式聊天机器人。该软件配备了一个易于使用的拖放编辑器,您可以创建逻辑工作流,并将您的聊天机器人连接到各种软件。您构建的机器人将与第三方应用程序(如 Salesforce、Google Sheets 等)进行交互和工作。

Drift — 是一个对话驱动聊天机器人,它能让最优秀的企业实时领先。当用户与这个机器人交互时,他们可以提供关键信息,如姓名、电子邮件和电话号码,以便销售和营销人员跟进。您可以在浏览器中直接向用户发送消息,或者为他们提供自动聊天体验。

社交媒体上使用的聊天机器人

Mobile Monkey — 是一款软件解决方案,帮助您构建智能聊天机器人,将您的 Facebook Messenger 营销提升到一个新的水平。您可以管理许多潜在客户挖掘活动,如聊天爆炸、滴流活动和列表构建。它允许您自动回答客户服务中的常见问题。

Chatfuel — 是最受欢迎的聊天机器人解决方案之一,可以帮助您轻松构建 Facebook Messenger 机器人。这允许你自动回答常见问题,如手机猴子。如果需要的话,它还允许你加入对话,并控制聊天机器人。

ManyChat — 帮助您创建智能 Facebook Messenger 聊天机器人,可用于销售、营销和客户服务。该软件配备了一个可视化的拖放生成器,使您可以轻松地构建自己的聊天机器人。您还可以自动进行 Messenger 营销,并根据时间延迟或某些用户操作发送消息。

Octane AI — 这个聊天机器人可以让你在几分钟内为你的 Shopify 商店设置和定制一个机器人。这个软件让你能够恢复被遗弃的购物车,自动回答你的客户的询问,在购买后发送后续信息,包括运输信息和收据等等。

结论

这篇文章旨在向人们介绍聊天机器人,以及他们如何使用它们来改善他们的业务。我们讨论了贵公司的不同领域,聊天机器人可以帮助您发展业务。我向你展示了几个聊天机器人的例子,你可以通过你的网站或社交媒体渠道自己使用它们。

世界各地的许多公司都利用聊天机器人来自动化和简化他们的业务。这些都有助于帮助公司提高效率,增加员工参与度,并创造积极的入职体验。聊天机器人将员工通常处理的多余任务解放出来,专注于更具创造性和生产力的方式,为组织做出贡献。

中国是如何用科技钉死冠状病毒的!

原文:https://towardsdatascience.com/how-china-nailed-the-coronavirus-using-technology-77703dc94a37?source=collection_archive---------21-----------------------

中国高科技系统对抗 COVD-19 的案例研究

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Rade apto VIUnsplash 拍摄的照片

中国是新型冠状病毒传播的源头。在中国境内,它感染了约 80,000 人,并导致 3,000 多人死亡。一开始,疫情规模很大,但最近几周,他们设法控制住了疫情。对于一个像中国这样有 14 亿人口的国家来说,每天报告 50 个病例只是沧海一粟。一些人批评中国的制度,声称它在西方永远行不通。这篇文章的范围不是要判断他们的方法,而是要说明他们是如何利用先进的技术赢得对新冠肺炎的战争的。

中国以从公民那里收集大量数据而闻名。他们有一个由分布在全国各地的 2 亿多个视频监控摄像头组成的网络。除此之外,他们还在住宅区的门口安装了生物扫描仪。当一个人决定离开他的公寓时,他必须扫描他的脸作为一种登记。从那时起,处理数据的智能系统知道该人在外面,并可以通过广泛的视频监控系统跟踪他的行踪。中央数据库存储所有这些信息,然后机器学习算法处理这些数据,并计算这个人的潜在社交互动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由粘土堤防溅板上拍摄

中央数据库还从其他来源收集数据。其中之一是微信应用,仅在中国,每月就有约 10 亿人使用该应用。该应用程序方便地将本地化、社交媒体、聊天和电子钱包结合到一个系统中。这种系统的第一个优势是,支付使用非接触式虚拟卡,无需兑换真实货币。因此,这种物理交换的缺乏自动减少了病毒的传播。

第二个优点是定位特征,其提供了个体的精确地理位置。鉴于监控摄像头的覆盖范围有限,微信提供的位置将为系统提供关于该人行踪的精确信息(误差在几米之内)。如果一个人与感染病毒的人密切接触,系统可以立即警告他,让他避开那个人。

第三个优点是,由于电子钱包包括与购物一起访问的商店的信息,这两者可以结合起来。从商店的位置,可以推断出一个购物的人是否感染了病毒,因为几分钟前,一个受感染的人正在同一家商店购物。另一方面,购买可能提供关于个人幸福的信息。人工智能(AI)系统可以很容易地推断出,如果购买了某些物品(如药物),那么这个人或他身边的人很可能生病了。微信上的聊天进一步证实了这一假设,因为它们是使用人工智能自动分析的。然后,该系统将此人标记为潜在病例,一个医疗小组将对其进行特殊检查。

第四个优势是社交媒体元素,这对于确定患者的社交圈以及在感染情况下联系他们至关重要。

该系统非常复杂,可以列出在过去两周内与感染者有过接触的大多数人。然后政府对这些人实行至少 14 天的自我隔离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由杰米街Unsplash

每个公民还获得一个自动健康代码,可以是:红色、琥珀色或绿色。这种编码决定了人的流动性。绿色意味着这个人可以不受限制地自由走动。刚从国外回来或可能与感染者接触过的人有黄色代码,他们的行动受到限制(事实上他们不允许开车)。那些可能被感染的人属于红色类别,他们必须留在隔离区。

正在使用的系统不仅是高科技的,而且还结合了其他国家采用的程序。所有来自疫区的航班都经过人工检查。在商业建筑(如购物中心)的入口处,员工检查人们的体温,如果发现发烧,就提出报告。在一些城市,每三天只允许一个人离开房子去买必需品,而且他们只有在有特殊许可证的情况下才能开车。中国政府的想法是在热点失控之前发现它们。这个系统被许多人认为是非传统的,接近极端,但它似乎产生了良好的效果。毫无疑问,这是世界历史上最高的流行病控制技术。当然,系统存在各种问题;最明显的事实是,人们正在牺牲自己的隐私。这肯定需要调整。最终,没有一个系统是完美的,很难达到平衡。因此,我们必须问自己,为了拯救更多的生命,我们准备走多远。

【https://www.businesstoday.com.mt】这篇文章最初发表于 请在下面留下你的想法,如果你喜欢这篇文章,请随时关注我🐦推特,🔗 LinkedIn 或😊脸书

阿列克谢·丁力教授 是马耳他大学的 AI 教授。二十多年来,他一直在人工智能领域进行研究和工作,协助不同的公司实施人工智能解决方案。他的工作被国际专家评为世界级,并赢得了几个当地和国际奖项(如欧洲航天局、世界知识产权组织和联合国等)。他出版了几本同行评审的出版物,并且是马耳他的一部分。由马耳他政府成立的人工智能工作组,旨在使马耳他成为世界上人工智能水平最高的国家之一。

流失分析如何拯救百视达

原文:https://towardsdatascience.com/how-churn-analysis-could-have-saved-blockbuster-552336ea78f0?source=collection_archive---------53-----------------------

看到预测分析的力量,我们不禁要问:它会拯救像百视达这样一个没落的帝国吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

斯科特·格雷厄姆Unsplash 上拍照

的巅峰时期,百视达的估值高达 80 亿美元,在美国拥有超过 9000 家分店,超过 84000 名员工——几乎是今天网飞员工人数的 10 倍。

2010 年,百视达申请破产,负债近 10 亿美元。出于新奇的原因,俄勒冈州本德镇的一个私人拥有的位置仍然开放。

1985 年至 1994 年:黄金时代

百视达的创始人戴维·库克在 1985 年意识到了音像店连锁的潜力,所以他在那一年开了第一家店。

使用新的条形码系统,百视达可以跟踪每个商店多达 10,000 个 VHS,比其他只能跟踪大约 100 部电影的视频商店提高了 100 倍。

Blockbuster 筹集了数百万美元,积极扩张,收购现有连锁店,并以狂热的速度开设新店,同时扩大其产品,包括音乐和视频游戏租赁。

1994 年:末日的开始

主要投资者韦恩·胡伊曾加在 1994 年以 80 亿美元的价格将百视达卖给了维亚康姆。两年后,百视达市值缩水一半。

新老板,约翰·安蒂奥科,专注于实体建筑,即使创新的竞争者——如 1997 年的网飞——如雨后春笋般涌现。1999 年,百视达放弃了以 5000 万美元收购网飞的机会(今天,网飞的市值超过 2000 亿美元)。

令人惊讶的是,百视达看到了视频点播的潜力,但他们决定用自己的方式来做。百视达与安然联手,成功推出大规模电影流媒体服务。然而,百视达希望专注于利润丰厚的视频商店,因此在 2001 年放弃了流媒体服务。

正如安蒂奥科写的:

“我坚信,无论人们决定如何观看电影,我们都可以保持 Blockbuster 品牌的相关性。”

其余的,正如他们所说,都是历史了。网飞的创新,从它的 DVD 邮寄服务开始,增加了它的市场份额,年复一年地蚕食大片。在推出流媒体服务后,网飞的增长加速,而百视达继续慢慢死去。

Blockbuster 未能理解为什么它的客户像苍蝇一样减少,而流失分析本可以避免这一点。

流失分析并不新鲜

虽然“流失分析”看起来像是一种新奇的现代技术,但企业已经使用它很长时间了。

客户流失仅仅是客户流动的过程,企业应该一直关注客户离开的原因。

正如这篇 1990 年发表在《哈佛商业评论》上的文章所解释的,理解并减少客户流失是成功的关键:

“拥有忠诚的长期客户的公司可以在财务上胜过单位成本较低、市场份额较高但客户流失率较高的竞争对手。”

数据驱动的客户流失分析至少从【2020 年代就已经存在,所以客户流失分析在 2020 年更像是一项必备而非尖端的创新。

百视达的搅动器

Blockbuster 的流失分析会揭示:

  • 哪些客户在搅动
  • 为什么它们在翻腾(包括重要的属性)
  • 如何解决该问题

看到竞争对手的市场份额下降和 DVD 点播的兴起,应该是触发流失分析需求的危险信号。

由于有数千家商店,即使是适度的数据收集工作(如通过 POS 系统、电子邮件营销软件、客流量分析或简单的客户调查)也会揭示客户流失的来源。

例如,流失分析可能显示:

  1. 年轻人的高流失率。
  2. 那些支付滞纳金的人的高流失率。
  3. 没有新电影的地方流失率高。
  4. 客户流失与竞争对手的 DVD 点播和流媒体的兴起有关。

下一步是将这些信息转化为洞察力。年轻人的高流失率,加上 DVD 点播和流媒体的兴起,可能表明年轻人更喜欢替代品的便利,而 VHS 太过时了。

那些支付滞纳金的人的高流失率表明,滞纳金是一个关闭,这将是明智的立即去像网飞这样的竞争对手的路线,从一开始就没有滞纳金。

没有持续新电影的地点的高流失率表明客户重视观看最新电影,因此 Blockbuster 需要一种方法来改善他们的产品。

如果 Blockbuster 发现了这些见解,他们将保持电影租赁之王的地位,并演变为点播流媒体之王。

当今的流失分析

借助现代计算、大数据和从 TensorFlow 到 Sklearn 的免费工具,企业可以通过多种方式来分析客户流失:

  • 从头做起。这需要大量的技术专长,考虑到分析人才的短缺,许多公司并不具备这些。
  • 雇佣一名数据科学家。构建决策树分类器和提取 Python 专业知识可能需要一名数据科学家。即使是现在,许多公司都在雇佣数据科学家,但是六位数以上的薪水,对每个组织来说都是不可行的。
  • 外包 it 。虽然从技术上来说,这是最不可行的,因为您丧失了对质量、项目所有权、维护和数据隐私的一定程度的控制。
  • 使用无代码分析工具。使用像 Apteo 这样的无代码预测分析工具可以实现内部控制,同时降低成本并消除对技术专业知识的需求。

鉴于选择范围广泛,分析客户流失是当今企业的一个常识性策略。

Citymapper 数据如何突出不同城市的新冠肺炎响应

原文:https://towardsdatascience.com/how-citymapper-data-highlights-the-covid-19-response-of-different-cities-fd30d51b0d9c?source=collection_archive---------48-----------------------

我们发现了哪些城市在应对冠状病毒疫情时比其他城市花了更长的时间停止通勤

冠状病毒对我们的生活方式产生了不可思议的影响。为了遏制病毒的传播,许多政府禁止我们拜访朋友和家人,或者去工作场所、商店和餐馆。世界各地城市的通勤已经停止。

我们知道发生这种情况的一个原因是,像 Citymapper 这样的应用程序的用户已经停止使用它们来计划旅程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

完整的 dataviz 由我、奥利弗·卡林顿和若昂·席尔瓦创建

以上是我们的最新数据,即使用 Citymapper 的旅程规划数据来比较不同城市对新冠肺炎的一个角度的反应。它是由我和我的合作伙伴 joo Silva 创建的,我将在这里分两部分简要介绍它。

这组中的四个城市用了超过 10 天的时间来减少出行

尽管通勤在同一天开始放缓,但伦敦比巴黎多花了整整一周的时间将平均行程减少到 20%

在 viz 数据的第一个图表中,我们使用了一个范围图来显示 12 个城市何时开始减少旅行(当它们达到平均旅行计划的 80%时,以粉红色显示)。然后你可以比较一下这些城市停止旅行所用的时间(平均旅行计划的 20%,当主要是关键员工四处走动时,用蓝绿色显示)。

在这里,你可以清楚地看到,马德里、巴黎和伊斯坦布尔的市民将旅行计划从 80%大幅减少到 20%。另一方面,伦敦和悉尼用了 11 天,而莫斯科和多伦多用了 12 天。

使用 Citymapper 计划行程的百分比似乎与大多数城市的实际情况相符。例如,3 月 25 日,也就是伦敦最终达到通常 Citymapper 行程计划的 20%的第二天,伦敦市长宣布,“地铁乘客量与去年同一天相比已经下降了 88%,公交车乘客量下降了 76%

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我自己创建的 dataviz 的第一部分

但让伦敦与众不同的是,它在一个更加严峻的新冠肺炎环境下放缓了脚步

当伦敦减速时,已经有 422 人死亡

数据 viz 中的第二个图表显示了行程计划从 80%减少到 20%的情况。这是一个散点图,使用城市的国旗作为点,表明城市通勤者和他们的国家政府如何认真对待他们国家的病毒升级。

例如,里斯本可能比巴黎和马德里花了 50%的时间来减少旅行,但情况远没有那么严重,当这种情况发生时,新冠肺炎有 4 人死亡,而法国有 175 人,西班牙有 196 人。

我们还发现了土耳其和荷兰的有趣模式(我们在图表上做了注释),但最有趣的故事是,在这张图表中,英国是如何从那些缓慢停止旅行的城市中分离出来的。当伦敦的行程规划下降到 20%时,英国有 422 例新冠肺炎死亡,这远远高于澳大利亚、加拿大和俄罗斯停止时 9 至 36 例死亡的范围。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我自己创建的 dataviz 的第二部分

从这个数据的一个角度来看,英国政府在 3 月份缓慢锁定的后果是严重的。现在预计英国将成为欧洲受影响最严重的国家。

我们如何创建我们的数据,即

我们使用基于浏览器的 UI 和 UX 设计应用程序 Figma 来设计数据,即。我们从国旗中找到了国旗图片,用于散点图。

Citymapper 移动指数提供了迷人的旅程规划数据,我们使用了 Worldmeter 的冠状病毒统计数据来计算特定日子的死亡人数。

Citymapper 是一个非常知名的应用程序,但是它的受众不太可能完全代表一个城市的人口统计数据。这些数据似乎遵循了伦敦通勤者的整体情况,但对于伊斯坦布尔等收入不平等程度较高的城市来说,问题可能更大。

最后,我工作的慈善机构紧急呼吁提供资金,帮助伦敦五家国民医疗服务系统医院中受新冠肺炎影响的员工和患者。在这里了解更多:www.justgiving.com/campaign/help-our-nhs

在你被毁灭之前,你离黑洞有多近?

原文:https://towardsdatascience.com/how-close-can-you-get-to-a-black-hole-before-you-are-doomed-92c51cb4b2a2?source=collection_archive---------22-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

艾萨克·牛顿的苹果在达到逃逸速度后在太空中倾斜。星域影像由jaho br/CC0;来自 PixabayPexels 的苹果图片(无旗帜)

黑洞,逃逸速度和艾萨克牛顿的投掷臂的初级读本。

缺乏漏洞又成了新闻。激光干涉引力波天文台(LIGO) 报道了两个黑洞的合并。其中一个重量相当于 8 个太阳质量;另一个是 31 个太阳质量。鉴于这种巨大的不对称,这与其说是合并,不如说是恶意收购。

如果你认为那些黑洞很重,2019 年拍摄的 M87 黑洞是一个巨大的 65 亿太阳质量。它的直径相当于我们整个太阳系的直径。

你怎么能不爱一个引力如此之大连光都无法逃脱的东西呢?

黑洞很酷。你怎么能不爱一个引力如此之大连光都无法逃脱的东西呢?那么,在你被毁灭之前,你能离黑洞多近呢?

我们用一点高中物理来了解一下。

轨道速度

我们需要从轨道速度的概念开始。

还记得艾萨克·牛顿爵士坐在树下的故事吗?一个苹果落在他的头上,他发现了重力。假设他对苹果感到沮丧,把它扔回到树上。(聪明人也会做傻事。)它错过了树,回到地球,击中了他的头。又来了。

宇宙已经为我们方便地安排好了,所以我们可以把一个物体当作它所有的质量都位于中心。

上升的必然下降。一个东西要扔多大力才不会掉下来?

好消息:宇宙已经为我们方便地安排好了,所以我们可以把一个物体当作它所有的质量都位于中心。地球表面的重力加速度由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 G 为万有引力常数;m 和 R 是地球的质量和半径。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将这些数字代入方程,我们得到熟悉的 9.81 米/秒。

现在,假设艾萨克·牛顿不是向上扔苹果,而是水平扔苹果。它沿着一条弯曲的路径撞击地面。他扔得越用力,它就飞得越远。最后,他用力扔出去,使得它的轨迹曲线与地球的曲线相吻合。苹果继续下落,没有落地。*

它的速度有多快?它现在就在地球表面上方的轨道上。如果不考虑风的阻力和树木(或山…或建筑),这个苹果的速度有多快?

因为它在一个完美的圆形轨道上运动(或多或少),所以它有一个向心加速度:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 R 是地球的半径。由于这种加速度是由重力提供的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意苹果的质量并不重要。只有地球的质量和半径。插入适当的值,我们会发现苹果以 7910 米/秒或 28500 千米/小时的速度快速移动。这大约是音速的 23 倍。不要在家里尝试这个。

这大约足够为佛罗里达州迈阿密大小的城市供电一个世纪。

那需要多大的力量?让我们假设苹果的质量 m 为 100g (0.100) kg,艾萨克爵士以 1.00 米的侧臂间距发射苹果(也就是说,他将苹果放在背后,并在释放它之前将其向前加速一米的距离。)回想一下最终速度、初始速度、加速度和行驶距离之间的关系:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

重新排列,并消除初始速度项,(因为它是零):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以这个力等于动能除以力作用的距离。我们可以从那里开始,绕过加速度计算,因为加速苹果的功,W = fδd,等于它的最终动能。将这些数字代入,我们发现艾萨克爵士需要施加 3.13 ×10⁶牛顿的力。利用上述公式,我们还发现苹果的动能为 3.13 ×10⁶牛顿。这大约足以为佛罗里达州迈阿密市大小的一座城市提供一个世纪的电力。

【编辑:】Janos Madar 在评论中指出,这些数字不仅是错误的,而且是荒谬的。我重新计算了这些数字,得出了 4.06 ×10 牛顿,和相同的焦耳数。根据该来源的[,迈阿密在 2017 年平均每月 1125 千瓦时。这是 4.05×10⁹ J。因此,艾萨克爵士的手臂有足够的兴致保持 Miamians(?)照亮了 10⁴的几个月——833 年。]](https://www.statista.com/statistics/807951/average-monthly-electricity-usage-in-major-us-cities)

苹果绕着地球转(需要多长时间?)然后猛击艾萨克爵士的头部。又来了。他必须做什么才能把它发射到太空,并且永不返回?

那是下一个。

逃逸速度

当你把苹果抛向天空时,它会飞回来。一旦它离开你的手,它唯一的作用力(对我们来说)来自重力。它减速并返回地球。初始速度越大,减速时间越长,在重力克服它并开始下降之前,苹果离得越远。如果速度足够快,减速将会无限期地持续下去。苹果脱离了地球的引力场。

现在让我们考虑苹果在地球表面的重力势能。通常,我们会使用 PE=mgh 来计算电势差,将地设置为 h=0 。让我们考虑重力势的绝对值。想象地球被压缩,其质量集中在中心的一点。苹果又像以前一样在地球半径的高度上绕轨道运行了。我们已经知道了它的动能。将向上视为负向, h = -R 。那么引力势就是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

苹果的总能量是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

艾萨克爵士在苹果上市时将所有这些能量都给予了它。这种能量在苹果的整个旅程中保持不变。重力牵引着它,使它减速,直到它停在最大高度(即最大 R),它返回地球。在投掷的顶点,速度——因此动能——总是为零。

艾萨克爵士扔苹果的力度越大,苹果飞得越高,R 的最大值就变得越大。我们可以想象离地球无限远的地方,重力势能等于零。“无穷大”本身并不是一个数字,但是我们可以在命名方面使用一些许可。在远离地球的最大距离,超越重力的影响,苹果的能量是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是如果总能量在抛出的顶点为零,那么它在任何地方都一定为零。我们对它脱离艾萨克爵士掌控的时刻特别感兴趣。这里,R 是地球的半径。由于总能量为零,总能量的原始方程变为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是苹果的速度,增加了√2 倍。你会注意到苹果的质量没有术语。这个速度对于苹果、巨石或空气分子来说是一样的。在地球表面,它的速度大约是每小时 40,300 公里。

重述

物体以半径 R 绕质量 M 旋转的速度:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

半径为 R 的物体从质量 M 处逃逸的速度:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Schwartzchild 半径和事件视界

我们现在准备转向黑洞。黑洞是耗尽燃料的恒星。直到现在,恒星的体积一直处于平衡状态。它巨大的质量希望恒星在自身重力的作用下坍缩。由此产生的压力推动氢核融合形成氦。

一旦恒星变得疲惫不堪,它就再也无法支撑自己的重量。它会内爆。从表面到中心的距离缩小了。最终,地表的逃逸速度是光速。

一旦恒星变得疲惫不堪,它就再也无法支撑自己的重量。它会内爆。从表面到中心的距离缩小了。最终,地表的逃逸速度是光速。这个半径就是这个质量的史瓦西半径。我们可以用之前导出的逃逸速度公式来计算。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

黑洞在这个半径的边界就是事件视界。如果你穿越了视界,你就会停留在那里。

你会注意到史瓦西半径完全取决于黑洞的质量。将地球的质量代入上述公式,我们得到 8 毫米。地球需要被压扁到一颗鹅卵石的大小。

我们还可以看到 M87 黑洞的质量和半径之间的联系。再次,将先前给出的质量代入方程。一个与我们太阳系相当的半径应该会出现。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

M87 黑洞。中间黑暗区域的圆周就是视界。越过那个屏障,即使是光也无法逃脱黑洞的引力魔爪。图片来源: XKCD 和视界望远镜合作等通过国家科学基金会

意大利面

最后一个警告:你是否会造访黑洞是值得怀疑的。但是如果你做了,请不要认为你就可以安全地悬停在视界上方。你必须小心潜在的意大利面!(对,确实是这么叫的。)

这就是意大利面的工作原理。

当你站在地球表面时,你的头比脚离地球中心更远。地球会更用力地拽你的脚。这种差异就是我们所说的潮汐力。你和地球之间的潮汐力小得可笑。在黑洞的巨大引力场中,它们会把你撕成碎片。

在一个大黑洞附近,在你穿越视界之前,你会安全地避免被分离。你不知不觉地走过了不归路。对于质量相当于地球的黑洞来说,情况就不同了。在你接近视界之前,你就是林贵尼了。

最初的问题是问在你被毁灭之前,你离黑洞有多近。看情况。一旦黑洞把你困在视界之下,你就完蛋了吗?还是说厄运等于割喉?我想这是品味的问题。

黑洞很酷。但我会从远处欣赏他们。

*这听起来令人难以置信,就像道格拉斯·亚当斯在《生命、宇宙和一切》 中给出的飞行秘诀。也许他发现了什么。

寻找更多这样的?请在下面留言,让我知道你接下来想看什么。

接下来→ 潮汐力和裂隙化

大学生如何应对新冠肺炎

原文:https://towardsdatascience.com/how-college-students-are-handling-covid-19-3705016205fe?source=collection_archive---------39-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

卡洛斯·阿方索的照片

一步一步的分析,了解自然语言处理的强大功能

作为一名受疫情冠状病毒影响的大四学生,我和德克萨斯大学奥斯丁分校超过 75%的学生一样,将于今年秋天加入 zoom 大学。倒数第二个学期不在校园,让我有点想家。受好奇心和一点 FOMO 的驱使,我决定借助一些自然语言处理技术来检查一下我的长角牛同伴。

这个项目的代码在我的 GitHub 回购。

目录

  1. 超声波探伤数据
  2. 包话
  3. 主题建模
  4. 情感分析
    1。整体情绪
    2。按主题划分的情绪
  5. 与得克萨斯 A&M1 的比较。话题共同点
    2。感情比较
    3。学校声誉
  6. 结论

UT 奥斯汀数据

我使用约瑟夫·赖的通用 reddit 刮刀从 UT Austin subreddit 上的最新帖子中收集了 1348 个文本条目。这些文本条目包括文章标题、正文和评论。然后,我用 excel 上的 VBA 脚本清除了文本中的非 ASCII 字符。

从 UT Austin Subreddit 聚合文本

我将所有这些文本条目读入一个熊猫数据框架,并(再次)清理了数据。

 Overall_text
0    The UT employees are not a homogeneous group o...
1    Some departments are planning to continue work...
2    That 20% only represents tested cases that are...
3    A few bar owners opened to huge crowds, within...
4    - Master's degrees are a giant source of reven...
...   ..  ...                                                ...
1343 For ochem 2 next semester will Straumains be d...
1344 Is there a place in campus that students can u...
1345 Can you drop a Bio class and stay in the corre...
1346 Mythology w Curtis or Greek Archaeology w Gulizio
1347 Shabbir vs Straumanis for Ochem 2[1348 rows x 3 columns]

长角牛群,一袋单词

通常,自然语言处理的第一步是找到最常提到的单词,以更好地理解数据。为了做到这一点,我使用 NLTK 删除了停用词,并对数据帧进行了词频分析,以找到 UT 学生在子编辑中最常讨论的内容。

不出所料,哪个词领先…

UT Austin Subreddit 聚合文本的词频分析

上面的话透露出我的同行在谈论其他人类获得信息。第一个讨论的题目是计算机科学 (cs)出现 81 次。出于好奇,我手动通读了一些数据中提到的热门词,看看是否有任何模式或意义。这个练习相当乏味;举个例子,我发现 get 主要指的是成绩、录取和冠状病毒传播——和我预想的差不多。

通常,在开始的几个词中没有太多有趣的信息,所以我向下滚动以获得更有价值的数据。似乎对种族主义和歧视的思考也在德州大学学生的头脑中占据了很大的比重。词频分析找到了单词57 提到是因为当【德克萨斯之眼】——由大学四重奏首次在吟游诗人表演中演出——在 UT 对 OU 足球赛后,UT 四分卫 Sam Ehlinger 独自站起来后产生的嗡嗡声。应该指出的是,学生团体对于这首歌是否应该被替换并没有统一的意见。

我注意到的另一个有趣的点是, 足球 ( 17 提到)不像教育和政治那样是 UT Redditors 中普遍讨论的话题。这可能是由于德州长角牛队的赛季表现不佳,以及本学期参加比赛的学生人数减少。或许也可以说,足球提及量低很大程度上是因为 UT 足球迷的独立子编辑区从 UT 奥斯汀子编辑区转移了足球话题。无论如何,德州大学奥斯汀分校的文化仍然是由德州大学奥斯汀分校的学生创造的,因此为长角牛队本学期的经历提供了一个宝贵的窗口。

这学期的主题

分析单个单词可能是有趣的,但是当用作综合摘要工具时,它经常留下一些需要的东西。更好的概述技术包括聚类主题建模。当有很少或没有重叠的明确定义的类别时,聚类效果最佳。因为从 Reddit 上提取的相对较小的对话数据集可能没有明显不同的类别,聚类可能是一种次等策略。因此,我使用了一个潜在狄利克雷分配脚本来对数据执行主题建模

德州大学奥斯汀分校主题的 LDA 分析

上面的数据包含了在 UT Austin subreddit 上找到的所有单词,这些单词在字段 1* 列下,后面是不同主题的列。每行包含该行单词中隐藏的每个主题的百分比。例如,第一行包含单词 song 。我们可以看到的妆容 0.02 与社会公正的话题有关。单纯看,我们只能假设它的意思(或者回去翻资料手动读(我知道,2020 年?)通过包含该词的帖子)。然而,在执行了潜在的狄利克雷联想分析之后,我们看到 【宋】 被其他类似的得分词所包围,如 【动作】【肯定】 下首每个单词中隐藏的话题关系就是为什么这种方法被称为潜在*狄利克雷联想。**

在分析了每一栏的数据后,我发现德州大学奥斯汀分校的学生正在进行 8 个主要话题的对话:

  • 社会公正
  • 科学课
  • 类别(常规)
  • 住房/生活
  • 计算机科学硕士课程(MSCS)
  • 冠状病毒病
  • 老友记
  • 投票

我希望 UT 的每所学校都有一个主题,但只有 STEM(科学和 MSCS)出现了。我查看了 UT Austin 的主要项目,以防 STEM 专业的学生数量过多。这是 2017 年毕业的德州大学奥斯汀分校学生的专业细分:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(来源)

各专业之间的平衡相当不错(当然,这是在 2017 年——自那以后,普通计算机和信息科学可能会大幅增加),因此 STEM 专业的过多并没有导致与 STEM 相关的讨论相对于其他专业而言无处不在。也许 STEM 作为讨论主题的流行是由于 STEM 课程的难度和典型 Reddit 用户的概况,但这纯粹是我的猜测。

然而,我并不惊讶地发现,这 8 个经常被讨论的话题中的任何一个都成为了热门话题。因为德州大学奥斯汀分校靠近州府,而且它在政治上很活跃,所以投票T3社会公正是意料中的话题。UT 最近还在计算机科学学院推出了一个新的数据科学硕士项目,考虑到数据科学的兴起和失业的增加,这个新的研究生数据科学项目引起轰动也就不足为奇了。最后,剩下的话题可以归因于影响我们所有人的一般谈话主题或与 COVID 相关的话题(因为 COVID 也影响我们所有人)。

顺便提一下,LDA 分析实际上从 UT Austin subreddit 的聚合数据中产生了 9 个主题。第 9 个主题是入学,这是有意义的,因为 subreddit 不仅限于 UT Austin 的学生,并且这一分析的时间(大学申请通常最晚开放到早春学期)。然而,UT 本科录取与本文的重点无关;所以我丢弃了录取这个题目。

人们感觉如何?

总体

使用 VADER *(价感知词典和情感推理器)*的情感分析显示,一般来说,在 UT Austin subreddit 上发帖的学生感觉中立**。虽然很容易将这归因于大学生内心的死亡——尤其是在学期的这个时候——但中性文本条目的比例很大可能是由于 subreddit 的文化和 reddit 本身帖子的性质;然而,作为一个旁注,我发现许多对话的语气比我想象的更加中性。**

同样令人鼓舞的是,正面情绪的总百分比比负面情绪的总百分比高。为了确保积极的 COVID 测试案例不会人为地夸大积极的百分比,我检查了所有包含积极的的行,并手动调整了与 COVID 相关的情感分数。

**Sentiment     Percentage
------------------------  
Neutral          99.26%
Positive         61.23%           
Negative         38.47%**

为了阐明百分比代表什么,使用 VADER 词典分析来自聚合 Reddit 文本的每行文本的正面**、中性负面情绪的得分,以计算其情绪构成。每条线还被分配一个复合情绪极性得分,其范围从-1 到 1,其中-1 表示该范围的负端,1 表示该范围的正端。利用这些分数,我计算了所有的正面、中性和负面文本的行数,方法是将每一类(正面、中性和负面)中得分超过 0 的行数除以所分析的文本行数。因为每一行都有积极、中性和消极情绪的百分比(换句话说,每行的积极、中性和消极数字并不相互排斥),所以这里的百分比总和不是 100%。**

我还取了所有文本条目的中值复合得分**,它是 0.126 ,这意味着这些文本条目总体上稍微有点正面。**

让我们进一步分析一下。

按主题

我提取了与一些主题相关的文本条目,以便更详细地理解情感构成。我优先选择了社会公正**、科学普通课程住房COVID ,因为它们是最相关的话题,也是我最感兴趣的。总体而言,市场情绪趋于中立。在我分析的任何话题中,积极情绪都没有占据主导地位。**

每个类别中的文本条目较少,所以我可以根据需要手动调整总的复合得分。正因为如此,我选择关注复合得分来进行分析(而不是像上面一样,关注每个文本条目的负面、中性和正面情绪)。为此,我将复合得分大于、等于和小于 0 的文本条目分别归类为正面、中性和负面。因为我使用了一个复合分数,所以每个文本条目只有一个复合值(或者,换句话说,每行的正、中和负是互斥的),这意味着每个主题的所有表值总和为 100%。

社会公正这是可想而知的最固执己见的话题之一——80.49%的文本条目总体上是负面**。**

**Sentiment     Percentage
------------------------  
Negative        80.49%
Neutral         12.20%           
Positive         4.88%**

以下是一个关于社会公正的示例文本条目,其复合情绪得分为-0.2755:

不合逻辑的世界的逻辑叙述

相比之下,关于社会公正的最积极的文本条目获得了 0.4404 的复合情感分数:

嘿,你提出了一个很好的观点。你说得对,这不是一个合适的比较。我猜是从我的角度听来的

科学
切换到一个更积极的主题(或者至少,根据 UT Austin subreddit 上的学生所说),我分析了关于科学的文本条目的情绪。这些文本条目中的大多数在情感上是中立的。

**Sentiment     Percentage
------------------------  
Neutral         48.15%
Positive        41.67%           
Negative        10.19%**

这些条目中的绝大多数都是礼貌性的帖子,询问不同物理、化学和生物课的最佳选择。

得到复合文本条目分数 0.8796 的删节样本文本条目是:

大家好,
我现在是一名 ECE 专业的新生,正在考虑是下学期还是整个夏天去上 PHY303K/103M。任何建议将不胜感激:)

为了将正面和负面并列,这个与科学相关的不太乐观的文本条目得到了-0.6696 的复合情绪分数(不管你是谁,坚持住,伙计):

为什么我在大学表现这么差

班级 围绕这个话题的对话一般都是围绕着建议相关班级注册和满足一定毕业要求的班级。6 个文本条目(在该类别的 59 个条目中)还提到了文化多样性旗帜,这似乎已经从课程表的课程中消失了。围绕该主题的大多数文本条目都是中性的。****

****Sentiment     Percentage
------------------------  
Neutral         77.97%
Positive        13.56%           
Negative         8.47%****

关于接收 0 的复合情感分数的类的典型文本条目是:

既然 2021 年春季的课程表已经出来了,而且大部分课程又上线了,如果你现在在家乡,你打算回奥斯汀吗?或者你打算在家里再呆一个学期?

作为比较,下面是一个负面文本条目,其复合情绪得分为-0.1(与文化多样性标志混淆相关):

春季简易 CD 课程?课程表没有帮助。

住房/居住
关于住房的文本条目通常是中性的或正面的,往往是评论、噪音投诉和建议请求的混合体。鉴于我听说过许多大学生抱怨住在吵闹且不太整洁的西校区,我很惊讶负面的比例如此之低;但是,也许谈论你梦幻般的生活空间并不能成为有趣的话题。

****Sentiment     Percentage
------------------------  
Neutral         48.21%
Positive        44.64%           
Negative         7.14%****

一个面条爱好者的帖子获得了 0.919 的情感复合得分,如下所示。因为强调了最佳选项,这篇文章在情感方面得分很高:**

西校区或附近最好的拉面是什么??老实说,奥斯汀最好的拉面是什么?

负的 post 得分-0.8312 描述了一种可怕的住房体验:

昨晚,大约午夜时分,我以为有人试图闯入我在远西校区的公寓…

科维德 人们对科维德的期望比我想象的要高,但总体情绪仍然是大多是负面的。为了确保阳性测试案例不会被错误地归类为阳性,我重写了阳性测试案例的 VADER 情感词典,并手动检查了文本条目。****

****Sentiment     Percentage
------------------------  
Negative        52.43%
Positive        25.71%           
Neutral         22.86%****

文本条目的示例包括对 UT 安全协议的称赞,其综合情绪得分为 0.8554:

我认为 UT 行动得足够早,有足够的社交距离和清洁协议,加上有限的面对面授课,它能够缩小,不像其他许多大型大学那样谨慎…

复合情绪得分为 0.8908 的讽刺妙语:

高价是值得的,哈哈,我们每隔几周就能得到免费的快速新冠肺炎测试。

以及不太轻松但相似的讽刺性评论,其复合情感得分为-0.6:

在美国,我们做不可能的事。我们已经把新冠肺炎变成了 COVID-21。因为我们没有进行适当的两个月锁定,我们将进行两年锁定。

长角牛和农校真的有那么大区别吗?

为了进一步分析,出于好奇,我比较了德克萨斯大学奥斯丁分校和德克萨斯 A&M 大学的 COVID 反应,同时也因为宿怨难改。为了做到这一点,我从 Aggies subreddit 收集了大约 2000 个最近热门的帖子,从 UT Austin subreddit 收集了大约 2000 个最近热门的帖子,以创建一个包含大约4000 个热门帖子的组合数据集(准确地说是 3907 个)。我决定只使用最受欢迎的书名,这次排除评论,部分原因是因为这样更容易收集数据,但也因为我想概括所有学校,而受欢迎的书名可以让我有一个大视野。

来自 UT 和 A&M subreddit 的合并帖子标题

主题

我进行了 LDA 分析(如上文中的所述),以发现 UT Austin 和 Texas A & M. 3 个主要话题在 UT Austin 和 Texas A & M 两个子区域均有讨论:

  • 投票
  • 健康/COVID
  • 足球

德克萨斯大学奥斯汀分校和 A&M 分校联合主题的 LDA 分析

这些都是合理的总体话题,尤其是考虑到这两所学校都位于德克萨斯州,在那里,高度重视足球是文化的一部分。请注意,这种分析不同于上面的单词袋方法,后者只查看最近帖子和评论中的提及次数;这种分析着眼于更早以前的帖子标题中包含的潜在主题(因此这里出现了与足球相关的讨论,但没有提到早先的)。

分析的下一步是比较两所学校每个主题的 LDA 分数。为了做到这一点,我按照学校对帖子进行了分组,并使用 LDA 计算了每个主题在上午和下午出现的百分比:**

A&M 和德克萨斯大学的潜在主题内容

我很惊讶地看到,由于奥斯汀市在政治上的活跃声誉,Aggies 在投票中得分更高,所以我手动浏览了一些 A&M 的帖子。在鼓励学生在美国总统选举中投票的信息中,有一些异常值(为了匿名,帖子标题被删节):

支持学生的大学站市议会候选人将举办一场户外活动…如果可以,请记得投票给…我。

Aggies 以他们的社区精神而闻名,看起来一些校园选举与总统选举在时间上是一致的。

我也查看了最近 UT Austin 的帖子,但最近所有与投票相关的讨论都围绕着总统选举。

情感比较

为了放大德克萨斯 A&M 大学学生和德克萨斯大学奥斯汀分校学生之间的差异,我按主题对每所学校进行了情感分析。我关注足球和 COVID,因为大多数与投票相关的帖子在两所大学之间没有太大差异,而是中立地鼓励学生投票。

足球

总的来说,德州 AM的学生似乎比德州大学奥斯汀分校的学生对足球有着更为平衡和积极的态度。****

agate playing marbles 玛瑙制成的玩具弹球

****Sentiment     Percentage
------------------------  
Neutral          61.28%
Positive         27.23%           
Negative         11.49%****

27.23%的 Aggie subreddit 帖子对 Aggie football 持积极态度,如以下帖子所示,这些帖子的情感综合得分为 0.7906:

凯尔·菲尔德,我们唯一的真爱

然而,并不是每个农校都同样热情。这篇文章的情感综合得分为-0.2808:

我希望我们足球踢得更好

长角牛

****Sentiment     Percentage
------------------------  
Neutral         50.00%
Negative        37.50%           
Positive        12.50%****

长角牛队比农校队对足球感觉更消极,考虑到围绕“德克萨斯之眼”的争议,这是有道理的。

关于足球最积极的 Longhorn 帖子得分为 0.4215:

在周六的足球赛上:很好

但是奥斯汀赢得了负分。本帖评分-0.7351(编辑匿名):

德州足球让我生气

COVID
德州 A & M 似乎处理 COVID 比 UT 奥斯汀多一点,但差不了多少。我很惊讶这两所学校的情感复合分数如此相似。

德克萨斯 A&M

****Sentiment     Percentage
------------------------  
Negative         65.00%
Neutral          30.01%           
Positive          4.99%****

Aggies subreddit 上最积极的帖子是关于给学生休息时间的行政决定,得分为 0.6019:

副教务长迈克尔. t .斯蒂芬森回应道:……我们担心学生的心理健康,所以我们在那个星期五离开了他们,并在学期初增加了另一个假期。

然而,并非所有的领导力都是平等的。这是一篇关于 COVID 在 Aggies subreddit 上的负面帖子,得分为-0.6808:

有没有办法匿名举报一个不遵守新冠肺炎准则的教授?

UT 奥斯汀

****Sentiment     Percentage
------------------------  
Negative         65.42%
Neutral          33.46%           
Positive          1.09%****

相比之下,UT 奥斯汀的职位更倾向于中立。由于一名工作人员不幸去世,负面情绪也有所增加。

关于 COVID 带来的卫生改善,最积极的帖子得分为 0.5766:

我喜欢的 COVID 的一个结果…

另一方面,德克萨斯州每日得分-0.258 的负面帖子让人们深入了解奥斯汀开始慢慢重新开放时德州的状况:

住在校外的学生担心新冠肺炎的安全,因为宿舍举办现场活动——每日德克萨斯

名声

为了弄清楚这两所大学的人与每所学校有什么联系,我首先对聚合数据集进行了词频分析,以找到常用词。

UT Austin 和 A&M 子词典联合词频分析

从这些词中,我决定寻找与频率分别为 73、72、61 和 48 的游戏、良好、工程covid 的关联,因为这些是最常见的有趣主题。然后我在 UT 和 A & M 上运行了一个 lift 分析,使用这些单词找到这些单词之间的关联

高校与大学的关联提升矩阵

计算升力的方程式是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

升力方程(图片由作者提供)

本质上,它通过同时提到两个单词的帖子数量除以两个帖子数量的乘积,找到两个单词之间的关联。当 lift > 0 时,我们可以声称两个词之间有关联。的提升分数越高,则的联想越强

在上表中,我们可以看到高校工程游戏相关联。 UT 则与 COVIDgame 关联。

我用多维标度 (MDS)图可视化了这些关联。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

UT 和 Aggies 之间的 MDS 情节(图片由作者提供)

该图用距离来表示关联强度:两个标签越近,关联越强。注意,每个标签的位置在该图中本身没有意义;相反,每个标签相对于其他标签的相对位置显示了每个标签的距离和关联关系。(德州 A & M 的右下方位置并不意味着德州 A & M 在本次分析中得分低于 UT Austin 事实上,数字讲述的是相反的故事。)作为理智检查,我们可以看到 UT 离 A & M 最远,这表明人们对 UT 和 A & M 的看法最不一样。考虑到升力的计算方式和这两所学校的背景,这是有道理的。我们可以看到比赛似乎在中间,这也是有道理的,因为两所学校都参加足球比赛。**

我有点惊讶地发现,人们更倾向于将A & M 联系在一起,但 A & M 的校风和文化似乎更强烈,说来有趣,这可能会带来更明确的声誉。另一方面, UT 奥斯汀COVID 有很强的关联性,很可能是由于某工作人员不幸去世。**

最终想法

在本文中,我主要关注 UT Austin 和德克萨斯 A&M,但本文中的概念和技术可用于回答任何数据问题,特别是那些与任何具有公开可用的用户生成数据的组织中的 COVID 反应相关的问题。

这个项目对我来说是一个很好的方式,可以同时应用和提高我的 NLP 分析和编码技能,同时也赶上了德州两所最大的大学的进度。A&M 和德克萨斯大学似乎都管理得相当好(尽管对他们目前的足球队来说不能这么说),并且正在回归正常。总的来说,我对许多结果并不感到惊讶,直到我比较了 A&M 大学和德克萨斯大学奥斯丁分校。特别有趣的是,A&M 的投票和工程主题分数都高于德克萨斯大学的分数。就情绪而言,农校比长角牛更不消极。

我最后要说的是:虽然我不愿意承认,但数据不会说谎:A&M 可能并不那么糟糕,但在一切恢复正常之前,我们可能需要迎头赶上。

基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业),个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值