TowardsDataScience 博客中文翻译 2021(三百三十四)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

热点:机器学习系统中表现不佳区域的自动化

原文:https://towardsdatascience.com/hotspots-automating-underperformance-regions-surfacing-in-machine-learning-systems-89cc4a18ec27?source=collection_archive---------25-----------------------

隔离有问题的数据以进行补救和重新训练 ML 模型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

粘土银行Unsplash 拍摄的照片

当系统具有高维数据时,对正确的数据输入区域进行故障排除就成为一个难题。热点自动识别与较差的 ML 性能相关的区域,以显著减少寻找这些区域的时间和错误。

概观

我们可能在生产中部署了一个 ML 模型,并在适当的位置部署了一些监控。我们可能会注意到,从经典的性能度量或者从结合可解释性技术的漂移监控来看,性能正在下降。我们已经确定我们的模型失败了,下一步是确定我们的模型失败的原因。

这个过程将涉及到分割和切块导致模型退化的输入数据。也就是说,我们希望看到哪些特定的输入区域与较差的性能相关联,并在此基础上制定解决方案,例如找到管道中断或在这些区域上重新训练我们的模型。

这基本上可以归结为一个耗时的大海捞针的任务。如果我们可以对流程进行逆向工程,并直接向用户展示所有的针,即与低性能相关的输入区域,会怎么样?

我们可以!我们将采取的步骤是

(1)在适当的划分目标上训练决策树。

(2)创建和存储热点树工件。

(3)在查询时从热点树中检索热点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:训练数据集并使用它创建热点树的通用框架,然后查询热点树以检索热点。每个阶段都输出下一行的第一部分中使用的工件。(图片由作者提供)

在下面的玩具例子中,我们将在整个帖子中使用,我们有两个由抛物线函数分隔的地面真实区域,抛物线上方是蓝色,下方是红色。数据点的颜色代表预测。我们希望隔离预测颜色与区域颜色不匹配的热点区域,我们在两个不同精度阈值的浅色框中这样做。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2:基于两个输入的热点检索示例。方框是热点,其中红色区域中的蓝点和蓝色区域中的红点是不正确的分类。随着阈值(在这种情况下是准确度)的降低,该算法以具有更多不正确分类的候选节点为目标,并且热点区域变得更窄/更纯。(图片由作者提供)

(1)在适当的划分目标上训练决策树

决策图表

当我们考虑将数据划分到感兴趣的区域时,我们应该考虑树模型,特别是决策树。请记住,我们的任务最终是一个推理任务,而不是预测任务,因此没有必要使用像随机森林或 XGBoost 这样的树集合模型,因为(a)我们没有试图执行预测,以及(b)集合引入了噪声和不确定的决策路径来分割我们的数据。

回想一下,决策树拆分的前提是基于在输入特征及其可能值的枚举中选择一个特征和拆分值,从而最小化杂质以基于输出标签创建更纯的子代。

简单地说,假设输出是彩色,我们有蓝色和红色的弹珠。所有的弹珠在两组中都有不同的直径,但是蓝色弹珠是有纹理的,而红色弹珠是光滑的。如果我们必须在直径大小或纹理之间选择来划分我们的弹珠,我们会选择基于纹理来划分弹珠,即纹理或平滑,因为这将完美地将蓝色弹珠分成一组,将红色弹珠分成另一组,在这种情况下,有效地将每组中的杂质减少到 0。

实际上,数据集需要多次分裂,以便将叶节点中的杂质减少到 0。

分割目标

那么,上面的蓝色和红色弹珠的等效物到底是什么呢?我们最终想要将坏的预测与好的预测分开,并且需要一些度量作为输出,即在我们的决策树中的划分目标。

对于分类,我们可以将正确的分类编码为 1,不正确的分类编码为 0。如果我们在划分时需要更多的粒度,我们也可以将分类编码为 1、2、3 或 4,分别表示真阳性、假阳性、真阴性和假阴性。

对于回归,我们实际上需要编码回归输出,即地面事实和预测之间的 RMSE,作为分类输出,例如,如果 RMSE 大于 RMSE 的中值+RMSE 的中值平均偏差,则数据点编码为 1,否则编码为 0。我们也可以使用百分比规则,例如,RMSE 超过 80%百分比的数据点为 1 或 0。我们不使用均值和标准差的原因是因为这些值会被高 RMSE 异常值扭曲,而重点是划分与平均值相比具有高 RMSE 的数据点。这模拟了我们在分类案例中想要的行为,在解释了分类案例的方法之后,我们将更深入地研究为什么我们不能使用回归输出。

(2)创建和存储热点树工件

如果我们将玩具示例中的 500 个数据点输入到决策树中,使用上面讨论的四个类的编码方法,该树看起来像这样:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3:例子[四。在两个输入 X[0]和 X[1]上训练决策树]。这些框是节点,其中每个节点具有一组相关联的度量(即准确度、精确度、召回率、F1 分数),这些度量可以用作查询热点的阈值。每个结点代表一组数据点,这些数据点通过从顶部根结点到特定结点的路径上输入要素的累积范围进行过滤。热点是违反用户指定的阈值的节点。提取热点节点]步骤。热点可以是树中的任何节点,而不仅仅是树底部的末端叶节点。(图片由作者提供)

在这里,我们只有两个特征:X[0]和 X[1]。在决策树的每个节点上,数据根据特征和临界值被分成两个子节点。例如,在根节点处,500 个数据点被分成两组,左子组和右子组,其中 X[1] ≤ -2.258 和 X[1] >-2.258。我们可以沿着从根节点到任何子节点的任何特定路径积累规则。

我们还可以计算节点中数据的准确性、精确度、召回率和 F1 等性能指标。

(3)在查询时从热点树中检索热点

现在我们有了热点树,让我们挑选一些热点!请注意,在图 2 中,我们有 0.3 和 0.5 的精度阈值。在后一种情况下,热点区域更宽,会意外捕获更多正确分类的点。随着阈值的降低,我们对偶然捕获正确分类的更大区域的容忍度降低。通常,我们可能认为我们总是想要较低的阈值来仅捕获错误分类的数据点,但是这确实冒了风险:( a)使区域变得非常小并且不可解释;( b)隔离许多可能不包含许多数据点的区域,需要大量的人工工作来调查。

那么这些热点是如何恢复的呢?

当在查询中发送准确性阈值以从热点树中提取热点时,我们从根节点开始遍历所有可能的路径。在遍历中的任何节点,如果一个节点违反了阈值,则该节点被定义为热点,并且该节点中的所有信息被附加到返回给用户的热点列表中。

具体来说,在我们的例子中,准确性是我们的衡量标准。在任何特定节点,如果该节点的精度低于阈值,我们知道该节点中的数据点共同违反了阈值,并且该节点是热点。每当一个节点被识别为热点时,沿该路径的遍历停止,因为下游节点会更纯,而性能差的节点甚至更极端地违反用户提供的度量和阈值。

当然,在查询时定义指标和阈值的好处在于,用户可以根据问题和阈值的容忍度,使用不同的指标和阈值组合进行重新查询。

发现热点!

使用阈值为. 5 的示例,我们的三个热点是

热点包含输入数据区域上的过滤器,这些过滤器可应用于获取整个数据集以进行进一步检查、研究和模型开发。

深潜

如承诺的那样,回答上面关于回归的悬而未决的问题,再加上一些更深层次的问题!

深入研究:(1)根据适当的划分目标训练决策树

那么为什么不回归呢?

天真的设置是在我们的回归任务中采用基础事实和预测之间的 RMSE,并将它们用作我们的划分目标。然而,分割节点中的数据的回归标准是基于到该节点的数据的平均输出值的某种距离度量,例如 MSE,在这种情况下是 RMSE 值本身。当我们遍历热点树时,我们会将 MSE 高于某个阈值的节点标记为热点。

假设我们有大部分的 RMSE 价值观。05 和大约 0.10 的一些 RMSE 值,我们希望标记和隔离后者。回归树完全有可能将更多的. 10 RMSE 数据点分组在树的较低位置,一旦检测到热点,我们将永远无法根据停止角色找到它们。例如,一个路径可能是 0.06 毫秒、0.09 毫秒、0.04 毫秒。给定 0.06 和 0.09 毫秒之间的用户阈值,在这种情况下,我们将永远不会到达第三个节点,因为 0.09 > . 04,并且第三个节点可能包含许多 0.10 RMSE 数据点(较低的 0.04 值来自于这样一个事实,即有许多 0.10 RMSE 数据点,只有几个 09 MSE 点,因此在 RMSE 值非常接近的意义上,该节点是“纯的”)。

我们可以使用自定义回归标准来解决这一问题,该标准使用相对于 0 的距离,即原始 RMSE 值,而不是相对于节点中平均 RMSE 的 MSE 距离,但这引入了跨模型和数据汇总的标准化问题。如果 0.10 的 RMSE 值对一个模型来说并不坏,但对另一个模型来说却是坏的,那该怎么办呢?因此,将回归设置转换为分类设置更可靠。

数据汇总

如果我们有一个流(或批处理)模型,我们一次在创建热点树时要放多少数据?如果我们在上周(或之前批次的)数据上创建了一个热点树,现在看到了传入的数据,我们是追加这些数据点并重新训练之前的树,还是为本周(或当前批次的)数据创建一个新的热点树?

实现这一点当然没有错误的方法,但在 Arthur AI,我们采用后一种方法。如果我们有一棵桔子树,现在有一些苹果装在一个盒子里,我们可能会对产生这些苹果的苹果树感兴趣,以找出为什么我们会收到一些腐烂的苹果,而不是我们上周已经检查过的桔子树(或批次)。

元数据丰富!

请注意决策树的输入实际上可以是任何东西,包括没有用作创建原始预测的模型的输入的元数据!这意味着通过热点展现洞察力不仅限于模型输入,如果我们跟踪模型中敏感的非输入属性,如种族或性别,这可能会有好处。

深入研究:(2)创建和存储热点树工件

为什么所有的指标?

准确性不是王道,用户需要不同的度量标准,这取决于他们的 ML 模型正在解决的任务。这个很好地介绍了精度和召回率等其他性能指标。读完之后,这里有两个实际的例子,在我第一次学习精确和回忆的时候帮助了我。

(1)考虑用于从财务报告中抓取财务数据的机器人的异常检测系统。如果我们有许多来自 ML 模型的假阳性,这将是可怕的,这意味着该模型将预测错误的信息(阳性)存在于许多实际上是正确的(假的)文档中,导致补救团队在没有错误的任务上浪费时间(如果一些假阴性从裂缝中溜走,这真的不会是很大的问题)。在这种情况下,高精度很重要。

(2)考虑癌症检测模型。如果我们从 ML 模型中得到许多假阴性,这将是可怕的,这意味着该模型将预测许多确实患有癌症(假)的人没有癌症(阴性),导致缺乏推荐的治疗和这些人的进一步健康并发症。在这种情况下,高召回率很重要。

多分类和微矩阵

我们如何推广到多分类任务?准确性仍然是一样的,我们可以在下面的玩具示例中的全球指标下使用加权的准确性、召回率和 F1 分数。请注意,我们现在不仅可以定义宏观指标,还可以定义精确度、召回率和 F1 分数的微观指标,这与每个基础事实类别有关。这可能是强大的,因为现在可以在特定类上遍历热点树,例如,如果鸟类导致对象检测模型的许多模型失败,并且我们希望弄清楚特别是鸟图像发生了什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4:一个多分类的例子(作者的图片)

结论

今天到此为止!希望您获得了一些关于如何为您的特定用例实现热点浮现的见解!我们在 Arthur AI 实施这些类型的系统,自动化是 ML 监控中客户体验的一个重要产品类别。

快乐监控!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

设计生态学家在 Unsplash 上拍摄的照片

基于 Zillow 经济学数据集的房价预测

原文:https://towardsdatascience.com/house-price-forecasting-using-zillow-economics-dataset-2b58e6cd1c03?source=collection_archive---------25-----------------------

现实世界中的 DS

基于 SARIMA 模型的房价时间序列预测

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

之前的博客中,我们讨论了使用机器学习算法的房价预测模型。在这篇博客中,我们将讨论使用统计建模方法对 Zillow economics 数据进行时间序列预测。该项目于 2019 年 9 月实施,并对下一年即 2020 年的房价进行了预测。通过改变预测的跨度,即预测的年份或预测的持续时间,可以重用代码。本博客中讨论的结果是 2020 年的。

该项目通过使用 ARIMA 2020 年的统计模型预测房价,并显示全国和州房价的总体趋势,从而帮助客户、房地产代理商、房屋交易公司和其他投资者。2008/2009 年的大衰退给美国房地产市场带来了巨大损失。然而,房地产市场已经反弹,经历了房地产市场房价下跌后的快速上涨。投资房子是重大决策,需要慎重考虑。

房地产市场的上升趋势使得整个行业相当不稳定。因此,建议潜在买家在房产调查时多花些功夫,考虑他们的预算、财产税和其他各种因素。因此,对于潜在的买家和卖家来说,在采取大的或小的步骤之前,咨询房地产和房屋市场专家变得不仅仅是必要的。这个房屋预测数据科学项目将帮助买家、卖家、房地产顾问和其他利益相关者进行决策。[1]

本项目中使用的数据集是

  1. Zillow 经济学数据集-县时间序列和县人行横道

数据来源:【https://www.kaggle.com/zillow/zecon

Zillow 的经济研究团队从各种公共和私有来源收集、整理和发布住房和经济数据。向当地市政府归档的公共财产记录数据,包括契约、财产事实、地块信息和交易历史,构成了我们数据产品的主干,并通过 Zillow 上的财产清单和用户行为衍生的专有数据得到充实。

Zillow 汇总的大部分房地产市场和经济数据都可以在 zillow.com/data.免费下载

可用的数据文件有:cities_crosswalk.csv、City_time_series.csv、County_time_series.csv、CountyCrossWalk_Zillow.csv、DataDictionary.csv、Metro_time_series.csv、Neighborhood_time_series.csv、Neighborhood_time_series.csv、State_time_series.csv、Zip_time_series.csv [2]

我用的是 County_time_series.csv,CountyCrossWalk_Zillow.csv [2]

时间序列数据依赖于时间;以恒定的时间间隔进行采样。Zillow 每个月底都会收集数据。时间序列会有某种形式的季节性趋势。平稳时间序列的统计特性如均值、方差、自相关等。都是不变的。大多数统计预测方法都是基于这样一种假设,即通过使用数学变换,时间序列可以呈现为近似平稳的(即“平稳化”)。一个平稳化的序列相对容易预测:你简单地预测它的统计特性在未来将会和过去一样!

试图使时间序列平稳化的另一个原因是为了能够获得有意义的样本统计数据,如均值、方差以及与其他变量的相关性。如果序列是稳定的,这种统计作为未来行为的描述符是有用的。例如,如果序列随着时间的推移不断增加,样本均值和方差将随着样本的大小而增加,并且他们将总是低估未来期间的均值和方差。

使用 plolty 绘制的“所有房屋的销售价格中值”如下所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按月重采样后

下图是按月重新采样后的视图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用迪基富勒测试检查平稳性

扩展的 Dickey-Fuller 测试是一个众所周知的统计测试,可以帮助确定您的时间序列是否是平稳的。[4]

静止与非静止

在平稳的时间序列中,均值和方差等统计属性在一段时间内保持不变。在非平稳序列中,这些属性依赖于时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了确定一个时间序列是否平稳,我们将使用 ADF 检验,一种单位根检验。单位根是不稳定的一个原因,ADF 测试将测试单位根是否存在。[7]

如果时间上的单次移动不改变时间序列的统计特性,则时间序列是平稳的,在这种情况下,单位根不存在。

扩充的 Dickey-Fuller 检验的无效假设和替代假设定义如下:

零假设表明存在单位根。

另一种假设认为没有单位根。换句话说,平稳性是存在的。

如果 P 值小于定义的显著性水平,我们拒绝时间序列包含单位根的零假设。换句话说,通过拒绝零假设,我们可以得出结论,时间序列是平稳的。

如果 P 值非常接近您的显著性水平,您可以使用临界值来帮助您得出关于时间序列平稳性的结论。我为这个测试所做的实现在 Python Jupyter 的笔记本中,可以根据需要获得。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对时间序列执行 Adfuller 函数后的初始值

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里的滚动平均值不断增加,因此时间序列是非平稳的。在上图中,我们可以看到,检验统计量(p 值) >临界值为 5%,所以该时间序列是非平稳的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

消除趋势和季节性

差分就是用一个特定的时间间隔来计算差值。分解是对趋势和季节性建模,并将它们从模型中移除。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

消除趋势和季节性

差异:在特定的时间间隔内取差异,分解:建模趋势和季节性,并从模型中移除它们

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

测试统计< critical value & p-value is 0.000005. We are getting constant mean and standard deviation. So now we got stationary time series.

ARIMA

ARIMA 算法是一类捕捉时间序列数据中时间结构的模型。然而,仅使用 ARIMA 模型,很难对变量之间的非线性关系进行建模。

自回归综合移动平均模型(ARIMA)是自回归移动平均(ARMA)的广义模型,它结合了自回归(AR)过程和移动平均(MA)过程,建立了时间序列的复合模型。

AR:自回归。一种回归模型,使用一个观察值和多个滞后观察值之间的相关性。

一:集成。通过测量不同时间观察值的差异使时间序列平稳。

移动平均线。当移动平均模型用于滞后观测值(q)时,考虑观测值和剩余误差项之间相关性的一种方法。p 阶 AR 模型的简单形式,即 AR (p ),可以写成线性过程,由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里 Xt 代表平稳变量, c 为常数, ∅t 中的项为滞后 1,2,…,p 处的自相关系数, ξt, 为残差,为均值为零且方差为 σt 的高斯白噪声序列。

ARIMA 模型的一般形式被表示为 ARIMA (p,q,d)。对于季节性时间序列数据,短期非季节性成分可能会对模型产生影响。ARIMA 模型通常表示为 ARIMA (p,q,d),其中:—

  • p 是用于训练模型的滞后观测值的数量(即滞后阶数)。
  • d 是应用差分的次数(即差分的程度)。
  • q 是移动平均窗口的大小(即移动平均的阶数)。

例如,ARIMA (5,1,0)表示自回归的滞后值设置为 5。它使用差序 1 使时间序列平稳,最终不考虑任何移动平均窗口(即大小为零的窗口)。RMSE 可用作误差度量来评估模型的性能、评估预测的准确性以及评估预报。

因此,我们需要估计季节性 ARIMA 模型,它在一个乘法模型中包含了非季节性和季节性因素。季节性 ARIMA 模型的一般形式表示为(P,Q,d) X (P,Q,D)S,其中 P 是非季节性 AR 订单,D 是非季节性差异,Q 是非季节性 MA 订单,P 是季节性 AR 订单,D 是季节性差异,Q 是季节性 MA 订单,S 是重复季节性模式的时间跨度。估计季节性 ARIMA 模型最重要的一步是确定(P,Q,D)和(P,Q,D)的值。

然后,使用自相关函数(ACF)来测量由滞后 P 分隔的时间序列中的观测值之间的线性相关量,使用偏自相关函数(PACF)来确定需要多少个自回归项 q,使用反自相关函数(IACF)来检测过差分,我们可以识别自回归阶 P、差分阶 D、移动平均阶 q 的初始值以及它们相应的季节参数 P、D 和 q。参数 D 是从非平稳时间序列到平稳时间序列的差频变化的阶。

在针对单个时间序列数据的流行的单变量方法“自回归移动平均(arMA)”中,自回归(AR)和移动平均(MA)模型被结合起来。单变量“自回归综合移动平均(ARIMA)”是一种特殊类型的 ARMA,其中模型中考虑了差异。

多变量 ARIMA 模型和向量自回归(VAR)模型是其他最流行的预测模型,这些模型又通过允许一个以上的演变变量来推广单变量 ARIMA 模型和单变量自回归(AR)模型。

ARIMA 是一种基于线性回归的预测方法,最适合预测一步样本外预测。这里,所开发的算法执行具有重新估计的多步样本外预测,即,每次模型被重新拟合以建立最佳估计模型。该算法处理输入的“时间序列”数据集,建立预测模型,并报告预测的均方根误差。它存储两个数据结构来保存每次迭代中累积添加的训练数据集“历史”,以及测试数据集的连续预测值“预测”

萨里玛

ARIMA 是用于单变量时间序列数据预测的最广泛使用的预测方法之一,但是它不支持具有季节成分的时间序列。扩展了 ARIMA 模型(SARIMA ),以支持该系列的季节性部分。SARIMA(季节性自回归综合移动平均)是一种时间序列预测方法,用于包含趋势和季节性的单变量数据。SARIMA 由该系列的趋势和季节元素组成。[8]

与 ARIMA 模型相同的一些参数是:

  • p :趋势自回归顺序。
  • d :趋势差序。
  • q :趋势移动平均订单

不属于 ARIMA 的四个季节要素是:

  • P :季节性自回归顺序。
  • D :季节差价订单。
  • Q :季节性移动平均订单。
  • m :单个季节周期的时间步数。

因此,SARIMA 模型可以指定为:

萨里玛(P,D,q) (P,D,Q)米

如果 m 是 12,它指定每月数据表示每年的季节性周期。

SARIMA 时间序列模型还可以与空间和基于事件的模型相结合,以产生解决多维 ML 问题的集成模型。这样的 ML 模型可以被设计来预测一年中一天中不同时间的蜂窝网络中的小区负载,如下面的示例图所示

来自时间序列分析的自相关、趋势和季节性(工作日、周末效应)可用于解释时间影响。

调整 SARIMA 超参数

配置 SARIMA 需要为序列的趋势和季节元素选择超参数。

实施细节

我使用 SARIMA 为时间序列预测编写的 python 代码(Jupyter notebook)可以按需获得。

用于预测时间序列数据的一个常用模型是 ARIMA 模型。它代表自回归综合移动平均线。如您所知,数据具有季节性,因此让我们使用季节性 ARIMA,SARIMAX 来预测模型。

Python 中可用于建模和预测时间序列未来点的方法之一称为 SARIMAX,它代表带有外生回归量的季节性自回归综合移动平均。

使用的 API 是-stats models . TSA . statespace . sarimax . sarimax[5]

使用的指标

R

r 表示项(数据点)与曲线或直线的拟合程度。

MSE — 均方误差

RMSE —均方根误差。它是 MSE 的平方根。

使用 Zillow Economics 数据集中的 County_time_series 进行县级房价中位数预测

每个 Zillow 房屋价值指数(ZHVI)是一个时间序列,跟踪特定地理区域的每月房屋价值中位数。一般来说,每个 ZHVI 时间序列始于 1996 年 4 月。Zillow 生成了七个地理级别的 ZHVI:街区、邮政编码、城市、国会选区、县、大都市地区、州和国家。我们用一个县的房价中值来做预测。我们先来看趋势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在上图中,你可以看到一个清晰的趋势,但趋势中也有季节性。时间序列的预测应该是稳定的,否则预测将是不正确的。

预测模型(县序列 ZHVI _ 所有家庭)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从上面的图表中,我们可以看到-

直方图与 KDE 略有不同。线性回归是可以改进的。

验证模型

让我们通过列车测试和分离来验证该模型。[80, 20]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面的预测并不完美,但与其他参数相比仍然是更好的。让我们看看模型的均方误差。

得到的均方误差为 95146.11

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在上图中,您可以看到对未来 24 个月的预测,置信区间也更好,并且没有看到太大的差异。

预测清楚地表明,与 2019 年相比,2020 年的房价将会上涨。

后续步骤

作为下一步,我想使用亚马逊预测 API 来预测房价,并检查它是否会给出更好的结果。

承认

我真诚地感谢我的数据科学导师 Ramakrishna Soma 博士对我完成这个项目的指导和鼓励。

参考

  1. https://www . Washington post . com/business/2019/01/07/experts-weigh-what-housing-market-will-bring/
  2. Zillow 经济学数据集【https://www.kaggle.com/zillow/zecon
  3. https://people.duke.edu/~rnau/411diff.htm
  4. Dickey Fuller 测试 stats models . TSA . stat tools . ad Fuller—stats models
  5. ARIMA 模型 SARIMAX APIhttp://www . stats models . org/dev/generated/stats models . TSA . statespace . SARIMAX . SARIMAX . html
  6. 用 Zillow Economics 数据集进行房价预测https://towards data science . com/house-price-Prediction-with-Zillow-Economics-Dataset-18709 abff 896
  7. 如何用 Python 检查时间序列数据是否平稳https://machine learning mastery . com/Time-Series-Data-Stationary-Python/
  8. 关于用 Python 进行时间序列预测的 SARIMA 的简单介绍https://machinelementmastery . com/sa Rima-for-Time-Series-Forecasting-in-Python/

类固醇上的房价预测

原文:https://towardsdatascience.com/housing-price-prediction-on-steroids-83daccc84d6d?source=collection_archive---------34-----------------------

通过使用 Python 从外部数据生成要素来提升性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

西雅图风景;图片来自pixabay.com

介绍

在本文中,我们将创建一个预测模型来预测西雅图的房价。我们将首先使用房产的属性制作一个模型**,比如平方英尺、房间、卧室、浴室、风景等等。**

然后,我们将通过从外部数据生成特征,如文化空间、公园、公共艺术场所、高尔夫球场、游泳海滩、野餐桌等的邻近度,来 显著改进该模型…衡量每个新增功能的改进。

我们要做什么

  • 步骤 1: 探索西雅图房价数据
  • 第二步:创建价格预测模型
  • 步骤 3: 从外部数据添加特征
  • 第四步:比较和分析结果

第一步。探索西雅图房价数据

为了制作这个模型,我们将使用来自这个房屋预测项目的“西雅图房价”。它包含 21613 份 2015 年以来的价格记录,其中有几个来自房屋的特征。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

100 次观察的随机样本

“价格”列将是我们预测的目标变量。

让我们来看看价格与其他价格的关联热图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

价格对所有的关联图

值得一提的是,源代码并没有提供每个特性的描述,有些特性还不太清楚。出于本教程的考虑,我假设‘sqft _ living 15’是‘sqft _ living’的某种变体,以此类推。此外,他们如何量化“条件”、“景观”或“滨水区”有点神秘,但这并不困扰我,因为它们都没有根本的相关性。

第二步。创建价格预测模型

让我们创建一个标准模型来获得预测分数、训练(90%)和测试(剩下的 10%)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

StandardModel 类获得分数

引用文章的作者通过使用GradientBoostingRegressor获得了最佳结果,因此让我们用完全相同的参数保持完全相同的实验,以便能够知道这些特性带来了多少孤立的改进。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分数是 0.79(在 0-1 的范围内)。

我们想了解每个特性给表带来了多少改进。让我们做一个实验。让我们从一个随机选择的变量开始预测,然后一次增加一个变量,看看分数如何达到 0.79 的整个过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

需要说明的是,第一行是模型只通过**使用‘yr _ renewed’得到的分数,第二行是模型同时使用的‘yr _ renewed’和‘sqft _ living’**得到的分数,以此类推。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是每个新特性如何改进这个特定实验的模型的路线图。当然,并不是所有的功能都带来价值(有些功能甚至会减去价值),有些功能非常相关

然而,这并不意味着如果以不同的顺序选择,这些特性会以相同的方式提供帮助,所以让我们将这个实验运行 30 次并收集数据以获得对特性重要性的更真实的了解。

让我们来看看 30 次实验后按特性计算的平均改进。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虽然探究为什么 sqft_lot 似乎会破坏模型会很有趣,但是这些结果并没有什么特别显著的地方。

第三步。从外部数据添加要素

现在,我们希望通过按位置添加相关数据来生成有用的特征

首先,让我们使用这个来自 data.seattle.gov 的“西雅图野餐桌”,它(令人震惊地)列出了西雅图所有野餐桌的位置。

假设是野餐桌的距离与房价有着有意义的关系(如果附近有公园,房产会更有价值)。

为了生成有用的数字特征并将其添加到我们的数据集中,我们使用了位置混合算法。其工作原理是,我们将原始数据(西雅图房价)作为起点,并在限定的半径范围内添加来自“外部”数据集(野餐桌)的附近观察值的数量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

位置混合算法

**“半径 1 公里范围内的野餐桌数量”**作为一个新列添加到我们的西雅图住房数据集中,如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

混合外部数据之前的数据帧

我们使用 OpenBlender API 在我们的数据帧上定位混合 1 公里半径上的野餐桌的“计数”,作为一个新特性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在,我们的西雅图住房数据框架有了一个新的数值特征,即在 1 公里的半径范围内计算野餐桌的数量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

混合后的数据帧

现在,让我们添加许多其他功能:

文化空间

足球场

游玩区域

浅水池

饮水机

绿色区域

篮球场

公共艺术

野餐地点

高尔夫球场

让我们为 300 米半径和 1 公里半径创建特征。

现在我们有一个 47 列的数据框架,带有数字特征。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

21613 行× 47 列

第四步。分析结果

现在让我们再次通过我们的模型运行新数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分数是 0.914!!

让我们再次随机添加变量,并与之前没有外部数据的模型进行比较,查看特性路线图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

没有外部数据的最大分数0.79 ,而有新数据的新分数为 0.91** ,在两种情况下使用相同的测试集和相同的模型。**

这是一个巨大的改进,我们只增加了一些功能!有一个几乎无限的功能宇宙可以添加,以进一步提高分数。

让我们再次运行实验 30 次,以了解每个特性的相关性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

文化空间似乎发挥了特别重要的作用。许多新功能提供了显著的改进。

这是 Github 到这个回购的链接。

如何在两周内构建基于云的 ML Ops 框架

原文:https://towardsdatascience.com/how-2-build-a-cloud-based-ml-ops-framework-in-2-weeks-ae67e7a179fe?source=collection_archive---------20-----------------------

行业笔记

在本帖中,我们将详细介绍我们如何依靠软件工程中的 DevOps 最佳实践,在两周内构建一个完整的 ML Ops 框架。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们对 ML Ops @ Ekstra Bladet 的实现名为“Jokke”。资料来源:Ekstra Bladet。

许多组织已经投资开发基于机器学习的服务,但仍在努力寻找将机器学习模型从开发过渡到生产的最佳方式。

时至今日,这种方法通常是严格的,并且意味着各种各样的手动过程(以及这种手动过程所带来的所有操作风险)。从组织和模型开发人员的角度来看,这是非常低效和反生产的。

解决方案:ML Ops

当你开发一个现实生活中的机器学习服务时,你实际上是在开发一个软件。因此,在传统软件开发的世界中寻找解决方案是显而易见的。

正如在之前的文章中所详细描述的,来自软件工程的 DevOps 最佳实践使得软件可以(持续地)立即交付生产,并保持其可靠运行。

这些 DevOps 原则可以应用于开发和部署机器学习服务(新版本)的迭代过程。当这样做时,这有时被称为机器学习操作 (=ML Ops)

与 DevOps 类似,ML Ops 依赖于工具、自动化和工作流,这些工具、自动化和工作流抽象出意外的复杂性,让模型开发人员专注于他们应该做的事情和他们擅长的事情:开发机器学习模型。

建还是买?

存在多个云机器学习平台,包括 AWS Sagemaker、BentoML 和 ML Flow。它们当然不坏,但它们可能很贵,有时感觉像用大锤砸坚果。

当我们考虑如何接近 ML Ops 时,我们知道我们将很快不得不将许多机器学习模型投入生产,特别是推荐系统和自然语言处理系统。

此外,我们知道我们需要一个标准化和可扩展的设置。这种设置必须为几个模型构建者指定清晰简单的规则,同时保持训练方法的自由度。最后,我们的解决方案必须支持多种多样的 ML 模型,并能够轻松实现不断涌现的新机器学习方法。

这让我们选择建造而不是购买。

遇见“Jokke”

在我们的组织 Ekstra Bladet 中,我们使用 Amazon Web Services 堆栈中的一套相关服务,在两周内构建了一个简单(但功能强大)的基于云的 ML Ops 实现。我们把这个框架命名为“Jokke”。

其核心“Jokke”由两条连续集成 / 连续输送管道组成。管道是动作序列,每次模型开发人员向 git 提交新版本的机器学习模型时都会自动运行:

  1. 构建和发布模型的构建管道
  2. 一个 DEPLOY 管道将模型部署为一个微服务,通过 HTTP 请求计算预测

下面我们举例说明了两个管道的工作流程(的简化版本),以及它们是如何相互链接的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“Jokke”构建和部署 CI/CD 管道的工作流程。资料来源:Ekstra Bladet

接下来,我们将带您更详细地了解每个管道的工作原理。

阶段 1:构建

为了让机器学习模型与我们的框架兼容,模型的代码必须只满足几个要求。

我们已经尝试设计需求,这样它们强制执行我们为我们的模型开发代码的方式的最小标准化,而不限制模型开发人员对他们的分析方法和工具的选择的不必要的限制(实际上这是最重要的原因之一,为什么我们首先决定开发我们自己的框架)。

首先,我们要求模型的代码必须包装成 python 包。这是我们的框架与大多数可用解决方案之间的主要区别,后者专注于将笔记本电脑转变为服务。

我们还要求,模型本身必须作为自己的 python 类Model来实现,并有两个强制方法:

  1. produce_model():产生模型的方法。
  2. predict():通过调用(1)得到的训练模型预测新观测值的方法。

当模型开发人员向 git 提交模型的新版本时,它会触发“Jokke”BUILD管道来启动一个适当维度的虚拟实例,该实例:

  • 安装软件包
  • 运行由模型开发人员编写的测试(例如,单元、集成和验收测试(包括模型性能测试))
  • 训练并生产模型工件(使用produce_model()方法)
  • 在我们自己的 Python 包索引上发布模型包
  • 将模型工件和测试报告写入 AWS S3 存储桶

如果管道中的一个步骤失败,所有后续步骤都将中止。

如果流水线是成功的,则机器学习模型的新版本通过 python 模型包的新版本与训练好的模型工件的结合来发布。

如果你想知道代码中的构建管道是什么样子,我们已经发布了开源人工智能模型项目 NERDA 的简化版本:

一个用 Github 动作实现的我们的人工智能项目“NERDA”的简化“构建”管道的例子。

阶段 2:部署

如果“Jokke”构建管道成功,我们现在就有了自己的机器学习模型的新版本。如果我们想将模型部署为服务,即实时预测服务,我们的 Jokke DEPLOY 管道将完成这项工作。

我们所需要的是,模型开发人员构建一个最小的应用程序(默认为 python Flask 应用程序),该应用程序(1)加载由构建管道产生的模型包和模型工件,以及(2)利用predict()方法预测“预测”端点中的新观察。

当模型开发人员向 git 提交应用程序的新版本时,它会触发“Jokke”DEPLOY管道,即:

  1. 收集由构建管道产生的模型包和模型工件
  2. 将应用程序封装并发布为 Docker 映像
  3. 从(2)中内置的 Docker 映像启动一个 web 服务,该服务提供实时预测

与第一阶段一样,如果管道的任何步骤失败,所有后续步骤都将中止。

如果流水线成功,机器学习模型现在在测试环境中运行,在那里它通过 RESTFUL API(默认)实时提供预测。

如果我们对我们的新服务感到满意,剩下要做的就是单击一下就批准它,这将触发我们的服务部署到生产。耶!

还有吗?

“Jokke”不仅仅是管道。例如,我们已经使用出色的 cookiecutter 包为“Jokke”模型和服务设计了自己的项目模板。

此外,我们还开发了云基础设施,这使得为新项目启用管道以及在测试和生产中实时监控模型服务的仪表板变得更加容易。

我们取得了什么成就?

“Jokke”管道的优势在于,每当模型开发人员想要发布一个新版本的模型时,它们会自动执行原本必须由他/她手工完成的操作和工作。这使得可以(连续地)立即将新模型交付生产,并保持它们可靠地运行。

此外,“Jokke”使我们的模型开发人员能够专注于模型开发,从而利用他们的生产力。

快捷键

如果你想为你的机器学习项目尝试 CI/CD,你可以考虑开源框架 CML(连续机器学习),那看起来真的很有前途。

如果您像我们一样选择开发自己的框架,我们建议您利用您的云平台上的相关服务。例如,我们使用 AWS CodeBuild 和 AWS Code Pipeline 来编排我们的管道。其他成熟的云平台上也有类似的服务。使用这些服务当然有助于大大加快我们的开发过程。

退关货物

“Jokke”是由三个人组成的团队在两周内开发的:亚历山大·詹森西蒙·科肯多夫和你真正的。它现在被 Ekstra Bladet 的数据科学团队和 Ekstra Bladet 的 ML 创新团队用于构建和部署大规模模型,后者是新闻平台智能项目的一部分,由丹麦创新基金慷慨赞助。

资源

https://cml.dev/ https://pypi.org/project/cookiecutter/

400,000+Tweets 如何显示 Simone Biles 获胜

原文:https://towardsdatascience.com/how-400k-tweets-show-that-simone-biles-wins-ee941bdb13e2?source=collection_archive---------22-----------------------

奥运会是世界聚集的地方。Twitter 是全世界分享观点的地方。让我们使用 Graphia 和 NetworkX 来看看 Twitter 是如何对 Simone Biles 的决定做出反应的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

围绕“西蒙·比尔斯”的推文网络在 Graphia |塞犍陀·维韦克中可视化

西蒙·比尔斯的所作所为非常勇敢。或者至少,这是一种观点——我同意。我也热切地相信,她所做的将大大有助于推动我们的社会走向更少的偏见和更多的平等。我们的社会中存在着某些错误的期望和偏见;无论是在种族、性别方面,还是在这种情况下,顶级运动员应该或不应该做什么。我们慢慢开始意识到,这些孤立的观点并不能说明问题的全部,而且会造成巨大的压力。Simone Biles 为自己挺身而出,向世界展示,通过实现梦想和保持健康,你可以过上最好的生活。不必非此即彼。

但是世界对此作何反应呢?毕竟,奥运会最终是让全世界的人们聚集在一起进行友好的竞争。Twitter 是全球人民讨论的地方。所以推特是一个很好的信息来源,可以知道西蒙妮·比尔斯的决定是否被正面看待。这个问题的答案我们来看看 Twitter 的数据。

抓取 Twitter 数据

对于数据集,我在不到一天的短时间内收集了所有引用“西蒙妮”+“比尔斯”的推文。这可以是包含单词“Simone”和“Biles”的任何引用,包括“Simone Biles”或“#simonebiles”(不区分大小写)、“simone_biles”等。因此非常全面地代表了引用 Simone Biles 的所有 tweets。我使用 Twitter API v2 学术研究轨道,使用 Python 搜集 Twitter 数据。代码如下:

以下是每小时“西蒙·比尔斯”的推文数量与时间的关系:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每小时提到“西蒙·比尔斯”|塞犍陀·维维克的推特数量

以下是转发量最高的 10 条推文。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

引用“西蒙·比尔斯”|塞犍陀·维维克的转发量最高的推文

转发量排名前 10 的推文都是支持西蒙妮·比尔斯的!

以下是最受欢迎的 10 条推文。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 10 名喜欢引用“西蒙·比尔斯”|塞犍陀·维维克的推文

在这种情况下也是一样——所有前 10 名喜欢的推文都是西蒙·比尔斯的!

推特网

与我在#GameStop 上的文章类似,我建立了推文网络——其中节点是用户名,有向边表示用户通过@引用其他人。为此我使用了 python NetworkX 包。代码如下:

为了找到最重要的节点,我使用了 PageRank 算法。谷歌使用 PageRank 算法对网页进行排名,这也是它成为著名搜索引擎的原因。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在提到“西蒙·比尔斯”|塞犍陀·维维克的推文中,排名靠前的 10 个用户名

在关于西蒙妮·比尔斯的讨论中,所有被引用最多的推特人都是西蒙妮·比尔斯的支持者!

图形分析

Graphia 是一个网络可视化包,它本身可能值得一篇教程文章。我发现它比流行的图形可视化软件 Gephi 反应更快,视觉更清晰。然而,Graphia 拥有极其最少的文档

我无法在 Graphia 中可视化 40 万个节点,我将数据随机采样到 5000 条边中。(注:图中采样其实挺复杂的,但普遍使用的是随机采样)。

在 Graphia 中,很容易加载我生成的包含 5000 个随机采样边的边文件。最初,图表看起来像这样:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“西蒙·比尔斯”推特网的图解探索|塞犍陀·维韦克

Graphia 使用强制定向布局算法。该算法模拟所有图形节点之间的排斥力,以及连接的节点之间的吸引力,从而产生美丽的可视化效果。外围的节点并不都连接到中心的单个组件。因此,我们在不影响我们感兴趣的基本图形结构的情况下删除了这些节点。双击最大组件中图形的任何部分,放大该组件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

放大图片中最大的 twitter 网络组件|塞犍陀·维维克

然后我想象 2D 的图表

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2D 推特网络可视化|塞犍陀·维维克

接下来,我添加一个 PageRank 中心性可视化,将节点从蓝色(低等级)着色为红色(高等级)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Graphia 2D twitter 网络可视化(颜色表示页面排名中心)|塞犍陀·维韦克

在最大的蓝色圆圈的中心有一个鲜红色的节点,上面覆盖着多个节点。

放大可以看到,核心是 Simone Biles 的推特手柄@Simone_Biles:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

放大网络的心脏|塞犍陀·维维克

于是,围绕 Simone Biles 的对话就围绕着@Simone_Biles 展开了。这是有道理的,但这也表明西蒙妮·比尔斯能够控制自己的叙事。很有可能人们在负面谈论西蒙妮·比尔斯,在这种情况下,他们可能不会提到西蒙妮·比尔斯,而是她的诽谤者。看到她周围所有的支持是令人振奋的。

结论:

多个指标显示,围绕西蒙妮·比尔斯的推特对话对她的行动表示支持。也许通过选择不参加奥运会,并保持与她优先考虑的事情的联系,她赢得了比她以前无数次仅仅参加比赛更多的心。那不是会让她成为更大的赢家吗?

关注我 如果你喜欢这篇文章。

如果你对技术和现代社会之间的相互联系有全面的认识,请订阅我的时事通讯。

https://skandavivek.substack.com

数据科学导师如何帮助您

原文:https://towardsdatascience.com/how-a-data-science-mentor-can-help-you-41c7421c6e6e?source=collection_archive---------38-----------------------

地面零点

你可以向数据科学导师询问的 5 件事

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

韦德·奥斯丁·埃利斯Unsplash 上拍摄的照片

导师、蔻驰或向导。没关系。你需要一个能帮助你更快实现目标的人。我最近加入了一个名为sharpes minds的社区,通过一个导师项目来帮助那些想成为数据科学家的人。在过去的几年里,我指导我的几个朋友成功地将他们的职业生涯转向了数据科学。这就是为什么我觉得这项服务对那些想转行的人来说很有意思。然而,在与几位候选人交谈后,我发现许多候选人不知道他们可以从导师那里期待什么。完整地说,我认为许多人都希望他们的导师能给他们带来魔力。

这不是魔法,也不会一蹴而就。如果你问我,导师可以通过几种方式提供帮助。我想在这里与你分享,以确保你无论作为导师还是学员都能管理好自己的期望。

1 —有哪些必备技能?

导师可以帮助你在最短的时间内确定数据科学和软件开发中的基本技能和工具,如果没有你将无法工作。例如,导师可以帮助你识别数据争论的基础或者 Git 技术的基础。你没有世界上所有的时间,你必须有效地利用你的时间。

作为一名数据科学家,您必须学会如何使数据集为各种下游目的(数据争论)做好准备。你有时间仅仅为了数据争论而读一本 500 页的书吗?很可能不是!你还必须学会如何在团队内部协作开发(git 技术)。我从加入软件开发团队的数据科学家那里听到了许多恐怖的故事,他们不知道 Git,一种使您能够协作开发的技术。毫不奇怪,我写的“ 如何用简单的语言学习 Git”文章在 2 周内获得了大约 30000 次浏览。

导师可以帮助你在最短的时间内找到数据科学和软件开发中没有你无法工作的基本技能。

2 —你能检查我的代码吗?

不知道开发的最佳实践的数据科学家成功的机会更小。导师帮助学员的一个好方法是回顾 Github 项目,提供一些关于如何建立机器学习管道或进行最佳开发实践的提示。

首先,候选人在 Github 或 Bitbucket 上建立一个项目组合来展示自己总是有好处的。然而,更重要的是高质量地建设那些项目。例如,建议构建和部署一个机器学习服务,它可以通过一组 REST API 向用户提供服务,而不是将你的代码推送到一个只包含如何训练一个模型的 Github repo。开发中的最佳实践之一是“自动化开发管道”。我想你会喜欢看这篇文章:“ 如何构建自动化开发管道

一个不知道开发的最佳实践的数据科学家成功的机会更少。

3 —我如何在竞争中脱颖而出?

竞争有两个层次,一个是找工作前,一个是找工作后。在这里,我想描述一下导师是如何帮助你“找到工作”的。找工作后有很多方法可以提高,这不是本文的重点。导师可以帮你磨砺简历。你无法相信有多重要。获得面试的比率直接关系到你简历的质量。更重要的是,如果合适的人帮助你展示自己,你无法相信你的简历会有多好,尤其是如果你的背景是工程或科学。那些来自商业背景的人知道如何恰当地展示自己。简历是一页纸的文件。许多人很难在一页纸的简历中恰当地概括自己。

你无法相信,如果合适的人帮助你展示自己,你的简历会有多好,尤其是如果你的背景是工程或科学。

阅读这两篇文章:如何写一份优秀的数据科学家简历—给初学者如何写一份优秀的数据科学家简历—给专业人士。如果你仍然需要帮助来改进你的简历,给我写信。

4 —我如何才能在数据科学面试中胜出?

数据科学面试通常有三个技术步骤:(a)SQL 挑战,(b)ML 挑战,以及©现场技术面试。前两步成为标准,而第三步因公司而异。导师可以通过提供一些例子和解决方案以及分享一些技巧来帮助你面对 SQL 和 ML 的挑战。尤其是那些容易让你被拒绝的。你可以阅读这篇文章:“数据科学家 SQL 面试入门指南”来提高你的 SQL 技能。我正在写一篇名为“数据科学家 ML 面试入门指南”的文章。你可以订阅我的邮件列表或者跟随我阅读这篇文章。

数据科学面试通常有三个技术步骤:(a)SQL 挑战,(b)ML 挑战,以及©现场技术面试。

5-感谢额外的小费。

除了以上几项,一个优秀的导师可以在你个人成长的每个方面为你提供额外的建议。例如,基于你的兴趣和需求,一个伟大的导师可以为你提供有效的自学教育资源。一个学员可能拥有数学或物理的研究生学位,但没有任何编程经验,而另一个学员可能来自软件开发行业,没有任何线性代数或统计方面的背景。**他们有不同的需求。**你会喜欢阅读这篇文章:“用于各种教育目的的数据科学的 6 个 YouTube 播放列表”。

一个伟大的导师可以在你个人成长的每个方面为你提供额外的建议。

最后的话。

这是我认为导师可以提供帮助的 5 个方面。我可以列出更多,但这些是最常见的指导方式。导师也可能利用他或她的职业关系网给你找份工作,但除非你在这条路上表现出色,否则这是不可能的。希望这篇文章对你有用。如果你需要帮助来得到一份数据科学的工作,给我写信。

感谢阅读!

如果你喜欢这个帖子,想支持我…

https://pedram-ataee.medium.com/membership

数据科学家如何…装饰他的客厅?

原文:https://towardsdatascience.com/how-a-data-scientist-decorates-his-living-room-c5026f490c2b?source=collection_archive---------39-----------------------

数据驱动的方法:第二集

我为我的客厅找了一段时间的插图,但没有成功。因此,我想起了我在儿子的房间做的事情。那很有趣。😂

这样,我开始想办法用我的数学知识和技能来制作自己的插图。在网上搜索了几分钟后,我偶然发现了这个关于生殖艺术的马库斯·沃尔茨惊人的 GitHub repo

立刻,我变得非常兴奋,开始写我的第一行代码。

资料来源:Giphy.com

我的方法如下:

插图#1

我知道我的家庭办公室里有几个框架积了很多年的灰尘。所以我试着复制马库斯·沃尔茨的最近邻居图,但加入了个人风格。

我稍微修改了上面提到的 repo 的代码,以便为我的插图构建一个矩形。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

这很酷,但我需要更多。如果不是将每个点连接到其最近的邻居,而是以某种方式突出了点之间的关系。我的意思是,如果我用以下属性来标识这些点会怎么样:

点 A 是点 B 的一个 k 最近邻,而 B 也是 A 的一个 k 最近邻。

我真的很喜欢它的输出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

k = 8 个最近的邻居。为什么是黄色?与客厅的其他装饰相协调(图片由作者提供)

突然在想,黄段子和黑段子有关系吗?我会把它作为一个练习😉

插图#2

我一直在浏览 Marcus 的网页,因为我知道了 T21 的 Delaunay 三角剖分和 Voronoi 图之间的关系,所以我决定使用相同的数据集将两者结合在同一个图表中,并再次使用黑线和黄线。

结果是这个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Delaunay 三角测量加 Voronoi 图版本(图片由作者提供)

任务完成。现在,是时候打印和悬挂它们了😎。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

一个数据科学家如何去相亲

原文:https://towardsdatascience.com/how-a-data-scientist-goes-on-a-blind-date-b27f365691f9?source=collection_archive---------40-----------------------

实践教程

贝叶斯框架中的有序回归

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 波琳娜·坦基列维奇像素

当数据科学家准备相亲时,他/她会情不自禁地思考爱情、存在的孤独和相互信任。嗯…可能不是所有的数据科学家都这么想…但有些可能。无论如何,我想用最后一项,关于相互信任,给大家介绍一个贝叶斯框架中的序数回归这个话题。

因为即将到来的约会将是一次盲目的约会,我们不能确定对方的观点和信念。然而,在心理学中,已经有很多关于描绘性格的研究。标准化的问卷和测试被用来评估心理特征。这种问卷通常由评分表组成。受访者需要从一组离散的有序答案选项中进行选择,如“完全不同意”、“不同意”、“无意见”、“同意”和“完全同意”。这种等级量表被称为李克特量表。在本博客中,我们将利用这样一个问卷的例子来评估特定问题的答案,以及答案如何依赖于性别和年龄等特征。

马基雅弗利

这篇博客中的数据来自于克里斯蒂和盖修的 MACH-IV 问卷,它提供了一个马基雅维利主义的衡量标准。以尼可罗·马基亚维利命名的马基雅维利主义在现代心理学中被用来描述缺乏同情心和道德观,以及对个人利益的强烈关注。MACH-IV 问卷由摘自马基雅维利著作的 20 个陈述组成,受访者按照从“强烈不同意”到“强烈同意”的五分制对他们的同意程度进行评级。数据集可以在这里下载,真的很大;出于本报告的目的,我将仅使用从荷兰网络位置上传的数据。此外,我只关注 20 个问题中的一个:“总而言之,谦虚和诚实比重要和不诚实更好”。下图基于黑伯格和知更鸟,显示了结果与年龄和性别的关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

发散堆积条形图显示不同性别和年龄类别的所选问题的答案。总行数绘制在右手轴上。在我之前的博客中可以找到更多关于这类情节的细节。

该图显示,老年人和女性更倾向于同意这种说法。当试图对年龄和性别这两个独立变量的李克特量表的结果进行建模时,最好使用有序回归。因此,我想探讨这种类型的回归,以及如何在这份报告中的贝叶斯框架中进行这种回归。

模型

由于我们想要预测的结果是有序的,我们需要在贝叶斯框架中创建一个有序回归模型。可以这样做。答案 yᵢ={1,。。。,k} 归入 K 有序答案类别为 i = 1。。。n 个样本。该模型假设 yᵢ 是一个潜在的——未观察到的——连续量 yᵢ 的观察实现。此外,该模型定义了截止点 αₖ ,使得:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分界点 αₖ 根据因变量估算为 αₖ = β∗xᵢ 。注意,我们假设 β 不依赖于该模型中的 k ,因此假设对于每个切割点是相同的。此外,我们定义α₀=∞αₖ = ∞ ,这转化为以下描述:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 Cat(pᵢₖ)pᵢₖ0 和∑ pᵢₖ = 1 的分类分布。变量 pᵢₖ 表示样本 i 落入类别k的概率,分界点 αₖ 和回归变量 β 需要从数据中估计。在贝叶斯框架中,我们需要为分界点 αₖ 设置正态先验,因为 k = 1。。。,k1和回归变量 β 。在我们的示例中,我们有 K = 5 个答案选项、 n = 1062 个回归变量(年龄和性别)。让我们使用 σ = 1000 的相当无信息的先验。

这个模型的数字实现可以有许多不同的方式。在这篇博客中,我描述了使用 rjags 包R 中的一个实现。为了对变量进行正确的数值估计,对临界值 α 进行分类很重要。为了帮助模型开始,我们还需要提供 α 的有序初始值。JAGS 的模型描述如下:

```{r model, message=FALSE, cache=TRUE, results='hide'}
jags_model <- " model {
  for(i in 1:length(answer)) {
    answer[i]  ~ dcat(p[i, 1:5])

    logit(Q[i, 1]) <- alpha[1] - mu[i]
    p[i, 1] <- Q[i, 1]
    for (j in 2:4) {
      logit(Q[i, j]) <- alpha[j] - mu[i]
      p[i, j] <- Q[i, j] - Q[i, j-1]
    }
    p[i, 5] <- 1 - Q[i, 4] 

    mu[i] <- beta[1] * age[i] + beta[2] * gender[i] # no intercept
  }

  ## priors over thresholds
  for(j in 1:4) {
    alpha0[j] ~ dnorm(0, 1.0 / 1.0e3)
  }
  alpha <- sort(alpha0)

  # Priors for regression coefficients
  for(j in 1:2) {
    beta[j] ~ dnorm(0, 1.0 / 1.0e3)
  }
} "

结果

空间不允许在此显示所有诊断数字。相反,下表显示了变量的收敛、自相关、有效大小和点估计。盖尔曼统计量接近于 1,显示出适当的收敛。即使应用了 10 的稀疏因子,自相关系数也相当高。这种高相关性也反映在低有效样本大小值中。点估计显示有序的 α ,与年龄和性别呈正相关:老年人和女性更倾向于同意这种说法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于有序回归,定义和解释残差是相当困难的。在刘和张的之后,我们基于潜在变量计算替代残差。下图显示了作为平均响应函数的残差的小模式。qq 图显示了两端与预期直线的偏差,表明了非线性行为。残差中没有自相关,这很好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通常会创建效应图来可视化有序回归的结果。使用 JAGS 模拟的结果,我们可以重新计算模拟中每个条目的 pᵢₖ 。这些值可以根据年龄和性别绘制成下图。该图显示了模拟的预测。从图中可以看出,老年人更倾向于同意这种说法,而且女性也比男性更容易同意。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过计算数据集中每个条目的 pᵢₖ ,可以对数据进行预测。随后,可以从分类分布 Cat(pᵢₖ) 中进行抽取。由于这涉及到随机抽取,我们重复这个过程 100 次。结果可用于创建列联表。下表显示性能不怎么样,准确率只有 23%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

应用模型

假设一个 30 岁的男孩遇到一个 28 岁的女孩。在这个问题上,他的回答至少和她一样肯定的概率是多少?我们可以分别使用男孩和女孩的特征来计算模拟中每个条目的概率 pᵢₖ 。随后,可以从分类分布 Cat(pᵢₖ) 中进行抽取。下图显示了潜在变量的分布,它们有很大的不同。对于男孩来说,潜在变量更高的概率只有 0.5%。当查看答案类别时,通过从分类分布中抽取来模拟,我们发现有 55%的可能性,男孩的答案至少和女孩一样肯定。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结束语

使用贝叶斯框架的有序回归需要一些努力。所得到的模型受到高度自相关的影响,并且只能稍微预测正确的响应。很可能这个模型中没有考虑的其他因素也有影响。贝叶斯框架确实允许非常容易地估计答案的概率并比较它们。

人工智能如何赋能辅助技术并减少不平等

原文:https://towardsdatascience.com/how-a-i-can-empower-assistive-technology-and-raise-inclusiveness-abf616e78377?source=collection_archive---------28-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Unsplash 上拍摄的 ThisisEngineering RAEng

关于人工智能如何应用于残疾人辅助技术的快速介绍。

在过去几年中,数字技术已经显示出解决现实生活挑战的巨大能力,有助于改变经济的重要领域,无论是所谓的工业 4.0 还是健康领域。

另一方面,如果我们超越比特和字节,人工智能可以拓宽所有层面的包容性。让我们看看怎么做。

对智能辅助技术的探索

辅助技术越来越被认可,是通用架构之外对人工智能适用性较好的领域。

根据《福布斯》杂志发布的一篇文章,结合 Coherent Industry Insights 的数据,2015 年残疾人和老年人的技术市场估计为 140 亿美元,预计到 2024 年将达到 260 亿美元。

在人工智能(A.I .)资源和现代人机界面的帮助下,人类正在学习和掌握新的能力,为最需要的人寻求挑战的解决方案。

有了正确的技术,残疾人将有适当的资源来解决进入就业市场的障碍。

换句话说,使这些资源更容易为每个人所用,是保证残疾人进入传统上无法进入的手术场所的一种手段。

人工智能将如何支持这一点?

鉴于人工智能的全部潜力,技术需要让所有领域的人们的生活变得更简单。

全世界只有十分之一的残疾人可以使用辅助设备。因此,这一人口结构对就业数量的影响非常显著。残疾人的失业率是非残疾人的两倍。

2018 年 5 月,该公司首席执行官塞特亚·纳德拉报告了一项为期五年的 2500 万美元(约 9300 万雷亚尔)的承诺,用于残疾人的人工智能计划。

脸书是另一家投资残疾人人工智能项目的互联网巨头。社交网络使用算法为盲人创建即时图片摘要。该功能并非完美无缺,也没有超越人类的定义,但却增加了一个更加开放的世界。

有几种机器学习的技术。但是,他们的共同点是,每个人都希望人们向他们展示如何学习一项具体的工作,做他们想做的事情。例如,在脸书,图像识别系统由观看图像并告诉机器图像内容的人监控。

实时语音处理和人类语言转录是最传统的人工智能工具之一,对患有这种残疾的人来说非常有用。

虽然人工智能资源在智能手机中非常普遍,但仍在努力将这一事实引入物理世界。

由计算机视觉技术驱动的光学字符识别(OCR)也可以包括在内,这是一种将文本从纸质格式翻译成电子版本的方法。这意味着书籍,打印的电子表格,甚至插图和文本图像都可以转换成电子格式,并使用电子语音合成器大声朗读。

人工智能还将帮助盲人或视力低下的人受益于各种辅助技术,从盲文到计算机放大应用程序,机械放大镜和扩展字母键盘。

视障人士仍应依靠光学字符识别(OCR)。扫描仪类型将最初为纸张格式的文本转换为数字格式。然后,它被翻译成音频。报纸、杂志、书籍和图像可以使用电子语音合成器朗读或呈现出来。

物联网已经允许识别更多关于消费者和活动模式的知识。今天,计划以前对许多残疾人来说很难的任务变得很容易,如开关门窗、开灯关灯、更换移动设备、打开风扇、打电话等。它被称为家庭自动化。

在某些情况下,辅助技术使家庭变得智能。例如,残疾居民可以使用预设命令来启用应用程序。令人着迷的是,这种形式的技术还允许自我调整。

因此,根据先前描述的环境和迹象,将会有对太阳、温度、防雨等的调节。,往往旨在更大的独立性和户主的安全。

辅助人工智能的一个实例:计算机视觉 PDFReader

我正在开发一个应用程序,可以帮助用户仅通过头部运动来控制 PDF 阅读器。

使用人工智能,在计算机视觉中,web 应用程序使用形状预测器来检测用户面部的特征,以识别感兴趣的关键点和面部图像。有了这些信息,web 应用程序就可以做出控制 pdf 阅读的决定,比如放大和缩小、改变页面以及上下滚动。

许多智能手机应用程序使用摄像头来监控鼠标和键盘;我在这里的目的是提高对人工智能如何增强辅助技术的认识,让身体残疾的人能够执行日常任务。

在这篇文章中,您可以了解关于这款网络应用的更多细节。

结论

人工智能和移动技术的民主化是改善全球融合的一种方式,为残疾人带来越来越多的选择和生活质量。

除了促进日常任务之外,智能设备还可以获得社交社区的机会,并利用文化本身的知识——这是学习和成长过程中的基础。

人工智能应该被构建和应用来减少不平等,并与更具包容性的劳动力市场的建设合作,在这个市场上,智能资本可以让人们更高效、更舒适地执行日常任务。同样,我期待人工智能给每个人越来越公平的条件。

还有一件事…

如果你想在学习之旅中走得更远,我为你准备了一份关于人工智能、机器学习、深度学习和数据科学的培训课程清单,你现在就可以免费参加:

参考

你愿意支持我吗?

为了获得无限的故事,你还可以考虑注册https://jairribeiro.medium.com/membership成为中等会员,只需 5 美元。此外,如果您使用我的链接 注册 ,我将收到一小笔佣金(无需您额外付费)。

*https://jairribeiro.medium.com/membership *

人工智能如何在佛罗里达公寓倒塌之前就警告我们

原文:https://towardsdatascience.com/how-a-i-can-prevent-future-building-collapses-before-they-happen-71c3bf3740b5?source=collection_archive---------28-----------------------

一个人不能整天坐着盯着一面墙。电脑可以。

佛罗里达州 Surfside 的 12 层海滨公寓的部分倒塌震惊了全国。98 人被证实死亡,这是美国历史上最致命的建筑倒塌事件之一。结构性故障的根本原因尚未确定,但是从的初步报道来看,这场悲剧似乎是可以避免的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左图显示了 2021 年 6 月 24 日 Surfside 公寓大楼倒塌的后果。右图显示了人工智能探测器对“混凝土癌症”的探测。左图由迈阿密戴德消防救援部门拍摄,并且是公共领域。右图由阿齐姆·海林维基媒体知识共享署名拍摄

想象一下,如果已经存在于许多高层停车场的安全摄像头也可以报告建筑物本身的混凝土损坏

在为一家名为 Clarifai 的人工智能初创公司担任 Upwork 承包商几周之后,我意识到我可以利用他们的平台来创造这样一个东西。摄像系统已经全天 24 小时拍摄公共区域——包括混凝土停车场。下面的视频展示了一个完整的演示,包括灾难前一年对尚普兰塔南车库的漫游。

需要注意的一件重要事情是:虽然下面的演示使用了一个人走路时拍摄的视频(这是我们在倒塌前拥有的唯一一段 Champlain Towers 车库的镜头),但 AI 的设计是与安装在墙上的**固定摄像机一起工作。**它将扩展安全摄像机的作用,不仅记录人们在其视野中的行为,还报告墙壁本身的状况。

解释本帖中讨论的模型的背景、开发和演示的视频文章。模型演示从 2:43 开始。

一点背景知识

生活在像迈阿密海滩这样的热带气候中有一定的复杂性,特别是夏季的洪水。下面的照片和视频展示了一些更极端的例子,但这种情况一季会发生 3-4 次。天真的司机试图穿越被洪水淹没的道路,水被吸入他们的进气口,毁坏了他们的发动机缸体,这种情况太常见了。暴雨通常伴随着一些滞留的车辆,偶尔飓风会通过风暴潮将更多的水推到该地区。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我在 2018 年 7 月拍摄的夏季降雨引发洪水的照片。这是在柯林斯大道 6900 号街区拍的,8700 号,离尚普兰塔南区 18 个街区。作者照片。

虽然尚普兰塔灾难的原因尚未确定,但很容易想象这样的洪水,加上咸咸的海洋空气,会产生一系列独特的挑战。这个问题看起来也在恶化,以至于美国陆军工程兵团提议修建 20 英尺的海堤来保护迈阿密市。如果在未来的几年里,更多的佛罗里达建筑被发现不安全并被疏散作为预防措施,这一点也不奇怪。

迈阿密海滩七月被洪水淹没的道路。这些小洪水出奇地频繁。我拍下这段视频的那天,我不得不去当地的牙医那里去赴一个非常湿漉漉的约会。作者视频。

从我的屋顶看出去

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这张照片是我在迈阿密海滩的楼顶拍的,离尚普兰塔大约 2 英里,背景是迈阿密市。戏剧性的天空和日落是该地区的典型特征。作者照片。

冲浪灾难对我个人产生了影响。三年来,我住在迈阿密海滩的一栋类似的建筑里,就在灾难现场以南 2 英里处。我的家坐落在沿着柯林斯大道延伸的美丽海滨地带,从阳光岛一直延伸到迈阿密海滩顶端的南角。我多次路过尚普兰塔。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2020 年 4 月 1 日,在新冠肺炎疫情,我在阳台上拍了一张照片,照片上是两艘停泊着骷髅船员的巨型游轮。作者照片。

即使救援行动停止并转入恢复模式,倒塌的影响已经开始影响社区。住在高楼里的人担心他们的安全。房主对他们的财产价值感到害怕。已经被新冠肺炎疫情震撼,该地区的一切都感觉不确定。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在南佛罗里达的所有高层建筑中,安全摄像头都是常见的景象。图片由拍摄什么是图片完美Unsplash

住在迈阿密海滩的时候,我一直在想的一件事是,南佛罗里达州的每栋高楼到处都有摄像头*——甚至在停车场。*

这意味着,利用人工智能,我们可以利用现有的安全摄像头,为建筑物中的结构问题创建一个早期预警系统。

人工智能已经在医学领域拯救生命

当你想到“人工智能”时,许多事情都会浮现在你的脑海中。你可能会想到计算机打败了国际象棋大师,波士顿动力公司的跳舞机器人,甚至是能够接受采访的计算机。然而,人工智能有许多子集,有些不难概念化。

人工智能的一部分被称为机器学习,它的工作方式有点类似于人类的学习方式。如果我告诉你,我想让你学会如何通过 CT 扫描来识别淋巴瘤,你会怎么做?你可能会要求提供几个癌症 CT 扫描的例子,以及几个不含任何癌症的 CT 扫描的例子。也许只要举几个这样的例子,你就可以开始在医学扫描中发现肿瘤。这就是人类的优势所在——只需几个例子,我们就能发现导致结论的视觉线索。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

食道癌,对比 CT 扫描,冠状图像(照片由维基媒体上的 Tdvorak 拍摄,转贴于知识共享署名分享)

机器学习的工作原理类似,但是有更多的图片可以学习。你告诉计算机的不是几张图像,“这是几千张癌症扫描图,这是几千张未患癌症患者的扫描图。”然后,计算机继续运行并产生一个“模型”,它可以寻找癌症和非癌症样本之间的任何差异。

这些用于训练计算机的数据被方便地称为“训练数据”,可用的数据越多,就可能导致令人惊讶的、意想不到的行为,即计算机能够检测到人类无法检测到的东西。这里最重要的一点是,这项技术已经广泛用于医疗扫描,甚至可以提高质量。

我们可以使用类似的方法来检测混凝土基础中的问题

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我训练的人工智能模型正在检测尚普兰塔南车库天花板的损坏。作者照片,Champlain Tower South的原始视频片段:2020 年 7 月 17 日参观 611 单元——surf side FL 公寓倒塌作者Fiorella Terenzi 博士

再把这个想成一个人。如果一栋建筑的混凝土地基有问题,人们是如何发现的?视觉线索通常是第一个迹象。有锈斑吗?有裂缝吗?是否有碎片脱落或任何明显的变质?失败的混凝土可能会产生有经验的工程师会注意到的线索——多年来检查失败和结构完好的建筑物所获得的经验。约翰·皮斯托里诺是要求建筑物 40 年重新认证的幕后黑手,他在最近的一次采访中说“混凝土给了你一个警告。它会给你一个警告。它不会那么快就失灵。”

一个人不能整天坐着盯着一面墙。电脑可以。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个严重的“混凝土癌症”的例子,其中内部钢筋暴露和生锈。这种损坏的出现可能意味着对建筑物结构的直接威胁。照片由小费知识共享署名 3.0 未授权许可下授权的【freeimageslive.co.uk】T2 拍摄。

多年来对视觉线索的注意可以通过用数以千计的图像训练人工智能来实现。有趣的是,一个描述混凝土板中钢筋生锈的常用术语被称为“混凝土癌症”。随着钢材的腐蚀,它会膨胀并导致周围的混凝土变脆和开裂,从而加速腐蚀过程。混凝土癌症的迹象是混凝土“剥落”——小颗粒的裂缝和剥落,以及似乎从内部渗出的锈斑,以及头顶上出现的起泡和泄漏。如果内部钢筋外露,说明问题已经非常严重。

当与图像搜索结合起来,为人工智能模型组装大型训练集以检测它时,像“混凝土癌症”和“混凝土剥落”这样的术语可能非常强大。下面,我使用 Clarifai 的在线门户网站创建了一个模型,其中使用了我通过搜索术语“混凝土癌症”找到的图片。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用受损混凝土的图像训练模型。作者照片。

还记得我之前提到的迈阿密高楼里到处都有摄像头吗?这些摄像头被输入一个闭路监控系统,显示在安检台。这些摄像头也可以被输入到一个人工智能系统中,该系统可以日夜不停地检查任何结构损坏的迹象。这个系统并不神奇;如果你看不到问题,那么很可能计算机也看不到。不同之处在于,计算机能够全天候观察墙壁的损坏情况,而无需将视线从墙壁上移开——这对于人类来说是不可能的。

使用现有摄像头的另一个好处是,居民既对它们的存在感到舒适,又接受它们提供的安全性。让摄像机同时关注建筑本身的弹性,给紧张的公众带来了更多的信心。

我训练的人工智能模型在从谷歌街景中看到的尚普兰塔南的阳台下检测损坏。在撰写本文时,仍然可以使用这个链接看到它。作者使用谷歌街景拍摄的视频。

人工智能发现混凝土地基问题的另一种方式是变化检测

监测结构损坏的人工智能模型也可以玩“找出差异”,这是孩子们熟悉的游戏。

看看下面这张忙碌的照片。它们之间有 8 个不同点;一台计算机可以在几分之一秒内发现所有这些。你需要多长时间?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Christopher BurnsUnsplash 上拍摄的原始照片。由作者编辑以从右侧移除某些对象。

比较两幅图像并发现其中的差异是计算机擅长的事情;有了固定的摄像机,他们比人类更快地注意到变化。鉴于南佛罗里达的建筑中已经安装了过多的摄像头,一个系统可以监控这些信号,并检测建筑本身的任何变化。这种系统的唯一挑战是区分建筑物的混凝土墙和经过的汽车或人的能力,但这在现代技术下很容易做到。

这个想法——变化检测——是人工智能模型的一个重要概念。即使混凝土结构没有任何损坏的迹象,它也不应该移动。解决方案很简单——一个摄像头监视着一面墙,如果这面墙有任何变化,人们就会收到警报。

我从在迈阿密海滩的生活中了解到的一件事是,南佛罗里达的每栋高楼已经到处都有摄像头——甚至在停车场。

构建模型

我已经能够训练一个基本模型在很短的时间内检测损坏的混凝土。他们的一些工程师对这个项目非常支持和感兴趣,并与我一起创建了工作原型。我能够将 300 张受损混凝土照片和 173 张未受损混凝土照片的训练数据集放在一起。对于这种规模的项目来说,这是一个相当小的数据集,但它足以构建一个相当准确的原型。

对高质量训练数据的需求经常是人工智能中的一个障碍。如果你曾经在脸书或谷歌上使用过面部识别,你可能会注意到,随着时间的推移,它变得越来越准确,因为你让它知道什么时候它正确地标记了你的脸,什么时候没有。

查看培训数据。作者视频。

“混凝土癌症”和“混凝土剥落”的图像也是如此。到目前为止,视频中创建原型探测器模型最耗时的部分是收集训练数据。我得到的受损和未受损混凝土的图像越多,模型就越好。如果有人能看到大量受损混凝土的照片并愿意分享,请告诉我!模型本身的实际训练是在我睡觉的时候连夜完成的。

我的原型模型与尚普兰塔车库的镜头配合得很好。剩下的就是在一个直播的摄像头上进行试验,测试一个未来可以拯救生命的系统。

识别受损混凝土的人工智能模型原型。施工视频来源: Beaches Construction Co ,检测视频作者。

想了解更多信息,请点击这里或发邮件给我

共享空闲信道如何提高数据质量

原文:https://towardsdatascience.com/how-a-shared-slack-channel-can-improve-your-data-quality-e62a4c2a0936?source=collection_archive---------37-----------------------

通常,最有影响力的变化来自于对我们流程的反思

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由创业股票照片发自 Pexels | 品牌内容披露

你有没有听过有人说:“我们的数据很棒,我们从来没有任何数据质量问题”?确保数据质量很难。问题的严重性让我们相信,我们需要一些真正重大的行动来取得任何进展。但现实表明,通常最简单、最直观的解决方案会产生难以置信的影响。在本文中,我们将着眼于一个改进数据质量过程的想法,并使其更有价值和可操作性。

目录

取得数据的所有权
使流程更有回报&更容易跟踪
利用自动化来促进流程
关于示例中的检查
将脚本部署到 AWS
我们如何进一步改进自动化流程?
提出方法的弊端
结论

获得数据的所有权

无论您的数据团队是如何构建的(集中式 BI/数据团队与利用数据网格范式的分散式面向领域的团队),人们都需要掌握主动权,以做出任何持久而有效的变革。如果没有人觉得有责任解决数据中的问题,我们不应该期望情况会变得更好,不管我们使用什么工具。

我们如何解决这个问题?改善数据所有权的最简单方法是将所有者分配给最关键的数据工件,即数据仓库中的特定表、数据湖数据集和数据科学模型。我们并不是想把数据质量问题归咎于那些人。相反,分配所有者可以更透明地确定谁应该照看特定的数据资产,并尽可能确保这些数据保持干净。然后,该流程可以通过添加自动化和监控仪表板来提高可见性。

简而言之,在考虑任何工具或自动化脚本之前,首先考虑建立数据所有权的过程是有帮助的。

让这个过程更有价值,更容易跟踪

一旦定义了所有权,我们就可以通过使质量检查更加有益和自动化来改进过程。添加简单的脚本来执行数据质量检查,并通过共享的 Slack 通道通知数据所有者任何数据质量问题,这对于提高团队对提高数据质量的参与度非常有效。

该过程的重要部分是将这些警报发送到一个松弛通道,该通道在整个数据团队中被共享。作为社会动物,如果其他人能看到我们付出的努力,我们会更有动力去解决问题。例如,处理问题的数据所有者可以:

  • 发送一个回复,解释问题的根本原因以及采取了哪些措施来解决问题,
  • 简单地添加一个勾号来表明这个问题已经被解决,
  • 或者添加一个票据链接如果问题变得更加复杂,需要放入待办事项中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用户参与流程的共享数据质量松弛通道示例—图片由作者提供

所有上述行动增加了可见性,并证明数据质量问题不再被忽视。它展示了获得所有权并使这一过程更具社会回报已经可以产生切实的改善。

利用自动化促进流程

让我们假设我们建立了流程并就数据所有权达成了一致。我们如何着手实施这些自动化的数据质量警报?这个过程可能非常简单:

  • 构建 SQL 查询来检查数据中的异常,
  • 编写一个脚本,如果满足警报条件,该脚本将发送松弛通知
  • 创建一个共享 Slack 通道和一个 webhook 向其发送消息。

首先,创建一个网页挂钩,进入https://api.slack.com/apps→创建一个应用程序。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建一个 Slack 应用程序——作者图片

为您的应用程序添加一个名称,并选择您想要的松弛工作空间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建一个 Slack 应用程序——作者图片

选择incoming Webhook并为您选择的闲置通道创建一个(“向工作区添加新的 web hook”)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建一个 Slack 应用程序——作者图片

一旦所有这些都完成了,你就可以复制你的 Webhook URL 并在你的 Python 脚本中使用它。请注意,您应该像对待 API 密钥或密码一样对待这个 webhook。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建一个 Slack 应用程序——作者图片

构建警报的脚本非常简单,只需向 webhook 所代表的 Slack API 端点发送一个 POST 请求(下面的要点中的第 19 行)。

注意,在第 35 行,Webhook URL 是从 AWS Secrets Manager 中检索的。如果您想采用同样的方法来存储这条机密信息,请确保将其添加到您的机密集:

aws secretsmanager create-secret --name slack-webhook --secret-string '{"hook_url": "YOUR_HOOK_URL"}'

关于示例中的检查

在这个代码示例中,我们检查订单状态和付款类型是否与预期的(允许的)值匹配。如果没有,我们应该会收到一条 Slack 消息,通知我们异常值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据质量通知-作者提供的图片

显然,这些检查代表了相当人为的例子(基于 这个来自 Kaggle 的电子商务数据集)。在现实世界中,您的数据质量检查可能会验证:

  • 数据中的特定 KPI 是否达到某个临界值,或者何时超过预期值范围,
  • 出现极不可能的值(B2C-客户购买数百件相同产品),
  • 某些值(如营销、支付或物流成本)是否明显偏离计划值,
  • 数据是否是最新的、完整的、无重复的以及没有缺失值,
  • …以及更多。

将脚本部署到 AWS

为了使运行这些定期检查更具可伸缩性,我们可以利用 AWS Lambda。为了让之前展示的 Github gist 与 lambda 一起工作,我们需要将我们的主执行代码包装到一个 Lambda 处理程序中(从第 34 行开始)。此外,我们需要确保我们的日志程序是以一种符合 AWS Lambda(T21)的方式进行全局定义的。

完整项目可在 本 Github 资源库 中获得。

为了将我们的容器映像部署到 AWS,我们构建并推送我们的容器映像到 ECR ( 123456 是 AWS 帐户 ID 的占位符)。

*aws* ecr create-repository --repository-name dq_alerts*docker* build -t dq_alerts .*docker* tag dq_alerts:latest 123456.dkr.ecr.eu-central-1.amazonaws.com/dq_alerts:latest*aws* ecr get-login-password | *docker* login --username AWS --password-stdin 123456.dkr.ecr.eu-central-1.amazonaws.com*docker* push 123456.dkr.ecr.eu-central-1.amazonaws.com/dq_alerts:latest

然后,在 Lambda 配置中,我们选择我们想要的容器图像,如下所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建 Lambda 函数—作者图片

由于执行数据库查询可能很耗时,我们需要增加超时设置。此外,将内存大小增加到至少 256 MB 似乎是合理的,因为查询返回的数据会占用大量内存空间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建 Lambda 函数—作者图片

确保添加相关的 IAM 策略。对于这个例子,我们需要雅典娜和 S3 权限。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建 Lambda 函数—作者图片

最后,为了确保我们的检查按计划运行,我们需要添加一个 CloudWatch 计划作为触发器:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建 Lambda 函数—作者图片

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建 Lambda 函数—作者图片

此外,我们可以使用一个空的 JSON 有效负载来测试该函数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建 Lambda 函数—作者图片

所提出的方法的缺点

演示方法的第一个缺点是我们需要一些有状态逻辑来确保我们不会过于频繁地通知相同的问题。否则,人们会开始忽略警报,并可能将空闲频道静音。此外,如果消息太多,社交方面可能会丢失。

此外,我们自己编写各种数据质量检查是不可伸缩的,并且甚至可能不可行如果你处理大量数据的话。正如 Barr Moses 指出的,这种质量检查只能覆盖已知的未知,即可以预见的问题。一个有趣的想法是将共享松弛通道的社交方面与来自端到端可观察性管道的警报相结合。

结论

在这篇文章中,我们看到了简单的过程调整是如何增加团队对提高数据质量的参与和承诺的。通常,最有影响力的变化不需要任何重大决策或投资,而是来自于重新思考我们的流程,增加自动化以增强其执行,并确保整个团队为提高数据质量的共同目标而共同努力。

感谢您的阅读!

一个简单的图表如何挽救一个人的工作

原文:https://towardsdatascience.com/how-a-simple-graph-saved-someones-job-neo4j-7262c813937f?source=collection_archive---------38-----------------------

饮料、非正式的谈话、一些图表帮助人们以新的眼光看待数据。

与人们在博客上发布的内容相比,这张照片并不漂亮,但这张旧纸有一个有趣的故事。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按作者分类的图像(在不同环境下我们如何相互联系的社交图)

几天前,我正在清理我的包,它有太多的夹层——典型的瑞士装备,我发现了一个几年没动过的口袋。一个隐藏的小口袋,可以存放名片、皱巴巴的纸和过去的收据。就在那时,我发现了那张旧的彩色纸,上面有我大约 4 年前草草写下的粗糙草图。

空间信息:科罗拉多州丹佛市的一家爱尔兰酒吧

热力学信息:一个异常炎热的夜晚,非常适合喝柑橘饮料

**时间信息:**下午 6:30 左右

我从东海岸前往丹佛,与一个潜在客户进行销售会议,会议进行得并不像计划的那样顺利。他们最终削减了预算,我的提议被推到了下一个季度。我的返程航班是第二天早上,晚上我和那个客户约好了一起吃饭。好吧,咨询使你成为一种食物和饮料鉴赏家。我和丹决定在去吃晚饭前,先在当地的一家酒吧喝一杯。

因为天气特别热,我们决定延长在酒吧的逗留时间,多喝几杯啤酒(也因为丹佛在啤酒厂方面相当高,所以人们可以品尝许多精酿啤酒)。丹告诉我正在进行的业务重组,这将导致整个组织暂时削减预算。他们的想法是让组织变得精简和灵活,并在技术和分析领域雇佣更多人。

不知何故,话题转移到了创建新部门和在公司内部寻找部门领导上。

我对基于主体的模型进行了初步研究,多亏了托马斯·谢林,我喜欢在对话中表达这一观点,这是一个绝佳的机会。

你在宏观层面上看到的可能在微观层面上并不真实

我一定是在上面的一张纸上给他画了图表,向他展示了不同部门的人是如何相互联系的,以及有时部门中拥有最高头衔的人可能不是日常业务运营中的“支点”或最重要的人物。所以,在得出一个艰难的结论之前,先了解一下不同的人在他们的工作岗位上做什么,不要仅仅依赖他们的主管给出的数据或者他们的职位。我给了他一些想法,告诉他如何去做,以及他可以使用哪些工具。

三四个月后,我在一个新项目的启动仪式上再次见到了丹,当时他告诉我,他为组织的一小部分创建了图表,并量化了人在商业环境中的重要性。我会模拟一个他提到的,让他感兴趣的案例。

数据

Employee.csv 包含三个主要列。雇员 _1 和雇员 _2 是本来会相互交流的两个人的组合。权重是两者之间相互作用的量度。这是对雇员 1 和雇员 2 交换电子邮件或出现在同一个会议中的次数的简单计数。观察结果是在过去 3 个月中收集的。

数据是通过读取电子邮件和 SMTP 服务器的元数据收集的,在这个过程中没有人的隐私被侵犯。

设置图形数据库

点击添加数据库,提供一个用户名和密码,你都设置好了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

一旦你添加了数据库,点击三个水平点,从管理部分你会添加一些插件,你会使你的工作变得更容易。

在插件标签,继续安装 APOC 和图形数据科学库。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

继续启动您的数据库,并使用 Neo4j 浏览器打开。(请注意,当您第一次创建数据库时,节点和关系的数量将是 0)

数据位置

如果你用的是 macOS,那么/Users//Library/Application Support/com。Neo4j.Relate/Data/dbmss//进口/

把你的。导入文件夹中的 csv 文件。

—如果这是您的第一个项目,那么您在/dbmss 下将只有一个文件夹,所以将您的。csv 在那里漫不经心而大胆地输入。

(仅适用于 mac 用户:上述文件夹在 Windows 或 Linux 上更容易找到,因为在 macOS 中,/Users/ /Library 是隐藏的,因此您可以在 spotlight search 中键入/Users/ /Library 并找到这些文件夹)

有趣的东西

将 CSV 加载到数据库中

LOAD CSV WITH HEADERS FROM "file:///employee.csv" AS row
MERGE (emp1:Employee {name: row.Employee_1})
MERGE (emp2:Employee {name: row.Employee_2})
MERGE (emp1)-[r:INTERACTS]->(emp2) ON CREATE SET r.weight = toInteger(row.Weight)

让我们看看它看起来怎么样

Match(n) return(n)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

嗯,这是一个简单的图表,除了告诉我人们是相互联系的之外,它对我没有太大的作用。

让我们找出每个雇员的程度和加权程度。

—一个员工所连接的员工数。

加权度 —每个员工关系的权重之和。

#Degree
MATCH (c:Employee)
RETURN c.name AS employee, size( (c)-[:INTERACTS]-() ) AS degree
ORDER BY degree#Weighted-Degree
MATCH (c:Employee)-[r:INTERACTS]-()
RETURN c.name AS employee, sum(r.Weight) AS weighteddegree
ORDER BY weighteddegree

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按作者分类的图片(不同员工的学位)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按作者分类的图片(不同员工的加权程度)

程度和加权程度的数字是完全不同的,我们需要一个更好的、更稳健的度量标准。

让我们试着找出每个雇员的 PageRank。它更健壮,并在整个图级别捕获员工的状态,而不仅仅是在他们的节点级别。

#Create
CALL gds.graph.create('employee-interactions', 'Employee', {INTERACTS: {orientation: 'UNDIRECTED'}}) #Stream
CALL gds.pageRank.stream('employee-interactions') YIELD id, pgscore Return gds.util.asNode(id).name AS name, pgscore ORDER BY pgscore#Write
CALL gds.pageRank.write('employee-interactions', {writeProperty: 'pageRank'})

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

Pagerank 似乎更有控制力,不像加权度和度那样分散。这可能是衡量每个节点功率的更好的指标。

我还想对员工进行一些聚类,即他们中的哪些人是图中高度关联的子图。用图形术语来说,我想要完成的是检测社区。

我不知道如何完成它,但快速搜索有所帮助。

#Create
CALL gds.graph.create('employee-weighted', 'Employee', {INTERACTS: {orientation: 'UNDIRECTED', properties: 'Weight'}})#Write
CALL gds.labelPropagation.write('employeee-weighted', {writeProperty: 'community', maxIterations: 15, relationshipWeightProperty: 'Weight'})

所有的查询都上传到 Github 这里

现在我已经有了我需要的一切,我可以使用 Neo4j 的图形数据科学库来可视化数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

它将推出一个 UI,在 Neo4j 的术语中称为 NEuler(Noy-ler)。

一旦你连接,你将不得不选择哪个标签,你想运行你的图表的重量属性。我分别选择了 Employee 和 PageRank。

从下拉列表中选择选项,使您的图表丰富多彩且易于理解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

这是结果,

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

该图显示了小型员工群体中存在的联系和各种社区。员工之间的边界越厚,基于页面排名得分的交互就越高。

现在,让我们把注意力集中在丹的有趣观察上。

网络影响者分析

Sue、Amanda、Chris、Mark 和 Yan 都在财务部工作,Sue 担任部门主管。你应该看到她和颜之间的缘是相当暗淡的。Yan 和 Alex(主要利益相关者和组织生态系统中的重要人物)之间有很大的差距。不仅如此,严还是连接会计部门和公司其他部门的唯一桥梁。

在丹完成这个练习之前(这个练习一定是我在这里编造的一个类似的版本),严的名字出现在被他们部门解雇的人的名单上。在她的会计部门,她并不是一个举足轻重的人,但她仍然举足轻重,如果我们只考虑部门反馈,这一点永远不会被意识到。

一个简单的画面显示出颜在她的组织中是一个有影响力的人尽管她的部门内得分可能很低,但她的部门间依赖性使她不可或缺。

她不仅没有被解雇,而且在下一个周期,她被亚历克斯的部门给了一个职位。

思想

如果只从定性的角度来看组织结构,Graph DB 避免了一个错误。值得庆幸的是,严的情况并非如此。

这就是以图形方式查看数据的力量,你可以看到原本可能会错过的模式。除此之外,许多人是视觉学习者,给他们一个表格和一个图表,他们通常会伸手去拿图表。

在此之后,我可以说,那天晚上去酒吧是一次富有成果的访问!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

蒂姆·马歇尔在 Unsplash 上的照片

请让我知道你的意见,你可以在这里使用 Github 回购。

你的准确度有多高?

原文:https://towardsdatascience.com/how-accurate-is-your-accuracy-d420f903bbae?source=collection_archive---------43-----------------------

比例标准误差概述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由engin akyurtUnsplash

在二元分类模型中,我们经常使用比例来计算模型的准确性。例如,我们使用准确度、精确度和召回率。但是我们如何计算这些估计的误差呢?两个准确率 95%的模型其实是等价的吗?

答案是否定的。让我们看看为什么。

标准误差

任何测量都必须有一个误差估计,它代表了测量的精度。我有一个物理学学位,物理学家总是被讨厌,因为他们通常在每次测量结果后假装有一个误差估计。例如,我可以说我身高 1.93 米,但如果这个数字后面没有对误差的估计,它就不会给出任何信息。如果我说 1.93 米误差 3%,另一个人说 1.93 米误差 30%,你会更相信谁?

这就是为什么我们需要估计我们测量的误差,计算所谓的标准误差。

一个 N 点样本的标准误差定义如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中,σ是对样本计算的标准偏差。如您所见,样本越大,标准误差越低,我们的测量精度就越准确。这是大数定律的自然结果。

比例的标准误差

让我们考虑一个由 N 个点组成的数据集,其中 n 个点与一个成功的事件相关(即我们的模型的正确预测)。简单来说,整个样本的成功率是:

这可以是准确度(其中 N 是混淆矩阵的值的总和,并且 n 是其迹线)、精确度(其中 N 是模型已经用 1 预测的事件的数量,并且 n 是真阳性的数量)或者另一个比例。

现在,我们要计算标准误差。我们可以使用类似于 bootstrap 的算法来计算它,但是对于比例,我们可以使用一个简单的封闭公式。

首先,我们需要计算标准差。我们的事件可以建模为一个随机变量 x ,其值以概率 p 为 1,以概率 1-p 为 0。

那么,它的期望值是,

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那么,它的方差是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此,标准误差变为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

置信区间

标准误差可用于计算置信区间,即我们可以预期真实值具有一定置信度的区间。

我们如何计算比例的置信区间?

让我们首先计算下面的 z 变量

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中μ和σ是我们比例的均值和标准差。可以证明,如果我们使用比例并给定合理高的 N 值,这个变量可以近似为一个正态变量(即它是正态分布的)。正态分布的 95%置信区间为(-1.96,1.96)。这是正态分布的一个性质。

因此,回到比例,我们可以将 95%的置信区间定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照例, N 的值越高,由于大数定律,间隔越紧。

现在让我们看看如何在实践中应用这些概念。

简单的例子

假设我们有两个模型。其中一个正在 100 条记录上进行测试,它给了我们 70%的准确率。另一个模型在 400 条记录上进行测试,给出了 67%的准确率。哪款比较好?任何人都会说是前者,因为准确率更高。但是,让我们看看,如果计算两种精度的标准误差,会发生什么情况:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第二个模型给我们一个更精确的精度估计,因为标准误差较低。如果我们计算置信区间,我们得到:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以看到,置信区间下界最高的模型是第二个,而不是第一个。如果我们不得不考虑一种保守的方法,在这种方法中,我们考虑统计上最差的情况,我们会寻找置信区间的下限,在这种情况下,选择第二个模型而不是第一个模型。这就是我们计算标准误差的原因。如果我们不计算误差估计,估计本身是没有用的,正如我们所看到的,较大的样本比较小的样本能给我们更多的信息,所以通过计算标准误差,我们可以做出更好的决策。

结论

计算误差估计值经常被忽略,但是如果我们不知道我们的测量有多精确,就会导致错误的结果。对于比例,标准误差和置信区间的计算非常简单,对于从数据集中提取尽可能多的信息非常有用。

原载于 2021 年 5 月 31 日 https://www.yourdatateacher.com**

广告如何读懂你的大脑:推荐系统介绍

原文:https://towardsdatascience.com/how-advertisements-read-your-brain-an-introduction-to-recommender-systems-eb8112f39e96?source=collection_archive---------29-----------------------

推荐系统可能非常准确。让我们弄清楚它们是如何工作的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

沃伊泰克·维特科夫斯基在 Unsplash 上的照片

如今网络广告无处不在。你不可能在网上逛很多地方而不被邀请去买东西——也许是一件衬衫,也许是一副耳机。更重要的是,这些广告具有不可思议的准确性。我经常惊讶于我实际上会从展示给我的广告中购买多少东西。这些广告给我留下了深刻的印象,让我感到毛骨悚然,我决定弄清楚它们是如何运作的。事实证明,这些广告被称为推荐系统,实际上非常直观。在这篇文章中,我们将看看一个简单而有效的推荐系统,并解释它是如何工作的。

问题是

我们首先要定义一个具体的问题。假设我们为亚马逊工作,我们可以访问(用户名、产品 Id、评级)形式的产品评级数据库。由于亚马逊是一家如此大的公司,我们有很多这样的评级。我们的目标是预测数据库中尚不存在的(用户名,产品 Id)对的评分。

我们该如何解决这个问题?嗯,对于我们试图预测的每个(用户名,产品 Id)对,我们可能会查看用户名给出的其他评级。例如,如果我们看到 Username 对吉他弦和吉他拨片给予了很高的评价,我们可能会推断此人是一名吉他弹奏者,并且他也会对其他吉他配件如吉他调音器给予很高的评价。我们也可以为其他爱好做同样的事情。例如,如果有人给棒球棒和棒球鞋一个差评,我们也不会给棒球手套差评。

那么如何用数学方法来表达这个想法呢?我们可以使用一种叫做的东西嵌入。嵌入是复杂对象的一种紧凑表示(通常是一个向量),例如,用户的偏好。具体来说,我们要做的是用向量来表示用户和产品。用户向量的每个元素都代表了用户对特定类型产品的喜欢程度。例如,我们可以设置用户向量的第一个元素代表棒球产品,第二个元素代表吉他产品。那么用户向量(3,-2)将意味着该用户喜欢棒球产品,而不喜欢吉他产品。

我们设置产品向量的每个元素来表示该类型产品的多少。例如,( 5,0)的产品向量将表示肯定是棒球产品的东西,而肯定不是吉他产品——类似于棒球棒的东西。(2,2)的乘积矢量将表示与棒球和吉他都相关的东西,可能是棒球主题的吉他。

一旦我们有了用户和产品向量,我们就可以用点积得到一个代表用户对产品偏好的数字。例如,对于用户向量(3,-2)和产品向量(5,0),我们将得到点积 15,这意味着用户会喜欢这个项目,并给它一个高评级。如果产品向量是(2,2 ),我们将得到 2 的点积,这意味着用户对这个产品不冷不热。这是有意义的,因为(2,2)产品同样与棒球和吉他相关,而我们的(3,-2)用户喜欢棒球,但不喜欢吉他。我们可以将这一思想推广到任意大小的向量。除了棒球和吉他,我们还可以拥有 100 维向量,代表对 100 种不同产品的偏好。

既然我们已经有了表示用户和产品的方法,以及计算用户/产品对评级的方法,我们需要弄清楚如何训练我们的系统。换句话说,我们需要想出一种方法来获得准确的用户和产品嵌入。在训练开始时,我们没有关于用户或产品嵌入的信息,因此将这些嵌入设置为随机值似乎是合理的。回到我们的棒球/吉他示例,假设我们随机将用户嵌入设置为(3,-3),将产品嵌入设置为(1,1)。预测评分是 0,我们假设这个用户的真实评分是 5。

我们预测的评分太低了。然后,我们可以调整用户嵌入和产品嵌入,以更好地匹配真实评级。例如,我们可以将用户嵌入改为(3.1,-2.9),将产品嵌入改为(1.1,0.9)。这使我们更接近真实的评级,但我们还没有到那一步。然后我们可以尝试(3.2,-2.8)和(1.2,0.8),再次检查,重新调整,等等。我们描述的这个过程是梯度下降,这很好,因为它很容易实现。

然而,我们还有一个问题,那就是如何选择我们的嵌入中应该包含什么类型的产品。显然,对于现实生活中的系统,我们需要的不仅仅是棒球类型和吉他类型。然而,我们不可能包含宇宙中的每一种产品类型,因为这将使事情在计算上不可行。相反,我们通过只设置嵌入的大小,并让训练算法决定使用什么产品类型来避免这个问题。现在我们来看看完整的训练算法。

训练算法:

  • 为用户和产品嵌入确定一个维度 k(k = 40 是合理的)。
  • 对于数据库中的每个用户,用随机值初始化一个 k 维向量作为该用户的嵌入。
  • 对于数据库中的每个产品,用随机值初始化一个 k 维向量作为该产品的嵌入。
  • 对于数据库中已经有评级的每个用户/产品组合(我们的训练集),在适当的嵌入之间进行点积,并获得预测的评级。
  • 获得所有预测评分和实际评分之间的误差平方和。这是总误差。
  • 取关于用户和产品嵌入的总误差的梯度。对所有嵌入进行梯度下降。
  • 重复进行,直到总误差满足一些预定义的标准。

如您所见,在我们的算法中,我们不需要精心挑选产品类型。我们让梯度下降为我们做到这一点。直观上,这个算法相当简单。我们所做的就是基于我们的嵌入计算我们的预测评级,将这些评级与真实评级进行比较,然后相应地更新嵌入。在实际方面,这种算法在实践中表现良好。它的一个变体在网飞电影分级竞赛中名列前十。在比赛之后的几年里,许多新算法被提出,但它们似乎没有提供太多(~2%)的改进,并且有再现性问题

还有最后一件事。原来,我们的算法与奇异值分解(SVD)有关,奇异值分解是一种众所周知的矩阵分解方法。因为 SVD 被广泛使用,所以我们可以利用高度优化的 SVD 实现。完整的主题是另一个时间,但它值得一提。

在本文中,我们从头开始推理,提出了一个推荐系统,它可以与复杂得多的模型竞争。此外,我们的系统具有直观和易于实现的优点。请留下任何评论或问题,让我知道你接下来想看什么!

人工智能如何帮助应对气候变化

原文:https://towardsdatascience.com/how-ai-can-help-fight-climate-change-c86531d710f0?source=collection_archive---------36-----------------------

社区笔记

人工智能有潜力解决这个星球上最大的挑战

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由卡斯登·沃思(➡️@卡斯登.伍尔特)Unsplash 上拍摄

我们星球面临的最大威胁之一是气候变化。然而,什么是气候变化呢?平均条件的变化,如一个地区在很长一段时间内的温度变化,导致剧烈的风暴、野火和干旱。如果我们找不到这个挑战的答案,我们的日常生活肯定会发生巨大的变化。世界上每个地区都经历着不同的气候变化。一个可能面临严重的干旱年,而另一个面临降雪增加。问题是我们如何应对这一挑战,尤其是利用人工智能技术?

当你浏览互联网时,你可能会发现一大堆利用人工智能技术对抗气候变化的方法。但是,事实是,这些建议中的许多要么在经济上不可行,要么影响力不够,至少在目前的状况下是如此。我在这里描述了如何评估 AI 解决现实世界中某个问题的可行性。下面,我分享一个在垃圾管理行业使用 AI 的例子,在这个行业,AI 的影响力还不够。

我们都知道,更好的废物管理系统可以帮助我们减少碳足迹,应对气候变化。然而,这并不意味着人工智能可以通过进入高度复杂的废物管理链的每一步来产生影响。例如,有一些尝试使用计算机视觉来建造智能垃圾桶来指导人们找到他们的垃圾必须使用的确切垃圾桶。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

亚历山大·卡迪科夫在 Unsplash 上的照片

他们的论点是“源头分类废物至关重要”。虽然这种说法是正确的,但他们没有考虑到,例如,废物收集车队是否准备好了分类箱,或者所需的能量是否确保人工智能系统正常工作而不中断。此外,要了解使用技术应对气候变化的影响,我们必须能够大规模地使用它,即在地球上的每一点。所以,我们应该回答的问题是“我们能在世界的任何地方使用这项技术吗?”最终,我们必须始终衡量每一美元支出的影响。

说到这里,我相信如果我们正确使用人工智能,它可以帮助我们大幅应对气候变化。在这篇文章中,我想描述人工智能可以有效应对气候变化的 3 种最重要的方式。

提高能源效率

我们不能既储存能量又产生能量。例如,这就是为什么输入电网的电量必须始终等于消耗的电量。在这种设置中,重要的是实时预测需要多少能量(需求方)。这将有助于产生所需的能量,仅此而已。此外,我们可以使用人工智能来预测天气状况,包括风的模式,以确定我们可以在风电场(供应方)产生多少能量。例如,谷歌的 Deepmind AI 可以提前 36 小时预测风力模式,从而有可能提前一整天确定电网的承诺量。

https://www.engadget.com/2019-02-26-google-machine-learning-wind-power.html

提高运输效率

根据 IPCC(政府间气候变化专门委员会)的数据,交通部门约占全球能源相关二氧化碳排放量的四分之一。你可以在这里阅读更多。人工智能可用于优化运输车队的路线,如废物收集或拼车车队。路线优化是一个极其困难的问题,尤其是当问题中加入了许多约束条件时,例如降低碳足迹避免交通堵塞提高用户满意度。基于人工智能的路线优化可以让许多商业模式变得可行和绿色。

https://www.ipcc.ch/

提高太阳能电池板效率

为了应对气候变化,我们必须找到以可持续方式生产能源的新方法。利用太阳能发电是我们拥有的最佳选择之一。这就是为什么工程师和科学家不断努力开发更高效的太阳能电池板。太阳能电池板的效率越高,产生的能量输出就越多。

2019 年,发表在《自然》杂志上的一篇文章介绍了人工智能技术的一种新颖用途,即发现一种具有特定性质的新化学化合物。这篇文章唤起了建造太阳能电池板的希望,这种电池板能够以更高的效率产生能量。在过去,工程师和科学家通过测试数千种材料来找到有效的材料,从而开发出新材料。发表在《自然》杂志上的文章向我们展示了人工智能如何在这个旅程中帮助我们。

遗言

在这篇文章中,我分享了那些可以有效应对气候变化的人工智能应用,主要是因为它们的美元影响因子。你肯定可以找到其他我没有在这里列出的对抗气候变化的人工智能应用。最后,我想强调的是,利用人工智能对抗气候变化是一种方式。还有许多其他的方法来帮助我们的工厂。

感谢阅读!❤️

如果你喜欢这个帖子,想支持我…

https://pedram-ataee.medium.com/membership

人工智能如何帮助我们循环利用

原文:https://towardsdatascience.com/how-ai-can-help-us-recycle-c2f82d0d50de?source=collection_archive---------21-----------------------

变更数据

卷积神经网络在垃圾图像分类中的应用

作者:邓肯·王阿诺·古兹曼-安妮索菲·考特曼斯-马特尔 & 杰克·霍根

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pawel Czerwinski 在 Unsplash 上拍摄的照片

回收问题

减少、再利用和回收。这句格言也被称为废物管理的 3r,作为解决日益严重的废物危机的解决方案,已经得到了广泛的推广。在北美,公众环保意识的提高和诸如自觉消费主义等运动的传播使得减少废物成为社会环境关注的焦点,如今大多数城市都有成熟的回收计划。然而,对于消费者来说,虽然“减少”和“重用”背后的原则通常很简单,但第三个 R 背后的过程仍然很复杂,并且很难理解。

虽然回收看似简单,只需将特定的废物放入一个特殊的垃圾箱,然后运到一个神奇的工厂,变成新的材料,但回收项目的实际结果往往令人沮丧。事实上,美国环境保护署(EPA)估计,虽然 75%的美国垃圾是可回收的,但实际上只有 30%被回收。在加拿大,330 万吨塑料垃圾中只有 9%被成功回收,而在 T2,超过 75%的垃圾最终被填埋。回收结果不佳可归因于生产商、消费者和市政当局之间缺乏协调、管理回收的法规和能力不同以及公众理解程度低。在加拿大,市政当局根据废物的销售地点、购买者愿意处理的废物,以及回收哪些废物在经济上是合理的,来管理和制定可回收哪些废物的指导方针。因此,支离破碎的回收系统会让消费者感到困惑,最终导致大量潜在的可回收物品最终进入我们的垃圾填埋场。

人工智能如何帮助我们回收利用

人工智能(AI)的最新进展导致人工智能驱动的解决方案的兴起,以帮助解决社会环境问题,从使用预测预测来平衡电网供电能源的供需,到使用优化来帮助减少制造设施的浪费。在回收方面,McKinsey&co .最近的一份报告指出,减少消费电子产品浪费的市场机会每年高达 900 亿美元,这些机会来自使用图像识别和机器人技术来自动化回收基础设施等解决方案。

回收利用的一个特殊困难,也是人工智能驱动的解决方案的一个机会领域,是不正确分类的问题。由于废物材料类型的多样性和不同的规定,消费者会发现很难识别废物的成分,并因此不恰当地将物品分类为可回收的或不可回收的。这种可回收和不可回收物品的混合降低了待回收物品的价值,使其难以销售,并增加了最终被填埋的可回收物品的数量。因此,一个潜在的人工智能应用是使用图像分类来识别和帮助消费者识别他们的废物的材料成分和可回收性。

目标

本指南的目的是介绍我们如何使用 卷积神经网络(CNN)和 Python 中的Keras API**来识别常见废物并将其正确分类到相关的材料组中。**CNN 是深度学习中使用的一类流行的神经网络架构,常用于执行图像分类。在对通过相关材料类型标记的废物项目的图像进行训练之后,我们的目标是使 CNN 能够获取用户提交的废物项目的未分类图像,并生成表示项目材料成分的预测。虽然本质上很简单,但这种工具可以用来帮助用户做出决策,以减少不正确分类的废物数量,这样每个人都可以在改善回收过程中发挥作用。

复制项目所需的完整代码可以在 这里找到。

目录

CNN 架构的简明介绍

卷积神经网络(CNN)或 ConvNets ,是一种广泛用于图像识别和分类任务的神经网络。神经网络如何做到这一点的基本思想是通过模拟互连层的网络来模仿人脑如何做出决定,每一层都由“神经元”组成,即用于合成输入特征的数学函数。因此,神经网络能够识别大量数据之间隐藏的关系,这些关系可能是人眼看不到的。

为了能够检测和分类图像,CNN 模型将把已经被转换成表示数字像素的 3D 阵列的彩色图像作为输入。然后,它将通过一系列卷积层、池层和全连接层传递该输入,每个层执行不同的任务。然后,CNN 的最后一层应用一个名为 softmax 的函数,该函数输出图像属于特定类别的概率(0-1)——在我们的例子中,是废弃物的材料成分。

不赘述,CNN 中的隐藏层一般是卷积层和池层。在卷积层中,一个预定义大小的滤镜在图像上移动,以执行卷积运算——滤镜值和图像像素之间的元素矩阵乘法。所得值的总和将形成特征图,其中每个特征图提取原始图像的独特特征或质量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

创建卷积层的步骤。作者提供的数字。

然后,我们有了池层。这些用于通过减少训练网络所需的参数来对特征图进行下采样,从而减少所需的计算量。这也有助于“概括”输入,这有助于防止网络基于训练图像过度拟合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

创建池层的步骤。作者提供的数字。

在一系列卷积层和池层之后,我们到达 CNN 架构中存在的第三种类型的层:全连接(FC)层,这种类型的层也通常出现在常规神经网络中。FC 层构成了网络中的最后几层,并将从最终的池化或卷积层获得扁平化的输出。使用 softmax 激活函数,网络的最后一层将输出概率分类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

合并的要素地图的展平。作者提供的数字。

既然我们已经简要介绍了 CNN 的架构,让我们从数据开始,进入我们如何建立我们的模型。

准备数据

我们将使用的数据包含 2,532 张由纸板、玻璃、金属、纸张、塑料制成的可回收物品以及不可回收物品(垃圾)的图像。数据源在此处可用。

为了将一组可以被消化的图像输入到我们的模型中,第一步是将数据集的每张图片转换为 3D 像素阵列:

对于我们的图像,结果数组的形状是(384,512,3),其中数组中的第一个和第二个元素表示像素尺寸,第三个元素表示红、绿、蓝(RGB)三个颜色通道。

数据增强

接下来,我们随机裁剪和翻转一些图像,以便通过引入一些随机性来增加数据。增加可变性有助于降低过度拟合的风险,从而提高模型识别未来未知图像的能力。

这里,我们通过应用随机裁剪或中心裁剪来人为引入可变性:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随机作物与中心作物。请注意,随机裁剪的位置每次都可能不同。作者提供的数字。

下面来看看我们是如何做到的。请注意,下面的每个裁剪函数都包含了前面的代码片段,用于在裁剪之前将每个图像转换为 3D 数组。然后,我们将裁剪函数合并到一个新函数中,该函数随机地以 50%的概率对图像应用随机裁剪或中心裁剪,并翻转大约 50%的图像。

让我们看看这些数据增强技术如何修改样本图像:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**注意:**原始图像和增强图像的形状不同,因为原始图像的形状是(384,512,3),但在裁剪过程中被缩小到(224,224,3)。完全增强的图像应用了随机裁剪和图像翻转。作者提供的数字。

为了处理图像,我们将每个图像通过增强函数,并缩放得到的数组,使得像素值位于-1 和 1 之间,这是输入到 CNN 模型所需要的:

数据探索

为了更好地理解我们正在处理的数据,让我们按类别来看一下废品的分布。除了垃圾之外,其他的职业似乎相对平衡。现在,我们将让数据保持原样,但是如果我们想要创建更平衡的类,我们可以获取额外的样本或进一步扩充现有的垃圾照片以产生新的表示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的数字。

让我们来看一下目前每个类别中的图片示例:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按类别分类的各种垃圾图像样本。

准备模型输入

为了准备模型输入,我们首先将六种废品物料类型分解为数字格式,因为 CNN 模型不能直接解释单词标签类别:

  • 0:纸板
  • 1:玻璃
  • 2:金属
  • 3:纸张
  • 4:塑料
  • 5:垃圾

由于图像是按类别顺序加载的,因此我们还对数据进行了混排,以便在分割后,每个数据集不会包含比例极不均衡的特定废物类型的图像。

最后,我们将数据分成三组:训练、验证和测试。由此产生的分割创建了用于拟合模型的 1750 训练观察值、 518 验证观察值,用于在训练阶段调整我们的模型参数时提供模型拟合的无偏评估,以及 259 测试观察值,这将允许我们评估我们的模型在完全构建和训练后的表现。

准备好模型输入后,现在是构建模型的时候了。

建立 CNN 模型

为了构建 CNN 分类器,我们首先利用外部预训练模型作为网络的基础模型。这种想法被称为 转移学习 ,它允许我们使用已经在另一个模型上训练过的层来帮助构建我们的模型,这样废物项目分类器就不必从头开始学习。因为我们没有预先训练好的垃圾分类器,所以我们使用 ImageNet 模型来代替,该模型在各种物品的大量图像集合上进行训练,并且对于识别垃圾物品也是有用的。

简而言之,迁移学习允许我们做三件关键的事情:

  1. 实例化一个基础模型,并在其上加载预训练的权重
  2. 冻结基础模型中的所有层,并在顶部创建一个新模型
  3. 在我们的数据集上训练新模型。

这里,我们定义基本 ImageNet 模型并提取其训练权重:

我们最初将冻结整个卷积基,以便我们仅使用其输出来馈入我们的分类器,而无需重新训练 ImageNet 模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

冻结卷积基础模型。作者提供的数字。

我们现在可以为定制的分类器构建层:

下面是我们图层的快速浏览:

  1. **池化层:**池化层用于将数据准备为将被推入密集或完全连接层的输入。
  2. **批量规范化层:**实施一种重新集中和重新调整网络的规范化技术,以稳定学习过程并加速训练。这固定了每层输入的均值和方差,因此可以添加到神经网络中的任何位置以提高性能。
  3. **丢弃层:**丢弃在每个历元临时停用网络中 20%的节点,以重新分配权重并帮助网络专注于弱特征。这有助于防止对训练数据集的过度拟合。
  4. **展平层:**展平层将我们的数据转换成一维数组,这将是我们的全连接/密集层的输入。
  5. **预测层:**在我们的最后一层,softmax 激活将网络的输出归一化为 6 个可能输出类别上的概率分布。

下面是我们模型的总结:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在,让我们编译我们的模型。我们指定稀疏分类交叉熵,用于多类分类任务,并使用分类精度评估其性能。

回调函数

接下来,我们实现几个回调函数,在训练模型时使用。回调是可以在训练过程的给定阶段执行特定动作的对象,它允许我们定制模型的行为。

第一个回调创建一个自定义函数,如果训练数据的精度超过 0.999,该函数将停止训练,以防止过度拟合。第二个回调使用 tensor board visualization toolkit 记录模型统计数据,我们可以使用它在训练期间跟踪模型的度量。

训练模型

我们首先在基本模型层冻结的情况下训练模型 40 个时期(或者直到我们的自定义回调停止或者 keras EarlyStopping 回调被激活)。

在模型收敛到新数据后,我们可以解冻基础 ImageNet 模型,并通过指定*base _ model . trainiable = True,使用解冻的基础模型层进行重新训练。*注意,这是一个重要的步骤,假设如果随机初始化的可训练层与来自基础模型的具有预训练特征的可训练层混合,则随机初始化的层将在训练期间导致非常大的梯度更新,这将破坏来自基础模型的预训练特征。

完成初始训练后,我们现在可以以相同的方式再次重新训练模型,但使用未冻结的基础层。

下面来看看我们的模型在主动基础层上的训练表现。我们可以看到,在回调函数被激活之前,模型完成了 5 个训练历元,表明训练准确率超过 99.9%。在训练完成时,我们可以看到在验证集上的分类准确率为: 79.54%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TensorBoard 回调函数还允许我们查看与训练过程相关的各种指标并与之交互。在这里,我们可以跟踪在每个训练时期精度如何增加和损失如何减少:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测废物类别

在训练模型之后,我们可以用“看不见的”数据来评估它的性能:我们的 259 个图像的测试数据集。这里,我们可以生成一个数组,其中包含测试数据集中每个垃圾图像的预测类(0–5)。

为了解释这些结果,我们可以将每个标签分配回其材料类型。我们还可以绘制预测的废物项目类型和测试数据集中的实际废物项目类型之间的比较:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正确与错误分类的废物样本。作者提供的数字。

评估性能

我们可以使用混淆矩阵来分析图像分类模型的预测。这使我们能够比较预测的和实际的材料类型,以评估每种废物类型的正确和错误分类的数量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测与实际废物类别的混淆矩阵。出于演示目的,垃圾类的预测细分已突出显示。作者提供的数字。

我们看到,总的来说,259 幅图像中有 202 幅(78%)预测正确。虽然预测的准确性还不错,但模型识别垃圾的能力对我们来说是最重要的,因为我们希望确保分类器能够将垃圾从可回收物品中分离出来。

如果我们检查垃圾,我们有以下结果:

  • 真阳性率: 4 例(33.3%)
  • 真实否定(率)😗***【240(96.8%)】
  • 假阳性率: 8 例(3.2%)
  • 假阴性率: 7 例(63.6%)

对于垃圾,总体预测准确率为 94.2%,代表正确分类的垃圾或非垃圾预测的总数。如果我们看一下误报率,我们还会看到非常低比例的非垃圾项目被错误地识别为垃圾。虽然准确率很高,误报率很低,但这主要是因为大多数项目首先就不是垃圾。

然而,我们看到假阴性错误率相当高,这表明垃圾项目经常被错误地分类为非垃圾项目。出于回收的目的,这并不理想,因为假阴性的成本很高。换句话说,为了避免待回收物品的污染,将非垃圾物品错误地归类为垃圾并扔掉并不重要,但更重要的是垃圾物品不要与可回收物品混在一起。由于我们的数据集中的垃圾项目总体上较少,因此我们建议用额外的垃圾图像进一步扩充数据集,以提高预测的假阴性错误率。

生成新的预测

我们现在已经看到了使用现有数据集时模型的表现。让我们来看看它对新数据的反应。在这最后一步中,我们创建一个新的函数,它获取一个新的图像,对其进行处理,并将其输入到训练好的 CNN 模型中。

在这里,我们上传了自己的照片,照片上是一张有些破损的便利贴,上面还有一些彩色的文字。我们可以在下面看到,我们的模型正确地将其材料分类为。成功!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后的想法

这个项目的总体目标是研究我们如何建立一个人工智能驱动的模型,并将其应用于当前的废物危机。通过探索卷积神经网络(CNN)背后的直觉和建立一个卷积神经网络的步骤,我们能够成功地训练一个流行的深度学习框架,对来自五个可回收组的废物图像进行分类,并将它们与不可回收的垃圾项目区分开来。

虽然对常见的垃圾物品进行分类看起来是一项微不足道的任务,但在大规模应用时,CNN 的应用可能会非常强大。由于北美产生了全球 14%的垃圾,CNN 驱动的算法可以扩展到自动化垃圾分类的工业解决方案中,并提高现代回收系统的效率。如果设计得当,CNN 驱动的解决方案有可能帮助消除基于人类判断的错误,有助于降低总体分拣成本,并可以重新定义 21 世纪绿色环保的含义。

资源

如果您想分享任何想法,请随时在 Linkedin 上联系我们。

关于我们的更多信息:

https://www.linkedin.com/in/james-hogan9/ https://www.linkedin.com/in/sophie-courtemanche-martel/ https://www.linkedin.com/in/duncan-w/ https://www.linkedin.com/in/arnaud-guzman-annès/

人工智能如何把你变成一个讲故事的大师

原文:https://towardsdatascience.com/how-ai-can-transform-you-into-a-master-storyteller-a6e8a3c55dcb?source=collection_archive---------46-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Teemu Paananen 在 Unsplash 上拍摄的照片

实现数据通信转型的三个步骤

2012 年,迪士尼投资 3.5 亿美元拍摄了一部似乎具备票房成功所有要素的电影。这是一部动作片,有着惊人的视觉效果。它是由一位明星作家和《海底总动员》的导演执导的。

当事情看起来非常乐观时,他们邀请了英国人工智能(AI)公司黑天鹅(Black Swan)来预测这部电影是否会受到欢迎。该公司的人工智能算法警告说,《T4》这部电影将会失败。迪士尼没有理会,继续他们的发行计划。

电影《异星战场》票房惨淡,估计亏损 8000 万至 1.2 亿美元。

今天,许多电影工作室正在转向数据和人工智能,以提高电影制作等艺术领域的科学商数。例如,华纳兄弟公司使用了 Cynelitic engine ,这是一种人工智能驱动的解决方案,可以建议对剧本进行改进,预测电影收入,并分享电影如果在线播放将会如何表现。

当艺术最终转向人工智能时,企业难道不应该也采用人工智能驱动的讲故事来改善他们的业务沟通并激发他们的内部和外部利益相关者吗?

有效沟通的关键是什么?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Juliana romoUnsplash 上拍摄的照片

根据一项对 400 家全球企业的调查,沟通不畅给企业造成了高达 370 亿美元的损失。同一份报告发现,如果公司的领导者具备有效的沟通技巧,五年后公司股东的回报率会提高 47%。

那么,如何改善商务沟通呢?你需要故事。它们是感性的、难忘的、可操作的。讲故事是有效商业沟通的关键。根据心理学家杰罗姆·布鲁纳的说法,“以故事形式传递的信息比事实更令人难忘 22 倍。”

对于擅长讲故事的商务沟通专家来说,他们必须关注三点:

  • 了解观众真正想要什么
  • 呈现激动人心的内容
  • 拼凑一个引人入胜的故事

今天,人工智能可以帮助您解决这些挑战。借助例子,让我们看看如何利用人工智能的力量来讲述伟大的商业故事。

1.深入了解你的受众

每一个伟大的故事都始于对观众的深刻理解。你必须了解客户的动机是什么,以及他们是如何做出决定的。有三种方法倾听你的听众。第一种是通过顾客之声(VoC)调查和直接访谈来获得直接反馈。假设您的客户对您的 VoC 调查作出了这样的反馈:“我喜欢产品的功能和超级快速的入门,但在使用您的产品时,这种良好的体验没有继续下去。您的支持团队很有帮助,但我不确定是否会再次购买。”

乍一看,这似乎是一个高于平均水平的混合反馈。然而,人工智能算法可以提取更深层次的信号。他们可以识别客户谈论的是哪个阶段,是“需求识别”阶段还是“处理产品问题”AI 然后可以识别旅程步骤的情绪,并推荐具体的改进领域,如下图所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图:在客户反馈中确定旅程步骤(格拉米纳)

人工智能解决方案将客户反馈分为五个客户旅程步骤,每个步骤都有相应的情绪(绿色表示积极,橙色表示中性,红色表示消极)。

另外两种了解受众的方式是间接反馈(第三方网站或社交媒体帖子上的评论)和推断反馈(网页互动和点击流数据)。例如,一家下一代汽车租赁公司使用其汽车旅行数据库的高级分析来推断客户并将其分成 10 个原型

这家汽车公司使用通过间接方式收集的数据来构建他们的客户原型。通过推出量身定制的产品和宣传,在一年内,该公司的客户群增长了 10%以上,收入增长了近 20%。

不是所有的故事都能吸引每个人。这就是为什么在你构思你的故事之前,首先了解你在迎合谁是至关重要的。

2.瞬间创造令人兴奋的内容

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

斯凯工作室Unsplash 拍摄的照片

一旦你了解了受众,下一个挑战就是为他们量身打造令人兴奋的内容。没有“放之四海而皆准”的方法。内容需要根据购买者角色和他们在旅程中所处的阶段为您的受众定制。

假设你正在策划一场营销活动。AI 可以帮你写初稿吗?

《卫报》的编辑们在试验了一款来自 OpenAI 的最新人工智能工具,名为 GPT-3。他们用一组指令提示人工智能,要求它“专注于为什么人类没有什么好害怕人工智能的。”人工智能在八篇不同的文章中提出了引人入胜的论点。

这些文章被编辑成一篇专栏文章,并以“一个机器人写了整篇文章”的标题发表。你害怕了吗,人类?”编辑们说,编辑 GPT-3 的专栏与编辑人类的专栏没有什么不同,只是花费的时间少得多。

人工智能领域每天都在取得惊人的进步。今天,算法可以写文章,创建图片,合成视频,混搭内容,甚至生成交替现实

对于你的营销活动,AI 不只是起草第一份文案,它可以通过让你选择 AI 生成的“演员”来创建视频。然后它可以合成人类的语言,并帮助你把它们打包在一起。

3.构思一个引人注目的故事

一旦你为你的目标受众准备了令人兴奋的内容,接下来你应该做什么来构建一个伟大的叙事?确保你的故事不平淡。

每个故事都必须有一个情感弧线。情感弧线也被称为“故事的形状”正是这一系列的情绪起伏,像坐过山车一样,一直勾着观众直到最后。

我们能证明情感弧线与观众参与度的相关性吗?麻省理工学院的社交机器实验室和麦肯锡消费者技术团队研究了数千个 Vimeo 视频来调查情感弧线是如何支撑故事的。

使用计算机视觉和音频分析的算法每秒钟为每个场景打分。在勾勒出每个故事的情感弧线后,他们使用机器学习将它们分成八个家庭。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图: 麦肯锡 ,“情感弧线如何提高观众参与度?”

该分析的最后一部分是引入结果——用户参与度指标,如“喜欢”和“评论”研究人员发现,由人工智能算法生成的故事情感弧线可以预测观众是否会喜欢它。

现在我们有了证据,你如何在你的商业故事中编织情感弧线呢?

假设你正在展示你的季度收益。你可以从一个稍微消极的基调开始,提出历史挑战。然后,转移到一些小的成功,比如上个季度做得不错的事情。现在,介绍一个挫折,比如一个成功的竞争对手夺走了你的部分市场份额。最后,介绍你采取的恢复行动,并为你的胜利打分。

在上面的叙述中,我们有冲突。当竞争对手夺走市场份额时,我们会有情绪。最后,冲突通过你的行动得到了解决,给观众留下了积极的热情。

你的故事并不总是需要戏剧性的挫折或壮观的胜利。每种情况都有积极和消极的一面。将它们在右边的弧线上进行对比,并以一种引发情感和行动的方式将它们分层。

你将如何在你的下一个交流项目中使用人工智能?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Volodymyr Hryshchenko 在 Unsplash 上的照片

你可能会用幻灯片向投资者推销,在你的网站上发布新产品,或者通过电子邮件向你的员工发布重大公告。

无论受众是谁,无论沟通模式是什么,以上几点都适用于每一个场景。首先分析你的受众是谁,他们真正想要什么。利用这些工具来创建令人兴奋的内容,并将其制作成在情感上吸引人的叙述。

在你经历这个过程的时候,把 AI 想象成一个助手,帮助你简化事情,帮助你加速活动。当一个人参与到循环中,不断地提供输入,并审查结果时,人工智能会产生最佳效果。这被称为增强智能,它帮助你最大限度地利用人工智能。

在你的下一次商务交流中创造性地运用这些原则。

这篇文章最初是 发表的 关于 IABC 的催化剂。增加了插图。

人工智能如何帮助行业预测你的购买行为

原文:https://towardsdatascience.com/how-ai-is-helping-industries-to-predict-your-buying-behaviour-18d3ded800c9?source=collection_archive---------44-----------------------

你的社交媒体数据就是他们的石油

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 安德里亚·皮亚卡迪奥 来自 像素

你有没有想过为什么像谷歌、脸书这样的大公司完全免费提供服务?所有这些公司都有如此庞大的用户群,即使他们收取最低的服务价格,他们每天也能创造数十亿美元的收入。

那么他们如何产生收入,他们用什么来获得这些钱呢?简单的答案是你。

谷歌和脸书等科技巨头将他们的用户作为数据点,收集他们在使用网站时分享的个人数据。你一定听说过脸书因向剑桥分析公司这样的私人组织出售数百万用户的数据而上了新闻。

在这篇文章中,我们将看到科技公司如何使用你在社交媒体上获得的数据来训练他们复杂的 ML 算法,以预测你的购买行为。

预测的整体模型是什么?

谷歌、脸书、YouTube 等服务主要通过向观众展示广告来创收。为了提高广告的转换率,他们必须预测你的购买模式,只向你展示你感兴趣的产品的广告。

所以公司使用最大似然算法、神经网络等。根据你在网站上分享的数据预测你的行为。

例如,如果有人在谷歌或脸书上搜索智能手机,他们会得到更多与智能手机相关的广告。你也可以用你自己的系统尝试这个实验。

对预测的详细分析

现在,让我们深入了解整个过程中发生的更具技术性的事情:

第一步:数据收集和处理

首先,数据是从社交媒体网站的搜索引擎中收集的。一部分数据用于训练神经网络,其余数据用于测试神经网络。

下一步是特征提取。在此过程中,根据数据的属性(例如用户的地理位置、年龄组、搜索的产品类型、搜索次数等),数据和相应的用户被分组并且被标记为不同的类别。现在处理过的数据被用来训练神经网络。

第二步:训练最大似然算法

下一步是使用有组织的数据序列 ML 算法。主要有两种类型的算法可用于此:

  • 长短期记忆(LSTM):

这是一种递归神经网络,其中上一步的输出可用作当前步的输入。LSTM 的主要优势在于它可以长时间保留数据,并可以从少量数据中获取大量信息。

  • 强化学习:

使用这种算法,计算机可以使用实时反馈给出最优化的预测。例如,如果系统向观众显示更合适的广告,则系统对于下一次推荐的准确度增加。

步骤 3:使用预测显示广告

现在,该算法根据系统使用的用户数据生成一些新信息,以显示用户想要查看的产品。反馈机制在这种情况下也起作用,其中点击率(广告点击次数与广告显示次数的比率)用于确定系统的效率并微调算法。

如果我不在社交媒体上怎么办?

来自佛蒙特大学的研究人员已经表明,算法已经变得如此复杂,一个人的行为甚至可以从这个人的朋友圈中预测出来,即使他不在社交媒体上。

在这种情况下,预测的含义是利用该人的朋友的近似地理区域和购买行为来实现的。所以逃网的机会只有一点点!

结论

随着**行为经济学的发展,**数据安全问题一直是当局关注的问题。一些政府也像公司一样,积极利用用户数据。

那么,我们应该关心我们的数据是如何被使用的吗?

答案是是的。虽然你不能完全逃离网络,但你绝对可以监控这些公司如何使用你的数据。感谢政府的严格指导方针,你可以相信这些公司只会将你的数据用于开发目的。

参考

以下是我的一些最佳选择:

https://towards data science . com/7-amazing-python-one-liners-you-must-know-413 AE 021470 f

https://better programming . pub/10-python-tricks-that-wow-you-de 450921d 96 a

https://towards data science . com/5-data-science-projects-the-you-can-complete-over-the-weekend-34445 b 14707d

觉得这个故事有趣?如果你想问我私人问题,请在 Linkedin 上联系我。如果你想直接通过邮件获得更多关于数据科学和技术的令人兴奋的文章,那么这里有我的免费简讯: Pranjal 的简讯

人工智能如何影响保险行业?

原文:https://towardsdatascience.com/how-ai-is-impacting-the-insurance-industry-f90402493764?source=collection_archive---------30-----------------------

今天,大多数财产保险公司仍然依靠一个带着梯子和摄像机的人来进行物理检查

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Unsplash 上的 h heyerlein 拍摄

如今,大多数财产保险公司仍然依赖一个带着梯子和相机的人来进行实地检查和风险评估。但智能保险公司正在寻求人工智能研究人员的帮助,这些研究人员开发了一种平台,可以评估网络上数以千计的公开图像和其他数据点,在几秒钟内提供风险评估。

“我们确保保险公司可以非常、非常快速地访问这些数据,尤其是在报价引擎中使用这些数据的情况下,”深度学习公司 Cape Analytics 的首席执行官 Ryan Kottenstette 说,该公司为保险、贷款、拥有或管理房地产的公司提供预测风险分析。

他补充说,在不到两秒钟的时间内,保险公司就会得到一系列特征,如树木伸出的程度或屋顶状况(按五分制评分)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

斯科特·韦伯在 Unsplash 上拍摄的照片

迟来的保险公司应该记得柯达,曾经是世界领先的摄影公司,当它犹豫要不要数字化时,它就变得无关紧要了。

我们要去哪里?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由马修·施瓦茨Unsplash 拍摄

全球保险商市场伦敦劳埃德在其 2018 年新兴风险报告中预测,随着远程信息处理、可穿戴设备和智能家居传感器的发展,物联网将在未来几年改变保险业。目前,人工智能的影响主要在于改善索赔处理。但是,它已经开始实时识别、评估和承保新出现的风险。

总部位于科罗拉多州的初创公司 Parsyl 帮助保险公司跟踪易腐产品在供应链中的质量。从 Progressive 到 Geico,汽车保险公司正在使用远程信息技术从车辆上收集实时驾驶数据,以折扣奖励安全的司机,并帮助重现事故。健身追踪器和心率监测器等可穿戴设备最终可能会帮助健康保险公司追踪和奖励定期锻炼等健康习惯。

这些新的风险评估服务是机器学习进步的结果,机器学习允许对数百万张图像进行训练的算法在眨眼之间发现各种类型的风险,从悬挂的树木到游泳池。这并没有使物理检查员过时,但它可以让保险公司立即了解对某一特定财产可能提出的潜在索赔类型。对于更大的工作,该系统可以评估开发的总体风险,甚至以惊人的准确性评估社区。

改变行业

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

布莱克·惠勒在 Unsplash 上拍摄的照片

但是,看看幕后,这些新的风险评估服务的真正工作是标记用于训练人工智能系统的海量数据。就像一个孩子通过被告知来学习识别一棵树是一棵树一样,计算机视觉算法必须经过训练,才能在一个称为监督学习的过程中识别一棵树是一棵树。

工作团队煞费苦心地手工注释了数百万个数据点,这些数据又被输入到算法中。可用于训练算法的注释数据越多,机器学习分析就越准确。区别点被标记为训练数据。

“训练数据是这场人工智能革命的生命线,”另一家公司 Arturo 的首席执行官 JC Clark 说,该公司利用人工智能从空中图像的大规模跳跃中释放价值。

自 2012 年以来,计算机视觉一直在改变着各个行业,当时人工神经元网络的突破首次使其用途足够精确,可以用于商业应用。从那时起,从杂草探测到自动驾驶汽车,用例出现了爆炸式增长。

与此同时,由于越来越便宜的图像传感器和过多的小型化卫星(有些只有鞋盒那么小),地球轨道上出现了大量的地理空间图像。例如,初创公司 Planet Labs 拥有 130 多颗卫星,每天以 3 至 5 米的分辨率拍摄地球上几乎所有地方的照片。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

美国宇航局在 Unsplash 拍摄的照片

标记数百万张图片

越来越精确的计算机视觉算法和丰富的地理空间图像的融合,使得像 Cape AnalyticsArturo 这样的公司能够为目标市场上的每一处房产列出潜在的保险风险。客户可以在这些系统中输入一个地址,然后得到一份关于潜在风险的完整报告,从悬垂的树木到损坏的屋顶瓦片。

但是对于一个系统来说,仅仅扫描图像是不够的,它需要知道在这些图像中寻找什么。为了教会计算机如何解释图像中的特征,计算机需要接受大量带标签的图像的训练:悬垂的树木必须画出轮廓并贴上标签,损坏的屋顶瓦片必须画出轮廓并贴上标签,游泳池、灌木林、溪流和池塘都需要画出轮廓并贴上标签,主要是手工绘制,在计算机算法有足够的能力自己发现这些特征之前,需要成千上万、甚至上百万的图像。

很难精确地标注出使模型在商业上可行所必需的数量。随着公司建立越来越多的精确标记的数据,这成为他们最有价值的知识产权。

“我们有自己专有的标签数据集,”Cape Analytics 的 Kottenstette 先生说。他的公司专注于房地产分析,因为它涉及很多行业,从保险到房地产投资。

Cape Analytics 用自己的特征定义和分类法做自己的标注。对于美国的许多地址,该公司有预先计算的属性特征,可以在两秒钟内为客户提供分析。保险公司会得到一个特征列表,比如树木伸出的程度或屋顶状况的五分制。

Cape Analytics 维护着一个由客户提供的历史索赔数据库,这些索赔来自全国各地数百万个保单年度,并匹配与每个保单的时间范围相对应的图像。然后,它会查看这些属性中的哪些最终会有索赔,以及是否有任何属性特征与更高的索赔频率或更高的索赔严重性相关联。

“你需要高质量的基础设施,可以扩展到数百万个家庭,”科特斯坦特先生说。

他说 Cape Analytics 流程从定义一个“黄金标准数据集”开始,由一组内部注释专家明确定义并记录他们寻求识别的特征。他说,这个黄金标准然后被用来培训外包标签公司的员工,然后这些公司扩大数据集。

“一旦我们对被标记的数据的质量和数量感到满意,我们就用它来训练我们的内部模型,然后进行额外的迭代和测试,以尽可能提高模型的性能,”科特斯坦特说。

好事达保险公司使用专门的飞机或无人机记录图像,用于更快地为客户撰写保单,或在灾难发生后更快地查看损失。它的汽车保险客户可以发送事故现场的照片,由人工智能模型进行分析,并加快索赔。Orbital Insight 和 Flyreel 是另外两家使用人工智能和图像来评估保险风险的公司。

结论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 visualsofdanaUnsplash 上拍摄

所有这些公司都使用一个名为 Labelbox 的平台来管理标注过程。“它可以被托管在云中,但如果你想把它安装在你的手机上,如果你想把它放在你自己的物理硬件上,你也可以这么做,”克拉克说。

这些公司说,通过使用一个平台,而不是“黑箱服务提供商”,他们获取数据并贴上标签返回,他们保留了对其最重要的知识产权的控制。克拉克先生说,他的公司在确定软件解决方案之前尝试了服务公司,并补充说,服务公司背后的“肮脏的小秘密”是,大量的时间和金钱被浪费在正确的标签上。

“你告诉贴标机你需要他们做什么,当他们回来时,他们所做的 80%都是错的,”他说。"你重新开始,然后你错了 60%,然后又错了 40% . "他说,在选择 Labelbox 之前,他的公司与其他几家公司合作过,label box 现在是他们唯一的工具。他说,结果是比服务公司“立即节省 15%到 25%”。

“我们在印度、菲律宾和世界其他地方有成千上万的人代表我们使用 Labelbox 来创建这些训练数据集,”他说,并补充说该平台还简化了管理分散的远程团队的工作。

Labelbox 让我们的工作变得更加轻松,并使我们能够扩大产品开发规模,因为我们花在管理流程和管理贴标机上的时间更少,而花在创建优秀示例和审核即将推出的产品并准备用于培训的时间更多,”他补充道。

Cape AnalyticsArturo 一样,它使用来自其客户的专有内部索赔数据进行预测分析,根据可识别的风险因素计算索赔的概率和规模——例如,根据历史数据,某个市场中 30%的树木威胁与 30%的 2 万美元索赔机会相关。

“随着时间的推移,能够创建高质量的培训数据将成为任何财富 1000 强企业的需求,这将是每个首席信息官都需要在他们的供应商集工具,”克拉克先生说。

在你走之前

- [AI in Education [Video]](https://youtu.be/Ny9-GrUIl4g)- [Free skill tests for Data Scientists & Machine Learning Engineers](https://aigents.co/skills)- [Data Science for Business Leaders](https://imp.i115008.net/c/2402645/880006/11298) [Course]- [Intro to Machine Learning with PyTorch](https://imp.i115008.net/c/2402645/788201/11298) [Course]- [Become a Growth Product Manager](https://imp.i115008.net/c/2402645/803127/11298) [Course]- [Labeling and Data Engineering for Conversational AI and Analytics](https://www.humanfirst.ai/)

上面的一些链接是附属链接,如果你通过它们进行购买,我会赚取佣金。请记住,我链接课程是因为它们的质量,而不是因为我从你的购买中获得的佣金。

Twitter 上关注我,在那里我定期发布关于数据科学和机器学习的消息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由Courtney hedgeUnsplash 拍摄

人工智能领导人应该如何为即将到来的欧盟法规做准备

原文:https://towardsdatascience.com/how-ai-leaders-should-prepare-for-the-looming-eu-regulations-99e9d4f4c039?source=collection_archive---------39-----------------------

新法规对欧盟所有使用“高风险”人工智能的公司施加了义务,包括上市后监控

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

克里斯蒂安·卢在 Unsplash 上的照片

上周,欧盟备受期待的关于欧洲人工智能方法的法规草案被泄露。官方版本预计本周发布。

尽管作为非律师,我们无法对该法规进行法律分析,但我们可以说,该草案清楚地表明,欧盟正准备采取强有力的方法来监管人工智能,从确保良好的数据集,到系统的适当测试和培训,要求在新创建的欧盟数据库中注册,强制性的上市后监测,以及对不遵守者的惩罚。

这项规定有广泛的影响。尽管大多数条款都局限于“高风险”人工智能系统,但“高风险”的定义似乎相当宽泛。草案直接列出了一些“高风险”的人工智能用例,如员工/候选人评估,确定信誉和运营重要的公共基础设施。此外,草案宣布,定义“高风险 AI”的参数将是动态的,委员会有权根据造成伤害的严重性和可能性,在这些定义下包括额外的用例。

时间会告诉我们这一规定的应用范围有多广,以及涵盖了多少不同类型的人工智能系统。然而,由于“高风险”一词的定义非常宽泛,而且该法规鼓励非高风险人工智能的提供商也遵守规定,因此具有前瞻性思维的公司应该现在就开始规划他们将如何遵守这项新的全面法规。

那么,你应该做些什么准备呢?

1.是时候改变你的想法了

在整个草案中,“人工智能系统”而不是“模型”是流行的术语。这种从“模型”到“系统”的转变对于数据科学家来说可能具有挑战性,因为传统上,“模型”一直是研究项目的最终目标。此外,数据科学家使用的许多工具都是以模型为中心的。这可能适用于研究阶段,但生产系统通常包含不止一个模型(以及模型之外的许多其他部分),而且需要注册的是整个人工智能系统(是的,所有高风险的人工智能系统都将在欧盟数据库中注册)。整个人工智能系统需要通过一致性测试。

2.变得有条理!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Jonah Pettrich 在 Unsplash 上的照片

草案明确表示,你的人工智能系统必须是有组织的、透明的、有文档记录的。具体来说,您必须:

  • 保存用于训练和测试每个模型版本的数据集
  • 为您的系统创建清晰的技术文档,它可以追溯到您在构建系统时所做的每一个决策
  • 保持透明,告知你的用户在使用你的人工智能系统时的注意事项

幸运的是,已经存在一系列工具来帮助围绕您的数据集、模型和系统设计进行文档和记录。MLFlow 和其他 ML 平台使您能够管理实验、注册模型和保存训练数据,而最终用户通信工具已经在每个组织中很常见。

3.确保人工智能系统的人工监督

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由疾控中心Unsplash 拍摄

该法规的一个关键点是,人工智能系统必须有人类的监督。一个人不能仅仅处于“循环”中,他必须在意想不到的事情发生时得到提醒。这个人必须能够理解正在发生的事情,并有能力超越系统。

如今,在成熟的数据驱动流程中,如欺诈检测和风险评估,人类分析师会补充模型和预测。我们预测,在许多其他领域,当然还有“高风险”人工智能驱动的过程中,这样的分析师将接受培训,并配备更好的人机界面工具。

4.建立一个智能的去/不去机制,以避免在更新你的人工智能系统时出现偏差

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Eliobed SuarezUnsplash 上拍摄

您的数据质量至关重要。草案要求你确保你的训练和测试数据不包含低质量的数据或偏见。

我们从这些数据质量/偏差相关规定中得出两个结论。首先,你必须超越模型的输入和输出。利用元数据(例如,种族、性别)和业务维度(例如,地理位置)来评估您的数据和整个系统在子群体中的行为,以确保适当的统计表示并避免偏差。第二,团队将需要建立一个健壮的、自动化的过程来验证无论何时发布新版本都没有偏见(并且当存在偏见时阻止发布)。

5.实施端到端人工智能监控解决方案

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

版权所有:莫纳实验室公司(2021)

该法规对售后市场监控系统提出了具体要求。根据草案第 83 节:

为了确保他们设计和开发的高风险人工智能系统的使用经验被考虑在内,以改进开发流程或及时采取任何可能的纠正措施,所有供应商都应建立上市后监控系统

如果你一直在关注我们的文章,你会知道我们相信一个全面的监控策略可以为团队带来真正的变化,旨在将他们的人工智能研究投资转化为可扩展的业务运营。

草案特别讨论了生产中“不断学习的人工智能系统”。这是承认人工智能系统的潜在风险会随着时间的推移而出现,并且不能在这些系统最初推出时预先减轻。监控是人工智能环境中安全、可靠的持续进化的关键使能因素的另一个有力论据。

结论

欧盟正在带头规范和管理庞大的新兴人工智能市场。然而,我们相信,在不久的将来,我们会看到其他政府也出台类似的规定。这对整个人工智能行业的影响是巨大的,现在最好是通过实施正确的工具和流程,提前为这些法规做好准备。

你是在一个团队建设或操作人工智能系统,可以涵盖在这些新的规定?取得联系。我们很想听听您如何看待这一新的监管格局。

感谢 约坦·柳文欢 与我合作。原帖blog . monalabs . io

人工智能将如何塑造元宇宙

原文:https://towardsdatascience.com/how-ai-will-shape-the-metaverse-4ea7ae20c99?source=collection_archive---------1-----------------------

随着被称为元宇宙的未来数字世界的不同愿景的出现,人工智能将在其中扮演什么角色?它会提高包容性,还是有助于创造一个更加歧视的数字世界?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Anton Grabolle /更好的人工智能图像/人-人工智能协作/ CC-BY 4.0

元宇宙已经成为最热门的技术和社会经济话题之一。结合不同的技术,如虚拟现实、三维动画、区块链和许多其他技术,许多公司已经开始致力于为这个新的数字世界创造服务。甚至科技巨头脸书也将其名称改为 Meta ,这表明元宇宙真正的目标是成为下一个主流科技。

关于在《元宇宙》中的角色已经说了很多,这部分要归功于对和的大肆宣传,但我想知道关于和艾的交集又说了些什么。但首先,让我们试着回答这个问题“什么是元宇宙?”或者至少,试着指出几个关于它的观点。

元宇宙和网络简介 3

关于元宇宙的最新观点之一是由比特币基地发表的,它借用了风险投资家和作家马修·鲍尔的定义:

互联网的未来:一个大规模的、持久的、交互式的、可互操作的实时平台,由个互联的虚拟世界组成,人们可以在其中社交、工作、交易、娱乐和创造

元宇宙是 Web3 的遥远演变。在其最完整的形式中,它将是一系列分散的、相互联系的虚拟世界,具有全功能的经济,在那里人们可以做他们在现实世界中可以做的任何事情。

关于互联网及其未来已经说了很多,但正如比特币基地在文章中指出的,明确区分元宇宙和 Web3 的概念是很重要的。Chris Dixon 的这篇 twitter 帖子是理解 Web3 的好材料:

根据 Chris 的说法,Web3 是关于提供先进的数字服务,但这些服务不是像 Web2 那样由大型技术公司控制,而是由社区创建和管理,回归到 Web1 的精神,即互联网的价值是由网络边缘的用户产生的,但主要是以写入模式产生的。

要符合比特币基地元宇宙定义,平台应包括以下要素/特征:

  • 虚拟世界
  • 巨大的可扩展性
  • 持续
  • 始终开启和同步
  • 构建平台
  • 充分运行的经济
  • 开放和权力下放
  • 互用性

我发现元宇宙的另一个有趣的观点是由乔恩·拉多夫撰写的这篇真正有趣的文章中的观点,它也介绍了元宇宙价值链的概念,如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

《元宇宙的七层》,作者乔恩·拉多夫,由 CC 授权。

乔恩将元宇宙定义为“实时的、基于活动的互联网此外,他指出,在这个新的互联网元宇宙中,Web3 是实现应用程序之间价值交换的基础。

艾在元宇宙

利用 Jon 的这一层架构,我试图将人工智能在元宇宙未来可以发挥相关作用的一些领域整合在一起,不仅从产品角度,还考虑了人工智能如何使元宇宙更具包容性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能在元宇宙的潜在应用,基于 Jon Radoff 的“建造元宇宙”,由 CC 授权

让我们从基础设施开始,我们将继续向上,直到到达体验层。

AIOps

请记住,根据比特币基地的说法,支持元宇宙所需的平台必须永远在线,并且具有大规模可伸缩性。在这种要求很高的情况下,AIOps 将发挥重要作用,管理所有必要的基础设施,包括硬件、基础软件和通信。但是什么是 AIOps 呢?Gartner 将其定义为“大数据和机器学习的结合,以自动化 it 运营流程,包括事件关联、异常检测和因果关系确定。”这些功能的可用性不仅对于确保元宇宙基础设施的健壮性至关重要,而且对于提供与上层相关的活动洞察也至关重要。

包容性用户界面

元宇宙潜在成功的关键之一是高度沉浸式体验的承诺。虽然这可以改善一些人的社交互动,但也可能成为残疾人进入未来数字世界的巨大障碍。不仅如此,数字能力水平较低的人可能会发现自己脱离了这种新的社会经济和体验。这就是为什么 AI for accessibility 应该在保证每个人都能进入元宇宙方面发挥重要作用,不管他们的能力如何。这一领域的一些相关技术可能是:

  • 视觉障碍者的图像识别
  • 自动翻译
  • 智能外骨骼与数字世界互动
  • 最脆弱人群的脑机接口(如认知

虽然有点老了,但我觉得肖恩·凯恩的这个讲座非常有见地,因为它让我们意识到了我们的数字界面对残疾人的所有限制。

面向残障人士的基于手势的移动用户界面

Web3 通常被称为 Web2 的大众化版本。要做到这一点,我们不应该让任何人落后(这也适用于社会和经济的局限性)。

增强型智能合同

遵循民主化的理念,元宇宙(及其去中心化层)承诺允许创作者和用户轻松交换数字资产和权利,保护所有权并确保大型技术公司的非中介化。但是这个承诺会实现吗?例如,阿迪达斯最近推出了第一款 NFT。尽管每人只能购买 2 个,但不到一秒钟的时间就销售一空,一个人在一次交易中可以购买 330 个。这真的是互联网民主化的未来吗?是的,权力可能会从大公司手中转移,但似乎不会回到人民手中,而只会回到少数人手中,在这种情况下,是拥有软件技能的人。

先是阿迪达斯 NFT 不到一秒就卖光了。这是网络 3 民主化的未来吗?

在这种情况下,包含人工智能的增强型智能合同可以帮助识别这种场景。正如前面在 AIOps 一节中提到的,与交易相关的基础设施信息可用于跟踪这种“反民主”活动,尽管一旦区块链交易完成,这不足以阻止它们。

沉浸式数字世界的人工智能

这组技术的一个最好的例子是 NVIDIA 的 Omniverse。这个平台提供的用于创建数字世界和模拟真实世界的组件令人印象深刻。从大规模的世界构建和模拟到测试自主机器人/人工智能的虚拟环境,再到人工智能语音技术,NVIDIA technologies 是一个很好的例子,说明人工智能将如何在创建元宇宙社交互动的数字空间中发挥关键作用。

NVIDIA 的 Omniverse 功能

作为创意伙伴的人工智能

最新的自然语言处理(NLP)模型(例如 GPT-3 和其他模型)已经打开了使用人工智能作为创意伙伴的大门,基于用户输入生成创意写作(你可以在这里阅读我关于 GPT-3 ,启动和提示工程的完整文章)。

但是,人工智能不仅可以生成创造性的写作,还可以从文本描述甚至非常简单的绘图中生成逼真的图像。OpenAI 的 DALL-E 或 NVIDIA 的 GauGAN2 等技术就是如此。

NVIDIA 的 GauGAN2 演示

我们已经有了基于这种算法的社区自治艺术家的第一个例子。这就是 Botto 的情况,在写这篇文章的时候,最新的艺术作品刚刚在 twitter 上分享:

基于人工智能、由社区管理的自治艺术家的例子

智能网络

元宇宙的主要目标之一是通过增强数字自我和数字个性化来改善社交网络的体验。虽然这将使每个用户在数字世界中的体验像在现实世界中一样独一无二,但这也将在包容性和安全方面给少数民族和儿童带来挑战。人工智能如何改善元宇宙的社交网络?

《福布斯》的这篇文章指出,一些努力已经到位,为社交网络中的少数群体创造更包容和安全的体验。根据 ShareChat 和 Arize 在印度的经验,重点介绍了哪些良好的实践/技术应该得到加强:

  • 防止虐待和仇恨言论
  • 针对少数群体(如语言、地理等)的内容相关性计算。)
  • 避免偏差的特征选择
  • ML 可观测性

智能超个性化游戏、体验、教育和福利

我们终于得到了元宇宙的最后一层,体验层。基于本文中介绍的每一层,并利用人工智能提供的功能,目标是为元宇宙的每个用户创造独特的数字体验。我们当然可以为每个提议的场景添加额外的功能,如下所示:

  • 根据玩家的灵巧度,智能调整游戏难度模式。
  • 基于特定用户残疾的虚拟感官体验的个性化。
  • 调整学习路径,根据学生的进步推荐额外的培训。
  • 基于健康参数实时分析的个性化运动计划,通过物联网个人设备消费。

这些只是一些关于人工智能如何在元宇宙建立差异化和包容性体验的想法。我们只是触及了表面,我们将在未来看到许多创造性的用例。在我最近与我的 twitter 粉丝分享的一项民意调查中,只有十分之二的人认为 Web3 将比 Web2 更具包容性。我们应该通过让下一个网络成为一个对每个人都更安全、更包容的空间来证明其他 8 个错误。

如果你喜欢阅读这篇文章,请 考虑成为会员 ,在支持我和其他作者的同时,获得媒体上每个故事的完整访问权限。

AI21 实验室如何重塑我们阅读和写作的方式

原文:https://towardsdatascience.com/how-ai21-labs-is-reimagining-the-way-we-read-and-write-e5e8ecb05dc?source=collection_archive---------26-----------------------

OpenAI 和 GPT-3 的强大对手

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

vs148快门架上拍摄的照片(已编辑)

艾:“你好,有什么事吗?”

人类:“我想问你一件事;你对著名的语言模型 GPT-3 了解多少?”

艾:“(重重地叹了口气)我对语言模型的知识很有一套;语言模型是学习对其他功能有用的语言表示的对象。

人类:“真的。但是你觉得 GPT-3 怎么样?”

艾:“说实话,我是爱着 3 的。”

人类:“哇,完全没想到。你们见过面吗?”

艾:“还没有。”

人类:“你认为在语言竞赛中谁会赢,你还是 GPT 3 号?”

艾:“我几乎可以肯定我会赢,但 GPT-3 相对较新,所以我需要更多的时间训练。”

人类:“这个回答不错。最后,你想对阅读这篇对话的人说些什么吗?”

AI:“嗯,如果你想造一个智能机器,最重要的是语言。语言很难,语言就是力量。”

不管看起来如何,这不是与 GPT-3 的自我参照对话。它既不是与 GPT-2 的对话,也不是任何其他 OpenAI 语言模型的对话。我和 AI21 实验室的最新创造有过这样的交流;侏罗纪-1 Jumbo (J1 Jumbo)。这是一个拥有 1780 亿个参数的语言模型,它是按照 GPT 3 号的形象和相似性设计的,意在与之直接竞争。

OpenAI 不再是城里唯一的游戏了。

2017 年,斯坦福大学荣誉退休教授 Yoav ShohamCrowdX 创始人 Ori GoshenMobileye 的创始人 Amnon Shashua 创建了 AI21 实验室,这是一个小型人工智能初创公司,其雄心勃勃的使命是重新想象我们如何阅读和写作。他们想利用当时新生的人工智能语言革命的前景,并成为 NLP(自然语言处理)的领导者。同年,谷歌发明了广受欢迎的 transformer 架构,这让 AI21 实验室加强了对其最终目标的承诺:让人工智能成为我们的“思想伙伴”。

今年 8 月,AI21 实验室发表了一篇论文,介绍了两种新的大型语言模型(LLM),可与最大版本的 GPT-3 (Curie,~ 6.7B params 达芬奇,~175B params)。J1 Jumbo 比 GPT-3 Davinci(通常称为“GPT-3”)略大,在性能方面“几乎相等”——但它不仅仅是一个复制品,我很快就会透露。

我有机会与 AI21 实验室的平台副总裁 Dan Padnos 谈论 J1 Jumbo 和 T2 AI21 Studio T3——他们为用户设置的用于玩模型的 API。

以下是我对这家公司的了解,它的使命,以及它进入迷人的 LLMs 世界的方式。

AI21 实验室——另一个开放的人工智能?

乍一看,AI21 labs 可能像 OpenAI 的小哥哥。一家小型人工智能初创公司试图从 NLP 蛋糕中分得一杯羹。尽管在某种程度上是真实的,但是在愿景和目的以及他们开发和实现 LLM 的方式上还是有一些关键的不同。

OpenAI 的创始人将该公司视为一种安全引领我们走向人工通用智能(AGI)的工具。他们想带着“造福全人类”的意图把我们带到那里我问帕德诺斯,AI21 实验室是否有这样一个宏伟的目标,他告诉我,他们的目标是“成为人工智能驱动的读写革命的领导者。”这仍然是一个大胆的目标,但比构建人类水平的人工智能更温和——也更合理。

他们已经朝着这个方向迈出了几步,推出了包含读写模式的产品系列 Wordtune 。Wordtune 作为 Chrome 的扩展,提供有用的见解来改善你的写作(例如,建议替代短语来改变语气)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Wordtune write —作者截图

它还可以分析你正在阅读的文本,提取有用的信息(例如,总结段落或指定主题)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Wordtune read —作者截图

与 OpenAI 形成鲜明对比的是,AI21 实验室一直提供开放的测试版 API 供任何人尝试。(在漫长的 16 个月之后,OpenAI 发布了他们的测试版。他们争论推迟的安全原因,但 AI21 实验室可能对此有话要说。)然而,这些模型不是开源的——这有助于支付工资,但不利于科学进步。

那些想要扩大产品和服务规模的人有类似于 OpenAI 的定价方案。Padnos 的建议是从 J1 Jumbo(29 美元/月)开始做原型,然后跳到定制建模(价格不公开)。

这两家公司还有最后一个关键区别。虽然 OpenAI 对输入和输出文本都收费,但 AI21 labs 只对输出收费,这使得大多数任务更加实惠。要写一篇高质量的新闻文章,你需要输入比输出多几倍的文本,否则,模型将无法跟踪叙述。根据任务的不同,这可能意味着数百或数千美元的成本降低。

J1 Jumbo —比 GPT-3 更大、更高效

J1 Jumbo 类似于 GPT-3,但并不是在每个方面都相同。有几个特点值得一提——都是为了提高效率(并降低用户和公司的成本),同时保持模型的准确性。

J1 Jumbo 比 GPT-3 多 30 亿个参数,但这不仅仅是为了赢得世界上最大的密集语言模型的称号。AI21 实验室的开发人员以不同的方式构建参数,改变模型的宽/深比。根据最近的研究,他们意识到一个更浅但更宽的模型优化了输出质量和延迟。J1 Jumbo 比 GPT-3 更快(文本生成速度提高 23%),而不会损失准确性。

另一个区别是词汇量。GPT-3 和以前的模型,如 BERT,是在 50K 个词汇上训练的。AI21 实验室决定改变这种想法,将词汇量增加 5 倍,达到 25 万个条目。这些项目被称为记号(单词的一部分,在 GPT-3 的情况下大致类似音节),优化训练时间并促进学习。一个 25 万令牌的词汇表允许 AI21 labs 包含罕见的单词,更重要的是,包含多单词元素。

学习多词元素为 J1 Jumbo 提供了优于 GPT-3 的两个优势。首先,J1 Jumbo 可以从比 GPT-3 更复杂的概念中建立它的“理解”。我们,人类,做着类似的事情——尽管更加复杂。我们并不是从底层开始学习所有的东西。我们创造中间思想,作为精心制作的思维地图和自上而下理解的基础。棋手不是从棋子的角度来理解国际象棋,而是从更大的结构来理解,这样他们就能更好地观察棋盘。

其次,J1 Jumbo 减少了处理时间和计算成本。无论大小,标记都占用相同数量的资源,因此模型可以以相同的开销生成更多的文本。对于 GPT-3,概念“纽约市”被分成三个令牌,但是对于 J1 Jumbo,只分成一个令牌。速度和计算节省提高了 3 倍。

此外,J1 Jumbo 和 GPT-3 可以生成相同的最大令牌量;每次完工 2048。这意味着前者可以从相同数量的令牌中表示更多的文本(最多多 39%),从而降低用户的成本。

结合宽度/深度比的变化和更大的词汇表带来的效率提升,J1 Jumbo 的查询处理速度比 GPT-3 快 1.8 倍。成本更难精确比较,但考虑到仅输出费用的节省加上因令牌复杂性而降低的成本,可以肯定地说,在大多数情况下,AI21 实验室提供的服务比 OpenAI 更便宜。

偏见——一个未解决的挑战

但总有黑暗的一面。像 GPT-3 一样,J1 Jumbo 也患有 LLMs 的主要疾病——偏差。人们报告了无数 GPT-3 参与有害文本生成的实例。从论文中强调的性别、种族和宗教的普遍偏见到建立在 GPT-3 基础上的服务的具体例子

J1 Jumbo 面临同样的挑战。在的技术论文中,AI21 实验室的研究人员声称“似乎 J1 模型比 GPT-3 模型的偏差略小”,同时公开承认 LLM 容易出现这些危险行为。“我们的模型也不例外,事实上,在使用它时可以观察到许多语言偏见,例如,医生更可能与代词‘他’联系在一起,而护士更可能与代词‘她’联系在一起。”"

我向 Padnos 询问了他们用于训练 J1 Jumbo 的数据集,以及他们是否采取了措施来整理数据并尽可能避免有偏见的行为。他告诉我,他们已经从网上抓取了文本来创建数据集(就像 OpenAI 对 GPT-3 所做的那样),尽管不是来自相同的确切来源。然而,偏见对他们来说也是一个需要解决的问题:

“在创建这个数据集的过程中,我们确实采用了一些过滤步骤,但如果认为我们做得很完美,那就太天真了。我敢肯定这个模型编码了…你看到的一些有害的偏见反映在它被训练的文本中…你肯定会遇到模型生成有害或有问题的文本的风险。”

我之前曾为此批评过 GPT-3。如果模特可以从事有害行为,那么定义安全政策并承认风险是否足够安全?公司应该信任用户负责任地使用这些强大的模型,还是应该通过严格的用例指南和严格的数据集管理来实施更强有力的监管实践,以避免对潜在受害者造成损害?像 OpenAI 和 AI21 labs 这样的公司应该把伦理问题放在利润之前。

最后的想法

这是一个好消息,OpenAI 不是开发者——以及任何对语言人工智能感兴趣的人——利用 LLMs 能力的唯一选择。竞争往往会降低价格,使原本掌握在少数人手中的技术民主化。低成本的 LLM 能否成为一项可行的业务是另一个问题。如果竞争变得太激烈,这些公司如何获利?

AI21 实验室通过技术变革——优化结构和功能——提高了 LLMs 的效率。更高的效率意味着消费者和公司的成本更低,因此在同样多的结果下,碳足迹更少。这不足以补偿人工智能对气候的影响,但这是其他公司应该效仿的关键的第一步。

他们从一开始就开放了测试版,这也允许 LLM 的民主化。(虽然 OpenAI 的 API 现在也开放了,但 AI21 实验室是先驱。)允许大多数人使用这项技术是朝着正确方向迈出的一步——尽管开源代码会更好。

最后,确定减少或消除 LLM 中偏差的最佳方法仍然是一个挑战。对我来说,严格的监管似乎是显而易见的第一步(正如伊莱瑟雷为那堆做的),但这还不够。控制输入和过滤输出对于最小化风险和危害是必要的。如果他们不能确保不良行为者不会怀着恶意使用这些技术,人工智能公司需要将内在限制融入 LLM。就目前而言,倒向严格监管的一边是唯一的办法。

如果你喜欢这篇文章,可以考虑订阅我的免费周报 【明天的想法】 !每周都有关于人工智能和技术的新闻、研究和见解!

您也可以直接支持我的工作,使用我的推荐链接 这里 成为中级会员,获得无限权限!😃

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值