TowardsDataScience 博客中文翻译 2020(四百三十四)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

纽约的 Airbnb 房东如何适应新冠肺炎的生活?

原文:https://towardsdatascience.com/how-are-airbnb-owners-in-ny-adopting-in-the-midst-of-covid-19-dc5548f4efd7?source=collection_archive---------63-----------------------

分析纽约 Airbnb 房源的可用性、价格和描述

众所周知,旅游业受到了新冠肺炎的严重影响。几天前,Discover 首席执行官详细介绍了与旅游类别相关的消费者支出基本上已降至零。这肯定会影响美国冠状病毒的中心纽约市的 Airbnb 主机。

[## Discover card 首席执行官详细介绍了旅游类消费支出下降 99%的惊人降幅

很明显,美国人已经大幅放缓了他们的支出,因为许多行业在…

www.cnbc.com](https://www.cnbc.com/2020/04/24/discover-card-ceo-details-drop-in-spending-with-travel-down-99percent.html)

数据

我对衡量新冠肺炎对纽约 Airbnb 主机的影响很感兴趣。2019 年 4 月至 2020 年 4 月(月度频率)的数据来源于 Airbnb 内部(listings.csv)。尽管列表文件提供了更详细的数据,但它有利于可视化,不需要太多的清理工作。数据中总共有 645,458 个列表。

[## Airbnb 内部。为辩论添加数据。

Airbnb 内部是一套独立的工具和开放的数据,允许你探索 Airbnb 是如何真正被用于…

insideairbnb.com](http://insideairbnb.com/get-the-data.html) 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

列表数据快照

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

描述统计学

可用性趋势

Airbnb 主机可以为他们的列表设置一个日历,这样它就可以在一年中的几天或几周或者全年可用(除非它已经被预订)。“高可用性”定义为每年可用时间超过 60 天,可以表示在数据被擦除时单元是空闲的。

从 2019 年 4 月到 2020 年 4 月,高可用性的百分比增加了近 4 个百分点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当按区划分时,曼哈顿和布鲁克林等热门地区也显示出“高可用性”单元的增长趋势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

价格趋势

“高可用性”设备的平均价格在 4 月份降至 185 美元。这一下降主要是由曼哈顿的公寓引起的,Airbnb 在其他行政区的平均价格几乎保持不变。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

列表描述的更改

到目前为止,这并不奇怪,有更多的单位在纽约,他们的价格已经下降。所以,问题是 Airbnb 的主人正在做什么来应对这种情况?

列表文件包含每个列表的描述。通过分析描述,我们可以感觉到主人对这种情况的反应。今年 3 月,提到“Covid”、“Corona”或“Quarantine”的列表开始出现。三月份的一些列表中提到了 Covid/Corona:舒适的皇后|豪华的 Bnb |干净&没有 Covid,传统的纽约绿洲-Corona 消毒,安静的花园 apt UWS,远离 Corona 病毒。

然而,提及 Covid/Corona 的列表在 4 月份有所减少。相反,包含“医院”、“医疗保健”或“健康”的列表开始增加。一个特别的清单把它的描述从三月份的“另一个海滩聚会/早餐”改成了四月份的“圣约翰医院员工/志愿者”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

纽约地图

截至 2020 年 4 月 8 日,这是包含“医院”或“医疗保健”的列表所在的前 10 个社区。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

纽约市的地图,上面有提及医院/医疗保健等的列表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

摘要

不用说,对于 Airbnb 的主机来说,这是一个充满挑战的时代。Airbnb 推出了一项计划,为医护人员和急救人员提供住宿场所,同时安全地远离自己的家庭。在纽约,尽管提及医院/医疗保健等的列表的数量。仍然很小,我们可以看到业主为一线应急人员提供住宿的趋势越来越明显。说明 Airbnb 的主机正在适应目前的情况,把影响降到最低。

人工智能算法中的偏差

原文:https://towardsdatascience.com/how-are-algorithms-biased-8449406aaa83?source=collection_archive---------14-----------------------

算法做它们被教导的事情。不幸的是,一些人无意中被隐藏在数据中的社会模式灌输了偏见和不道德的偏见。

第二次世界大战结束后,纽伦堡审判揭露了纳粹在医学研究中的暴行。在试验之后,医学科学建立了一套规则——纽伦堡法典——来控制未来涉及人类受试者的实验。《纽伦堡法典》影响了世界各地的医学伦理准则,就像那些甚至在 30 年后仍未遵循该法典的实验被曝光一样,比如臭名昭著的塔斯基吉梅毒实验。

人工智能实验和应用对用户的直接负面影响不像塔斯基吉和纳粹实验那样不人道,但面对压倒性和越来越多的算法对某些人口群体有偏见的证据,迟早要进行对话,这很重要。人工智能系统可能会因构建者、开发方式和最终部署方式而有所偏差。这就是所谓的算法偏差。

虽然数据科学尚未开发出自己的纽伦堡代码,但人工智能研究的社会影响已开始在一些课程中得到阐述。但即使辩论开始萌芽,仍然缺乏的是一个学科范围的讨论,以应对如何解决人工智能算法强化的社会和历史不平等问题。

我们是有缺陷的生物。我们做的每一个决定都包含某种偏见。然而,算法并没有被证明更好。理想情况下,我们希望我们的算法做出更明智的决策,没有偏见,以确保更好的社会正义,即社会中的个人和群体(如少数民族)有平等的机会获得资源,听到他们的声音,并在社会中得到代表。

当这些算法的工作是放大种族、社会和性别不平等,而不是减轻它;有必要评估这项技术的伦理后果和潜在的恶意。

这篇文章是由两个热点引发的:现在正在全球范围内肆虐的种族不平等讨论,以及 Yann LeCun 与 Timnit Gebru 在 Twitter 上的争吵,这是由于对巴拉克·奥巴马(左)的降采样图像的分歧,该图像被面部升采样机器学习(ML)模型描绘成一个白人男子的照片(右)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一张奥巴马的去像素化照片被放大成一张白人男性的照片。(感谢:@哈德曼鲁在推特上)

这场(颇具爆炸性的)争论是由 LeCun 的这条推文引发的,他在推文中表示,由于训练算法的数据存在偏差,最终得到的人脸是一个白人。格布鲁尖锐地回应说,不能把 ML 系统的危害归结为有偏见的数据。

在大多数基线 ML 算法中,该模型更适合在各种数据点上最频繁出现的属性。例如,如果你要设计一个人工智能招聘工具来审查软件工程职位申请人的简历,你首先需要用一个过去候选人的数据集来训练它,该数据集包含诸如“经验”、“资格”、“持有的学位”、“过去的项目”等细节。对于每个数据点,招聘工具的算法都需要一个决策或“标签”,以便通过观察简历中的模式来“学习”如何为给定的申请人做出决策。

对于一个代表性性别差异很大的行业,有理由假设大多数数据点将是男性申请人。并且数据中的这种集体不平衡最终被算法解释为数据中的有用模式,而不是将被忽略的不期望的噪声。因此,它会告诉自己,男性候选人比女性候选人更受欢迎。

我希望这只是一个我用来证明我的观点的虚构的、夸张的例子。不是的。

LeCun 的评估没有错,因为在这种特定模型的情况下,在包含黑人面孔的数据集(而不是主要包含白人面孔的数据集)上训练模型不会产生如此荒谬的输出。但是,现代人工智能教父被拖入一场争吵(尽管不公平)的好处意味着,更多的研究人员现在将意识到他们的研究的影响。

这种误解显然源自对“偏见”一词的解释——在任何关于人工智能/人工智能的社会影响的讨论中,这个词似乎都被其自身的重量所压垮。

正如 Sebastian Raschka 所说,“ML 中的术语偏差严重超载”。它有多种感觉,可能会被彼此误解。

(1) 偏差(如数学中的偏差单位)(2)【公平】偏差(也称为社会偏差 ) (3) ML 偏差(也称为归纳偏差),这依赖于建立模型所采取的决策。)(4) 偏差-损失函数的方差分解(5)数据集偏差(通常导致 2)

我想,当我们使用这些术语时,只要稍微精确一点,就可以弥补沟通中的许多差距。

更轻松的是,别说奥巴马了,这位模特甚至把一只狗的脸描绘成了一个白人男子的脸。它当然喜欢白人。

当然,学习算法也有超出数据偏差的归纳偏差。但如果数据有一点偏差,就会被这些系统放大,从而导致模型学习到高偏差。简而言之,创建一个 100%无偏见的数据集实际上是不可能的。任何由人类挑选的数据集都是精选的,并且是非穷尽的。我们的社会认知偏差会导致无意中挑选数据。这种有偏见的数据,当输入到数据变异模型(其决策受到所见数据的严重影响的模型)时,会对这些社会、种族、性别、文化和政治偏见进行编码,并将其融入 ML 模型。

一旦应用到产品中,这些问题就会加剧。几年前,Jacky Alciné 指出谷歌照片中的图像识别算法将他的黑人朋友归类为“大猩猩”谷歌为这个错误道歉,并保证会解决这个问题。然而,它没有提出一个适当的解决方案,而是简单地阻止了算法识别大猩猩。

像谷歌这样规模的公司无法提出解决方案似乎令人惊讶。但这只能表明,训练一个一致而公平的算法并不是一件容易的事情,尤其是当它没有在一组不同的类别上进行训练和测试时,这些类别按比例代表了不同的人口统计群体。

面部识别技术犯下可怕错误的另一个灾难性事件发生在上周,一次错误的面部识别匹配导致一名密歇根州男子因莫须有的罪行被捕。最近由麻省理工国家标准与技术研究院或 NIST 进行的研究发现,尽管面部识别在白人男性身上效果很好,但对于其他人群来说效果不够好(误识别率可能会差 10 倍以上),部分原因是用于开发底层数据库的图像缺乏多样性。

算法偏差的问题不仅限于图像/视频任务,它们也在语言任务中表现出来。

语言总是被“定位”,也就是说,语言的理解依赖于外部参照,而接受者必须能够解析这些参照。因此,这意味着用于训练模型的文本携带关于作者和情况的潜在信息,尽管程度不同。

由于语言的情境性,任何语言数据集都不可避免地带有人口统计学偏见。例如,与美国人和欧洲人相比,一些语音到文本转录模型对于非裔美国人、阿拉伯人和南亚人往往具有更高的错误率。这是因为训练语音识别模型的语料库是由来自西方国家的人的话语支配的。这导致该系统擅长翻译欧洲和美国口音,但在转录世界其他地方的语音方面表现不佳。

这一领域的另一个例子是现有单词嵌入(通过神经网络学习)中的性别偏见,这表明女性与“较少大脑”的职业有更高的关联,而男性往往与据称“较多大脑”或更高收入的职业有关联。

在下表中,我们看到了通用语句编码器嵌入模型中与各种职业相关的性别偏见分数。分数为正的职业是偏女性的职业,分数为负的职业是偏男性的职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

偏向女性得分最高的职业(左)和偏向男性得分最高的职业(右)(礼貌:https://developers . Google blog . com/2018/04/text-embedding-models-contain-bias . html)

尽管人工智能研究人员很容易举起双手,免除自己的所有责任,但他们必须承认,他们——有意或无意地——为许多缺乏人工智能专业知识的公司构建了人工智能产品的基础层。这些公司,没有微调和调整模型的知识,使用预先训练的模型,因为它们是由 ML 研究人员(如 GloVe,BERT,ResNet,YOLO 等)在互联网上发布的。

部署这些模型而不明确地重新调整它们以解释人口统计学差异是危险的,并且可能导致排斥和过度概括人们的问题。责任止于研究人员,他们必须承担硬币另一面的责任。

也很容易归咎于数据而不是算法。(这让我想起了共和党在第二修正案辩论上的立场:“枪不杀人,人杀人。”只把责任归咎于数据是不负责任的,就像说一个种族主义的孩子不是种族主义者,因为他的种族主义父亲教会了他种族主义。

我们需要改进的不仅仅是数据,而是算法需要变得更稳健、更不敏感、更不容易受到数据的影响。这需要成为任何从事研究的人的责任。同时,消除数据偏差。

在现实世界中部署算法的指导问题应该总是“错误的答案会比没有答案更糟糕吗?”

你可以在这里 访问我的页面 。我的碎碎念句柄是@

参考

1) 面部识别准确,如果你是白人https://www . nytimes . com/2018/02/09/technology/face-Recognition-race-artificial-intelligence . html)作者史蒂夫·洛尔

2)堪萨斯州克里什纳普里亚。,Vangara,k .,King,m .,Albiero,v .,鲍耶,K. IEEE 计算机视觉和模式识别会议(CVPR)研讨会上描述了人脸识别准确性相对于种族的可变性,2019 年 6 月。

3) 语言的生命作者马丁·凯,斯坦福大学

4) 文本嵌入模型包含偏差。这就是为什么这很重要。本·帕克、约尼·哈尔彭、马里奥·瓜哈尔多-塞斯佩德斯&玛格丽特·米歇尔、谷歌人工智能

5) Bolukbasi,t .,Chang,KW。男人对于电脑程序员就像女人对于家庭主妇一样?去偏置词嵌入神经信息处理系统进展 29,2016。

美国人对新冠肺炎的反应如何?

原文:https://towardsdatascience.com/how-are-americans-reacting-to-covid-19-700eb4d5b597?source=collection_archive---------65-----------------------

使用 Twitter 和情感分析来回答这个问题

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:推特

新冠肺炎疫情对整个世界构成了前所未有的挑战。由于确诊病例和死亡人数最多,美国是受病毒打击最严重的国家之一。随着各州开始部分重新开放,这个国家在这个问题上变得非常两极分化。一些人坚决支持这项措施,认为这对国家的经济健康非常重要。然而,其他人对此强烈反对,认为重新开放的人力成本是不合理的。在局势高度紧张的时候,我试图更好地了解美国人对新冠肺炎当前局势的真实感受。

为了回答这个问题,斯里汉·梅迪博纳和我一起从推特上搜集与新冠肺炎有关的推文,并对它们进行情感分析。为了了解美国各地的反应如何不同,我们使用了来自纽约、德克萨斯州和加利福尼亚州的推特。让我们进入项目吧!

获取 Twitter 数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:Tweepy

在访问我们的 Twitter API 凭证之前,我们需要申请一个 Twitter 开发者帐户。一旦我们的应用程序被批准,我们就可以使用 Tweepy 访问 API 并下载一个标签的所有 tweets。调用search_for_hashtag函数允许我们快速抓取标签中的数据(#冠状病毒、#新冠肺炎、#纽约、#加州、#德克萨斯是我们使用的一些标签)。要更深入地了解 Tweepy,请查看这篇文章

我们使用朴素贝叶斯分类器进行情感分析,这需要标记数据,因为它是一种监督学习算法。因此,我们手动标记了来自这三个州的 500 条推文,总共 1500 条推文。每条推文要么负面情绪得分为-1,中性情绪得分为 0,正面情绪得分为 1。如果你有兴趣进行自己的分析,这里有一个链接到数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

加利福尼亚推特数据集的前 5 行

符号化

现在,我们通过将推文拆分成单独的单词(称为令牌)来对推文进行令牌化。没有令牌,我们就无法执行情感分析的后续步骤。当我们从自然语言工具包(nltk)中导入TweetTokenizer时,这个过程就变得简单了。tokenize_tweets函数只有两行代码,我们可以将它应用于数据帧来分解推文。nltk是一个非常强大的情感分析包,因此我们将在整篇文章中使用它。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

令牌化后的 CA 数据集

停用词

停用词是常见的词,如“the”、“a”和“an”。因为这些词不能加深我们对文本情感的理解,我们把它们过滤掉。通过从ntlk导入停用词,这一步变得非常简单:remove_stopwords函数也是两行代码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从我们的 California 数据集的前几行中删除的一些停用词包括“Some”、“can”、“just”和“for”。

清理文本

除了移除停用字词之外,我们还希望确保移除数据框中的任何随机字符。例如,在我们抓取推文后,csv 文件中出现了几个字符,如“x97”和“xa3”。通过迭代找到这些杂项字符后,我们将它们复制粘贴到CleanTxt函数中。然后,我们对每个数据帧应用该函数来移除它们。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如我们所见,标签是被删除的最普遍的字符。通过清理文本,我们可以提高模型的性能。

词汇化

通常,指同一事物的词以不同的形式出现(例如。麻烦,困扰,困扰,麻烦本质上都是指麻烦)。通过对文本进行词条分类,我们将一个单词的各种词形变化组合在一起,作为该单词的词条(它在词典中的出现方式)进行分析。这个过程防止计算机将一个单词的不同形式误认为不同的单词。我们从nltk导入WordNetLemmatizer,并为此调用lemmatize_tweets函数。

主数据集

既然我们已经完成了预处理步骤,我们可以继续创建一个包含所有 1,500 条推文的主数据集。通过使用df.itertuples,我们可以将 dataframe 行作为元组进行迭代,以将‘tweet text’‘values’属性添加到我们的数据集。然后,我们使用random.shuffle 打乱我们的数据集,以防止我们的模型成为过度拟合的牺牲品。

接下来,我们遍历所有的数据帧,并将每个单词添加到all_words list中。接下来,我们使用nltk.FreqDist来创建每个单词的频率分布。由于一些单词比其他单词更常见,我们希望确保使用最相关的单词来训练我们的朴素贝叶斯分类器。目前,每条推文都是一个单词列表。然而,我们可以将每条 tweet 表示为一个字典,而不是一个列表:关键字是单词特征,值是真或假,取决于 tweet 是否包含该单词特征。这个代表推文的字典被称为特征集。我们将为每条推文生成特征集,并在特征集上训练我们的朴素贝叶斯分类器。

训练/测试模型

feature_sets 将被分别分成 80/20 个训练集和测试集。在训练集上训练了朴素贝叶斯分类器之后,我们可以通过将它对推文情绪的预测(results[i])与推文的标签情绪(testing_set[i][0])进行比较来检查它的性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的输出在左边显示预测值,在右边显示实际值。40%的误差百分比非常高,这意味着我们的模型只有 5 次中的 3 次是准确的。一些可以使我们的模型更准确的改进是使用更大的训练集或使用验证集来测试不同的模型,然后选择最有效的模型。

使用模型

有了经过训练/测试的模型,我们现在可以用它来对一批新的推文进行预测。我们收集了更多的 tweets,并对新的数据帧执行了与之前相同的预处理步骤:ca_new_dfny_new_dftx_new_df。我们的分类器的预测存储在results_new_caresults_new_nyresults_new_tx中。我们的最后一步是使用sentiment_percent函数来量化百分比。

sentiment_percent(results_new_ca)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

sentiment_percent(results_new_ny)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

sentiment_percent(results_new_tx)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在我们的结果中,加利福尼亚州只有大约 6%的推文是正面的,而德克萨斯州有大约 27%的推文是负面的。加州和纽约都有 73%的推文是中性的,其正负百分比相差约 4%。德克萨斯州的确有最多的负面推文,但他们也有最多的正面推文,约为 10%,因为他们的中立推文比例较低。重要的是要记住,我们的模型只有 60%的准确性,所以这些结果可能不是这些推文中表达的真实情绪的最大指示。

为了简洁起见,本文省略了一些代码。点击此处查看完整代码。

参考

[1]计算机科学频道,使用 Python 的 Twitter 情绪分析,Youtube

[2]薇琪·钱, Twitter 爬虫,Github

[3]Mohamed Afham,使用 NLTK 的 Twitter 情感分析,Python ,走向数据科学

[4]亚当·马伊穆达尔,机器理解人类的钥匙,中型

感谢您阅读文章!我是 Roshan,16 岁,对人工智能的各种应用充满热情。在这个项目上,我与另一个对人工智能有浓厚兴趣的青少年斯里汉·梅迪博纳密切合作。

在 Linkedin 上联系我们:

https://www.linkedin.com/in/roshan-adusumilli/

https://www.linkedin.com/in/srihanmediboina/

亚洲发展中国家如何应对新冠肺炎?

原文:https://towardsdatascience.com/how-are-countries-in-developing-asia-responding-to-covid-19-330616c70a44?source=collection_archive---------42-----------------------

使用 Pandas、Matplotlib 和 Seaborn 的探索性数据分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

杰森·库珀在 Unsplash 上的照片

新冠肺炎疫情严重打击了世界各地的各种经济体,全球影响估计在 6.1 万亿至 9.1 万亿美元之间,相当于全球国内生产总值(GDP)的 7.1%至 10.5%的损失。 [1] 超过五分之一的全球损失发生在发展中的亚洲经济体,其影响可能高达 2 万亿美元,相当于发展中亚洲 GDP 的 8.5%。为了应对爆发引发的经济危机的不利影响,本区域当局制定了支持家庭、企业和其他部门的应对政策。

这篇文章着眼于亚洲发展中国家的新冠肺炎对策,内容如下:

  1. 数据集
  2. 一揽子应对政策的规模和分布
  3. 为收入提供直接支持的措施
  4. 其他措施
  5. 菲律宾与其他国家相比表现如何?
  6. 结论

数据集

本分析中使用的数据来自亚洲开发银行(亚行)的新冠肺炎政策数据库,该数据库收集了亚洲发展中国家当局为应对新冠肺炎而采取的经济措施和宣布或估计的货币量的信息。【2】政策行为分为五类:a)支持货币市场的正常运行;b)鼓励私人创造信贷;c)向非金融部门提供直接长期贷款;d)对私营部门的股权要求;(e)为家庭和企业的收入提供直接支持。

一揽子应对政策的规模和分布

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图一。就包裹规模而言,东亚在该地区占主导地位。 图片由作者提供。

东亚拥有最大的一揽子政策应对措施,达到 2.8 万亿美元,是该地区其他国家总和的三倍多(图 1)。相对于 GDP,东亚国家的一揽子计划平均相当于 GDP 的 21.5%,也高于其他国家。

该地区最大的刺激来自东亚和东南亚国家,以及印度。中国以 2.4 万亿美元高居榜首,这几乎相当于东亚回应总额的 90%(图 2)。接下来是印度的 3630 亿美元,接下来是韩国的 2350 亿美元。就占 GDP 的份额而言,香港 1920 亿美元的反应是巨大的,占其 GDP 的一半以上。新加坡的应对措施相当于其 GDP 的 25.4%,而马来西亚为 21.5%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图二。 **中国的包裹最多无比巨大;最大的包裹来自东亚、东南亚和印度。**图片由作者提供。

跨区域甚至在次区域内,一揽子计划在国内生产总值中所占份额存在明显差异(图 3)。例如,东亚的四分位数范围为 14%至 17%,而中亚和西亚为 0.2%至 5%。在次区域内,东南亚国家的差异最明显,从 0.04%(老挝人民民主共和国)到 25%(新加坡)。另一方面,太平洋地区的异质性较低,低于或等于国内生产总值的 10%,马绍尔群岛是个例外。其他异常值包括东亚的香港和台湾以及中亚和西亚的哈萨克斯坦和格鲁吉亚。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图三。子区域之间和内部的包装尺寸有相当大的差异。**图片作者。

为收入提供直接支持的措施

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 4。应对政策主要致力于为收入提供直接支持。**图片由作者提供。

向家庭和企业的收入提供直接支持似乎是该地区一揽子计划的最重要目标(图 4)。整个集团投入了 1.9 万亿美元,用于向低收入家庭提供实物和现金转移、为医疗前线人员提供保险以及为低薪工人提供工资支持等措施。就人均收入而言,新加坡提供的收入支持最慷慨,人均收入超过 9,000 美元,其次是香港,人均收入超过 5,000 美元(图 5)。与此同时,在菲律宾,人均收入补助不到 100 美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 5。新加坡和香港在提供收入支持方面最为慷慨。**图片由作者提供。

其他措施

除了提供收入支持,当局还重视确保货币市场的正常运转,鼓励私人信贷创造,并向家庭和企业提供直接的长期贷款(图 6)。另一方面,购买私营部门股票的措施在该地区的许多一揽子计划中作用较小。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 6。当局采取的措施因其对金融体系、收入和债务的影响而异。**图片由作者提供。

东亚所有经济体都为提供流动性支持的措施投入了大量预算(图 7)。值得注意的是,香港增加了银行业的流动性,鼓励银行部署更灵活的流动性缓冲,并放宽了银行间的融资条件,占其一揽子计划总额的近 70%。大约五分之一的中国政策反应旨在扩大贷款设施,以帮助医疗用品和日用品制造商、微型、小型和中型企业以及农业部门的工人。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 7。东亚经济体提供流动性支持。**图片由作者提供。

在南亚,二级市场购买证券、降低利率和贷款担保在一揽子计划中占相当大的比例(图 8)。例如,尼泊尔的整个一揽子计划包括一个 20 亿美元的再融资基金,为愿意以优惠利率向包括中小企业在内的优先部门贷款的银行提供补贴信贷。在斯里兰卡,约五分之二的计划旨在实施新的信贷计划,以支持向受到疫情严重打击的建筑和其他行业发放贷款。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 8。南亚当局鼓励私人信用创造。**图片由作者提供。

向企业和家庭提供长期直接贷款、在一级市场购买长期到期的私人债务证券以及延期是东南亚许多一揽子计划中突出的措施(图 9)。文莱的一揽子计划包括 3200 亿美元的刺激计划,相当于国内生产总值的 2.6%,以延长所有部门贷款本金支付的延期。缅甸 70%以上的响应来自一个 7100 万美元的基金,以较低的利率向服装和旅游部门以及中小企业提供软贷款。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图九。东南亚国家增加了对企业和家庭的长期直接贷款。**图片作者。

与其他国家相比,菲律宾表现如何?

菲律宾为新冠肺炎政策反应拨款 210 亿美元,相当于国内生产总值的 5.9%,其中约一半,即国内生产总值的 2.9%,包括为 1800 万非正规部门低收入家庭提供紧急补贴计划、为小企业员工提供工资补贴、为地方政府提供援助基金等(图 10)。相当于国内生产总值 1.5%的 52 亿美元的额外流动性,也占了该国刺激计划的相当大一部分。提供流动性支持的措施包括降低中小企业和大型企业的存款准备金率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 10。菲律宾的新冠肺炎政策应对组合。**图片由作者提供。

尽管努力推动政府支出,菲律宾的数字仍然落后于东南亚的同行(图 11)。印度尼西亚,一个与菲律宾比较的好基准,分配了 1160 亿美元的刺激,相当于 GDP 的 10.4%。菲律宾的反应甚至落后于越南的 265 亿美元(占 GDP 的 10.1%),越南是一个以控制疫情严重程度而闻名的国家。收入支持预算也落后于亚洲发展中国家的大多数水平(图 12)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 11。菲律宾仍然落后于东南亚的同行。**图片由作者提供。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 12。收入支持预算仍低于亚洲水平。**图片由作者提供。

结论

亚洲发展中国家的政策制定者一直面临着一项挑战,即设计适当的政策应对措施,以应对新冠肺炎疫情对家庭和企业收入以及金融体系的负面影响。虽然这种探索性数据分析表明,各国政府采取了相当大的努力来防止经济进一步恶化,但它没有说明这些政策行动如何影响新冠肺炎病例的数量。然而,除其他因素外,本区域的政策应对将影响亚洲发展中经济体从新冠肺炎疫情的复苏。

本文中使用的数据和代码可以在这个 Github 资源库中获得。

参考资料:

【1】a . Abiad、M. Arao、E. Lavina、R. Platitas、J. Pagaduan 和 C. Jabagat,新冠肺炎对亚洲发展中经济体的影响:疫情严重程度、控制严格程度和流动性下降的作用 (2020),CEPR 出版社

[2] J. Felipe 和 S. Fullwiler,亚行新冠肺炎政策数据库:指南 (2020),《亚洲发展评论》,37(2),1–20

决策树是如何构建的?

原文:https://towardsdatascience.com/how-are-decision-trees-built-a8e5af57ce8?source=collection_archive---------34-----------------------

从头开始构建决策树的入门指南

理解用于构建决策树的基本原则不是很棒吗?在这篇文章中,我将演示如何构建一个决策树,特别是一个分类树,使用两个不同的标准:基尼系数,并辅以一步一步的解释。我希望在这篇文章结束时,你能更好地理解决策树是如何构建的!🎓

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

决策树建立在过去的经验上,用来评估是否要看某部电影

1.数据📦

为了让事情易于管理,并希望有点乐趣,我们将创建一个微小的虚拟数据,灵感来自情景喜剧的 6 个主要角色:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意:数据中的值已经过调整,以适合示例

让我们假设这个数据对本文的目的来说是正确的。我们将构建一个决策树,使用其余的列来分类一个字符是否是父字符。换句话说,我们将构建一个具有以下输入和输出的分类树:
◼ ️ 输入|特征: was_on_a_break,is_married,has _ pett11】◼️输出|目标: is_parent

2.构建分类树🔨

如果你喜欢数学,我鼓励你和这个指南一起手动计算,以充分利用这个博客。在本节中,为了简洁起见,作为父母的角色被缩写为 pa ,而非父母的角色被缩写为 np

2.1.使用基尼系数**(又名基尼指数或基尼系数)** ☝️

决策树是通过自上而下递归分割成二进制节点来构建的。我们可以通过以下步骤找到节点的最佳分裂:
步骤 1: 计算要从
分裂的节点的 gini 杂质(此处为向上的 gini)步骤 2: 找到所有可能的分裂
步骤 3: 计算每个分裂的两个节点的 Gini
步骤 4: 计算每个分裂的加权平均 Gini
步骤 5: 确定最佳分裂

包括来自训练数据的每个人的最顶层节点被称为根节点。让我们用这些步骤来确定根节点的最佳分割。

🚪第一步:计算根节点的基尼系数
➗公式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个公式的两个变体将给出完全相同的结果

我们可以将这个通用公式简化为以下公式,并计算基尼系数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个简化的公式将从这里开始使用

我们知道在 6 个角色中有 2 个非父母和 4 个父母。使用该信息,我们发现根节点处的基尼系数为 0.444。因此,根节点可以总结如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

🚪步骤 2: 从根节点找到所有可能的分裂
使用三个特征中的任何一个,有三种方法来分裂。例如,我们可以把 6 个角色分成 2 组:一组给有宠物的人,另一组给没有宠物的人。其他两个特性也是如此。

🚪步骤 3: 计算每次拆分的两个节点的基尼系数
让我们计算三次拆分的每个节点的基尼系数。

**📌练习:**在继续之前,看看您能否计算出所有 6 个节点的基尼系数。

**🔑答案:**使用与步骤 1 相同的逻辑,我们发现每个节点的基尼系数如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

希望这些微小的数字清晰可辨👀(如果太小,尝试放大)

🚪**第四步:**计算每次拆分的加权平均基尼系数
现在,我们需要找到每次拆分的加权平均基尼系数,记为 w_gini,。以 was_on_a_break 为例,我们计算 w_gini 如下 :

**➗公式:**左:左边的节点,右:右边的节点

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**📌练习:**看看能不能算出另外两个的加权基尼。

**🔑答案:**你的答案符合这些吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

🚪**第 5 步:**通过检查上一步的结果,确定最佳分割(最低加权平均基尼系数)
,使用is _ marted进行分割得到最低加权平均基尼系数。如果我们也看看步骤 3 中的表格,我们可以直观地理解这个决定。当上的分裂与结合时,树能够将一半的数据分裂成左边的纯节点。这个节点是纯的,因为它只包含父节点。对于最纯的节点,Gini 是 0,对于最不纯的节点,Gini 是 0.5(例如,对于其他分裂的右节点)。

🚪**第六步:**计算信息增益:如果为正,👉我们了解到,如果我们要分手,最好用结婚。现在让我们看看我们是否能从分裂中获得任何信息。信息增益被定义为顶部节点的基尼系数与底部节点的加权平均基尼系数之差。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

信息增益为正。换句话说,我们通过分裂获得信息。因此,正确的决定是从根节点使用is _ marted进行拆分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们刚刚学习了如何确定分裂。⭐️:让我们重复同样的步骤,建立树的其余部分。是时候评估芥末节点的分配了!

也许我们可以从更简单的开始:左边的节点包含已婚节点。我们看到所有已婚角色都是父母,因此基尼=0。如果我们从这个节点分裂,即使从分裂中加权基尼为 0,我们也不会获得任何信息。所以,正确的决定是不拆分。在这种情况下,这个节点被认为是一个*终端节点,*不再进一步分裂。另一方面,对于右边另一个节点中的非婚角色,我们有一些工作要做。记住这些知识的最好方法是自己练习,为什么不试试通过下面的练习来应用我们刚刚学到的知识呢:

**📌练习:**完成所有步骤,找到正确节点的正确分割

🔑答案:
步骤 1:
我们已经知道了之前拆分的答案:0.444
步骤 2: 我们可以使用 was_on_a_breakhas_pet
步骤 3 &步骤 4: 见下图
步骤 5: 最好的拆分是使用 was_on_a_break

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结合输出,最终的决策树如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**根节点:**一个起始节点,包括所有人
**内部节点:**根节点和终端节点之间的所有其他节点。
**终端节点:**到达决策的节点

Yay❕:我们已经建立了一个简单的决策树。

2.2.使用熵✌️

让我们了解一下,如果用熵代替基尼,会有什么变化。步骤保持不变,除了我们每次都计算熵。
➗公式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以将这个通用公式简化为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们再次使用熵从根节点开始完成所有步骤,步骤 1、3 和 4 的输出将变为如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有了这个输出,看起来是已经结合的再次是从根节点的最佳分割。信息增益以类似的方式评估:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

鉴于我们获得了信息,分开是有道理的。让我们像以前一样对底部节点继续相同的步骤。

因为已婚角色的左节点是纯的,所以我们不再需要从中分离。但是我们将按照步骤尝试改进正确的节点。步骤 1、3 和 4 的输出如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是最后一棵树🌴:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你注意到了吗,在最不纯的情况下,gini 是 0.5,熵是 1,在这种情况下,节点在两个类之间平均分配,而对于只包含一个类的最纯的节点,这两个值都是 0。

如果您热衷于通过更多的实践来巩固您的学习,请随意使用您自己的小数据集来构建一个简单的决策树。您可以使用下面的示例脚本根据 sklearn 输出检查您的树:

不要忘记用您要使用的数据替换这些数据

3.结束语💭

在实践中,使用决策树作为构建块的更健壮的算法可能比决策树本身更常用作预测模型。

如果你不小心,决策树很容易过度拟合。我们可以说 was_on_a_break 不是一个很好的特性,因为它恰好是一个非常具体的特性,只适用于训练数据中的记录。因此,使用该特征来建立模型会导致模型过度适应训练数据中的噪声。

不管怎样,我认为理解构建决策树的基本原则仍然是有价值的。✨

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由亚伦·伯顿Unsplash 上拍摄

您想访问更多这样的内容吗?媒体会员可以无限制地访问媒体上的任何文章。如果你使用 我的推荐链接成为会员,你的一部分会费会直接去支持我。

好玩的事实: 你听说过谷歌给朋友的复活节彩蛋吗?在谷歌上搜索 *罗斯·盖勒,点击他照片正下方右侧的小沙发。*🙊另外 5 个角色也有这个功能!

谢谢你看我的帖子。我希望你已经学到了一些东西,✂️.如果你感兴趣的话, 以下是我的其他帖子的链接:
◼️ 如何在熊猫数据框架中转换变量
◼️ 用 Python 从维基百科中抓取文本的两种简单方法
◼️ 用 Python 编写简单的 word cloud
◼️️自然语言处理简介—第 1 部分:用 Python 预处理文本
◼️ 自然语言处理简介—第 2 部分:词汇化和词干化的区别
◼️ 自然语言处理简介

再见🏃💨

股票市场、地震和疾病有什么关系?

原文:https://towardsdatascience.com/how-are-the-stock-market-earthquakes-and-disease-related-c574c4d219e5?source=collection_archive---------54-----------------------

使用时间序列数据预测感染的传播,使用传统上用于模拟金融趋势的技术

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自疾控中心的𝘊𝘭𝘰𝘴𝘵𝘳𝘪𝘥𝘪𝘰𝘪𝘥𝘦𝘴 𝘥𝘪𝘧𝘧𝘪𝘤𝘪𝘭𝘦细菌在 Unsplash 上的图像

尽管医学进步带来了救命的护理,但患者仍然面临着被来自医院和在医院里游荡的疾病感染的风险。这种情况是由入院时不存在但后来发展的感染因子引起的,被称为医疗保健相关感染 (HAIs)。

追踪医院感染的传播是困难的,但也是必要的。在内科或外科治疗过程中发生的意外感染可能会延长住院时间,导致严重的患者疾病和死亡,并需要额外的治疗干预,从而产生额外的成本。

一个很有问题的海

最常见的 HAIs 之一是艰难梭菌感染(CDI),一种大肠疾病。它会引起从腹泻到危及生命的结肠炎症等症状。传播的主要来源是有症状感染的患者,他们在粪便中流出大量孢子和细菌,导致其皮肤、床单和附近环境表面的广泛污染。孢子对热和通常的化学清洁剂有很强的抵抗力,因此可以在环境中保持几周或几个月。患者和医护人员的手上可能会沾染到孢子。

美国 HAIs 的增长,来自 CDC

由于可能的传播途径多种多样,考虑医院中需要类似护理的患者共用的 单元 或套房的可变性如何影响个别病例对后续传播的贡献是有益的。这些差异包括与物理位置密切相关的因素,如手部卫生依从性、清洁实践和患者更替率。

了解特定医院单元中的新感染可能强烈触发进一步的事件,以及了解这些影响将持续多长时间,可以指导接触预防和隔离措施,特别是针对高风险单元的措施。

2011 年,仅在美国就报告了约 476,400 例 CDI 病例,占全国所有医疗保健相关感染的 12.1%。尽管由于最近出现的流行菌株,CDI 仍被疾病控制和预防中心(CDC)列为主要的健康威胁,但此后发病率开始出现一些下降。继续努力提高感染预防措施的依从性,结合计算模型的发现,可以在进一步减少 CDIs 方面走得很远。

建模方法

在建立传染病传播模型时,尽快了解扩散模式至关重要。在这种情况下,数据量在本质上是有限的。这项研究可用的数据,主要是与大型城市医院 CDI 发病率相关的时间戳和单位标签,数量也相当少。这促使解决一些与捕获时间序列数据模式相关的小数据问题,同时确保从短序列中学习到的模式是可靠的。

为了了解 CDI 影响的各种特征,我们使用一类特别有趣的随机过程对感染传播进行建模,这些随机过程已被应用于从地震建模到金融分析的不同领域。这些是点过程,其定义特征是每个事件的到达在一段时间内增加了未来到达的速率。我们问:

如果我们将金融文献中公认的强大建模工具应用于一个重要的医疗保健问题,会发生什么?

使用模拟和真实的医学数据进行实验,我们进行研究以测试我们对模型参数的先验的有效性,并进行实验以评估模型的质量、稳健性和抗过拟合性。在此之后,我们在 CDI 事件数据上训练和测试我们的模型,得到每个单元的学习特征和所有单元对的传染性测量。下面,我们提供建模方法的背景。

事件序列建模

在时间中观察到的事件经常自然地聚集在一起。给定一组事件序列,我们可以通过时间戳和类型来描述序列中每个事件的特征。被称为 的标记点过程 ,这些序列保存了几条有用的信息。例如,我们可以学习事件之间的触发模式,如下图中的红色箭头所示。我们也可能希望发现由蓝色和绿色时间线给出的相似事件序列的集群。利用这些习得的特征,我们甚至可以预测未来的事件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由各种事件类型组成的事件序列

我们用 s = {( tᵢcᵢ )}表示,其中 i 范围从 1 到 n ,一个n-事件时间点过程,其中 t ᵢ是时间戳, c ᵢ ∈ {1,…。。, C }是事件 i 的标签。每一个点过程都可以表示为一个等价的 计数过程 ,我们在其中统计每一个事件类型的发生次数。我们将一个 强度函数 λ应用于每个计数过程,该计数过程收集时间 t 之前的所有类型的历史事件,并输出类型- c 事件的预期瞬时发生率。学习时间点过程的关键是参数化和估计其强度函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

呈现指数衰减的点过程

霍克斯过程

这里,我们使用 Hawkes 过程 ,这是一种特殊的点过程,用于模拟复杂的事件序列,其中历史事件影响当前和未来的事件。霍克斯过程是 自激 ,因为事件到达率明确地依赖于过去的事件。

我们以一种特定的形式表达 Hawkes 过程的强度,有两个主要部分:独立于历史的外生强度 内在强度 ,结合捕获隐藏在事件序列中的自激和相互触发模式的内生强度。我们将历史 type- c’ 事件对后续 type- c 事件的影响称为 Hawkes 过程的 传染性触发内核 测量传染性的时间衰减,并模拟先前事件如何触发未来事件的动态。

追踪 CDI 的传播

我们使用 Hawkes 过程对感染传播进行建模,以了解感染影响的各种特征。具体来说,我们将 Hawkes 过程与单位水平的事件序列进行拟合,其中每个新感染都会增加未来一段时间内的感染发生率。

我们设计并实现了一个模型来联合捕获多个事件序列的动态,并系统地揭示序列之间的聚类结构。为了提高我们对单位传染性、内在强度和衰减率(即模型参数)的估计,我们将关于影响模式的先验知识纳入到我们的学习框架中。我们的实验结果表明,与多基线方法相比,这样做改进了参数估计。我们还集成了学习任意触发核的能力,因为当前最先进的方法倾向于假设特定的核函数,例如指数衰减。

数据可视化

这项工作中使用的数据包括 CDI 阳性诊断的时间戳以及单元标签。事件被定义为患者的 CDI 测试结果为阳性诊断的日期,以及患者在诊断时居住的单元的指示。在下表中,我们提供了医院各单元及其房间构成的详细信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

匿名单位缩写和特征

在下面的图中,我们按频率降序显示了事件的单位分布。单元标签包含其类型,GMU、ICU、OU、MU 或 EMD 之一。我们注意到不同单元的事件计数差别很大,但是不管事件计数如何,事件都倾向于以有趣的方式聚集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按单位划分的事件频率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按单位划分的事件时间戳分布

我们提出了一个模型来学习每个事件序列的触发模式和跨各种序列的结构,其中每个事件序列包括多种类型的事件。模型参数分为两组:(1)一个由所有序列共享的全局触发核 g ,其反映了来自过去事件的影响效果,以及(2)一个局部传染性矩阵和局部固有强度向量,两者都与和每个单元相关联的阳性 CDI 事件序列具体相关联。

对于一个系统,其中 U 是序列的数量, C 是事件类型的数量,我们用 A 表示,测量 C × U ,通过串联 U 个体 C × C 传染性矩阵获得的平坦传染性矩阵。我们设 μ ,测量 C × U ,串联 U 个体 1 × C 向量形成的本征强度矩阵。

结构正规化

为了能够跨序列进行模式学习,对施加稀疏和低秩约束。稀疏性约束包含的思想是,通常在每个序列中,只有事件类型的子集发生并触发其他事件。低秩约束背后的直觉是,当多个序列的总体触发模式相似并因此产生相似的单位传染性值时,导出聚类结构。我们还对施加了低秩约束,因为我们假设内在强度值在几个单元之间可能是相似的。这些限制使我们能够纳入关于感染影响的先验知识。**

优化问题

我们学习带有最大似然估计的霍克斯过程模型。参数 Aμg 可以通过求解以下优化问题来学习:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中第一项表示模型的负对数似然,第二项正则化触发核以确保它是平滑的。参数λ₁、λ₂和λ₃分别控制*上的低秩正则化、上的稀疏正则化和上的低秩正则化的强度。负对数似然可以展开为:***

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以上, u 表示特定的单元, c 表示特定的事件类型, aAA*的元素。 nᵤ 是事件的数量,而 Tᵤ 是与 u 相关的序列的最大时间戳。回想一下,λ是强度函数,其形式为:*****

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

采用交替方向乘子法(ADMM)方案,每次迭代都有一个优化-最小化步骤来求解优化问题。输出为 Aμg 的学习值。学习算法和参数更新在这里有详细说明,还有鲁棒性分析。代码在这里链接

单元级的推理结果

为了表征每个单元的 CDI 影响模式,我们将医院作为一个整体拟合一个 Hawkes 过程,输入 20 个序列,每个单元一个序列,有 20 个以上的事件,其中所有事件标签都相同,对应于阳性 CDI 诊断( U = 20 和 C = 1)。我们根据前半部分的数据训练一个模型。然后,我们在剩余的数据上测试模型。我们为每个单元 u 获得一个学习( A μ )对以及与所有单元相关联的单个触发内核。

这些强度和传染性值被标绘,每种类型标有一个单位。我们将学习到的传染性值解释为单位 u 中的 CDI 事件触发 u 中的 CDI 事件的程度。内在强度值描述由外部源触发的事件的到达。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

学习单位强度和传染性值

一个关键的结果是 EMD 在所有单位中表现出最高的传染性。急诊科是传播 CDI 的关键角色,这并不奇怪,因为在这个地方,由于患者不断涌入和患者流动率高,适当的清洁和消毒会变得很困难。此外,过度拥挤的问题使得隔离病人变得困难。

我们还看到,一般医疗单位往往在房间布局方面略有不同,因此可以理解的是,总的来说,他们表现出不同的传染性和内在强度值。仔细观察发现,具有高传染性的 gmu 也具有高的内在强度。较低的 A 值可能反映了良好的隔离实践,即在患者开始出现 CDI 症状后,在私人房间对其进行治疗。不同的 μ 值可以解释为 gmu 为具有不同潜在疾病概况的各种人口统计数据的患者提供护理。

由于物理分隔减少了孢子的传播,有私人房间的单元预期具有较低的传染性值。事实上,我们看到所有的肿瘤科和大多数重症监护室都有较低的传染性值,表明良好的隔离措施。

该模型确定,管理单元表现出相对较高的 A 值,这可能是因为一些 CDI 患者被例行转移到这些单元,这表明这些单元的隔离和清洁方案需要修改。位于特别意外位置的点,如 ICU-1,也向医院报告。

医院层面的推断结果

在医院层面,我们寻求生成所有单位对的传染性值。为此,我们将 Hawkes 过程与数据集中所有 CDI 事件的单个序列进行拟合,并用一个标签表示与事件相关联的单元( U = 1 和 C = 20)。和以前一样,我们在前半段数据上训练模型,在后半段进行测试。

我们实现了下面给出的医院级别的传染性矩阵,其中每个单元测量类型- u’ 事件到类型- u 事件对于 接收者 单位影响者 单位 u’ 的传染性。从视觉上看,单元格值对应于水平轴上的单位对垂直轴上的单位中的 CDI 事件的影响程度。我们看到当u=u’时的传染率往往是最高的,因为病人更可能由于他们居住的单位环境而被感染,而不是由于来自其他单位的影响。如图所示,我们通过影响者在单位间的感染分布,在水平轴上对影响者进行聚类。我们在纵轴上根据从其他单元接收的 CDI 影响效应的分布对接收器进行分组。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

习得性医院传染性矩阵

从矩阵中,我们确定了前五个影响因素,即 EMD、MU-1、ICU-1、GMU-2 和 GMU-6。这与上一节中介绍的结果一致,即这些单位在触发与其自身相关的未来事件方面最具影响力。

我们确定前五名接受者为 EMD、ICU-1、GMU-6、GMU-2 和 OU-3。EMD 中其他几个单位影响 CDI 病例是合理的,因为频繁的患者移动会导致高活动。ICU-1、GMU-6 和 GMU-2 是顶级接收器,但它们所经历的 CDI 影响效应主要是由它们自身引起的,这在检查它们的隔离方案时值得注意。虽然我们预计 OU-3 由于其自身感染价值而被标记为低影响者,但令人惊讶的是它也是高接收者。传染性矩阵表明 OU-3 受到几个 gmu 的中度 CDI 影响,这是值得注意的,并促使其向医院报告以进行进一步调查。

性能比较

为了评估单位级和医院级模型的相对性能,随着训练集大小的增加,我们绘制了各种测试对数似然值。我们将每个实验运行十次,用单个标准偏差误差棒绘制平均结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

检验单位级和医院级模型的对数似然趋势

上面,我们看到,具有非零正则化参数值的模型始终比没有正则化的模型实现明显更好的性能,这在训练集包含较少事件时尤其明显。单元级结果表明,通过同时从多个序列中学习,具有策略正则化的模型能够为具有较少事件的单元利用来自其他序列的信息,有效地减少过拟合。

结论

我们应用了一个涉及 Hawkes 过程的模型来描述患者监护病房内和之间感染的影响模式,通过提出传染性和内在强度的正则化因子,结合了关于 CDI 传播模式的先验知识。我们还包括学习任意触发内核的能力。我们希望通过纳入患者人口统计数据来扩展该模型,目标是建立一个端到端的 CDI 风险预测模型。

令人兴奋的是,仅由阳性感染诊断的时间戳组成的数据有效地捕获了各个单元的触发模式之间的系统差异。

在医疗环境中,获得最新的传染性值和对单位不断变化的传染性能力的洞察可能是有价值的。

我们希望此处介绍的工作激发对感染影响特征的进一步研究,目的是帮助临床医生开发更有效的方案来降低患者风险。

参考

A.Kumar,使用自励时间点过程学习感染影响 (2020),提交给 NeurIPS 2020 的预印本

本文是霍克斯过程和时间序列分析系列文章的第一篇。有些帖子会更理论化,而其他的会详细描述数学建模的应用,就像这个。

艺术如何帮助你成为更好的数据从业者

原文:https://towardsdatascience.com/how-art-education-can-help-you-become-a-better-data-scientist-a909ae004477?source=collection_archive---------37-----------------------

发展空间能力以提高 STEM 成绩

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由戴维斯科Unsplash 拍摄

从罗德岛设计学院(RISD)毕业后不久,我收到了一封来自 RISD 的校友邮件,内容是关于该校前校长约翰·梅达将艺术融入 STEM (科学、技术、工程和数学)教育的倡议,称之为 STEAM 。作为一名热爱数学和科学的设计师,这封邮件在情感层面上触动了我。

(关于《纽约时报》对约翰·梅达和 RISD 倡议的报道,见 此处 )。)

STEAM 的支持者认为,创造力和解决问题的技能与 STEM 教育的成功密不可分。虽然我确实同意这个观点,但这个论点可能有些武断。首先,我们并不完全理解创造力意味着什么,即使我们理解了,我们也知道它不一定等同于学习如何画画。我在这两个领域工作了多年,我想分享一下我个人对学习艺术如何有利于数据科学实践的看法。

一点背景…

我总是喜欢科学和艺术,但我经常不得不在两者之间做出选择。这是一个和在妈妈和爸爸之间做出选择一样困难的问题(毫不夸张地说,因为我妈妈是设计师,而我爸爸是工程师)。在我的童年,我花了很多时间来建造一个线跟踪机器人,并自学编码,同时还在书籍中填充角色草图。如果有人问我长大后想做什么,我总是很难选择是艺术家还是科学家。

尽管被评为班上最有可能治愈癌症的人,我还是决定在 RISD 大学学习视觉艺术,毕业后从事平面设计师的职业。在决定改变方向之前,我在这个领域工作和成长了近十年。我回学校做认知科学的研究,爱上了数据和统计,最后进入了数据科学领域。不像很多人想的那样,我的道路并没有感觉到分歧,如果你问我,我仍然不想选择。

认知地图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

蒂莫·维林克在 Unsplash 上的照片

当我在研究人类决策时,我被认知地图的想法迷住了,这一想法是受诺贝尔奖获得者约翰·奥基夫和牛津大学神经科学家蒂姆·伯伦斯的作品的启发。这个绝妙概念的一个非常简短的总结是,我们的大脑使用一个类似网格的系统来绘制空间关系,我们也可以将这个系统用于非空间关系。这一过程被认为是以海马体为中心的,海马体是以前被称为记忆中枢的大脑区域。

这似乎太直观了,难以置信。我们确实描述了类似于空间关系的非空间关系。我们可以用“距离”来感受和描述我们与人的关系。当两个事物彼此相似时,我们自然会理解为“更接近”。与昨天相比,童年的记忆感觉如此“遥远”。那么认知地图这个概念的重要性是什么呢?我认为(假设)艺术训练的某些方面发展了这样的空间技能,这些技能与导航和生成这些认知地图相关,这些认知地图在 STEM 研究的其他实践中是有用的。

发散思维能力

有意识的原创训练鼓励你将不同的概念联系起来。想象一下,你去露营,你需要想办法打开一罐食物。这种跳出常规启发思维的认知过程被称为发散思维。当我们需要开罐头的时候,我们的大脑知道去找开罐器,因为开罐器和罐头的开启有直接的联系。但是如果我们在树林里而不是在厨房里,我们需要在开罐器的功能和树林里可用的东西之间建立一个新的联系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由迈尔斯·谭Unsplash 上拍摄

现在让我们从认知图的角度来思考这个问题。我们的大脑有一个手册,告诉我们如何打开一个罐头,它链接到一个开罐器。但是,如果我们缺少必要的工具(开罐器)来执行指令,我们该怎么办呢?我们将遵循指令所需工具的属性(例如,切割金属,但不切割我的手)重新映射到其他可用工具的属性上,并找到最佳拟合路线。如果我们做得好,我们可以将指令的子部分映射到多个工具,并共同使用它们(一个切割金属,另一个保护我的手)。如果我们做得更好,我们可以把它推广到任何其他的地图上。

这是数据科学过程中的一项基本技能,在这一过程中,我们被许多工具淹没,无法得出答案。然而,我们如何将正确工具的正确属性重新映射到手头的问题是成功的关键部分。

创作艺术就是将不同领域的地图联系起来。许多任务的形式是改变给定对象的用途或改变给定概念的范围。例如,我曾经被要求从帽子中随机选择两个单词,并创建一个有凝聚力的出版物布局,以这两个单词(像花生酱和马蹄铁一样随机)为主题。主要的挑战是将这些单词的一些属性重新映射到一个对大众有意义的设计上。

这似乎是一种武断的做法,但它对科学研究过程有着重要的意义。将原本不相关的领域灵活地重新映射到手头的问题中,可以动态地利用我们大脑收集的更多资源。我们学会更容易地将我们在一个领域学到的知识推广到另一个领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

凯利·西克玛在 Unsplash 上的照片

抽象能力

同样,学会更流利地浏览不同的地图有助于我们浏览更广阔的领域。我们通过在可管理的范围内重新映射信息来做到这一点。这就像有许多地图的碎片,选择我们需要的位置,并在上面画大圈。因此,即使每个地图的一些细节可能是模糊的,我们仍然可以使用它来规划一条粗略但有效的路线,以便根据它们的大致位置完成所有的家务。快速找到重要要点并把这些关键概念集中起来的能力不仅有助于看清大局,而且有助于记忆大量的信息。这是一个抽象的过程,是艺术训练的组成部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

葆拉·拉塞尔在 Unsplash 上拍摄的照片

例如,当你学习画一幅静物时,你训练自己一次提取你所看到的不同属性。首先,你可以从只关注整体比例和组件之间的关系开始。接下来,您可能会关注这些组件的边界和边缘。然后你可以只提取光线是如何照射到表面的。诸如此类。艺术培训不止于此。通常你会利用大脑中的其他地图来整合一些新的联想,以增加更深层次的含义。这种有意识地定义个体属性的过程建立了我们在它们之间快速导航的能力,并轻松地切换我们认知地图的规模。数据科学项目也需要类似的过程,在这个项目中,流畅地分解和组合问题,使其达到任何特定算法都可以解决的规模的能力非常重要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Unsplash 上拍摄的

空间思维

当我们在上面画静物的时候,我们开始观察组件是如何相互联系的。这是你在任何类型的艺术教育中学到的一项重要技能,也是认知地图的基础:一种将非空间问题视为空间元素的能力。许多研究表明,空间能力训练如何提高儿童的数学成绩(见参考文献)。艺术训练包括学习将多种元素组合或转换成更简单的维度,甚至在人们开始将这些想法写在纸上之前。这个过程包括模拟多种安排,并在我们的脑海中产生项目之间的关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

反推去飞溅上拍照

这种空间训练然后被推广到非空间过程。之前我们讨论了艺术培训如何帮助我们跨越不同的领域和不同的背景。类似地,我们可以将非空间背景映射到空间中,并动态导航,从而让我们理解复杂的概念,并从不同的角度看待它们。(如果你看过 3Blue1Brown 的视频,你就会知道这项技能有多方便。)

总之,我相信艺术教育的好处远远超出了传统的设计领域,通过在科学和技术中的实际应用来扩展自己。我在这篇文章中主要讨论了视觉艺术和设计方面的艺术培训,因为这是我最了解的。但是我相信这些技巧在许多不同类型的艺术实践中都有教授,包括表现领域更加多样化的表演艺术。毕竟,这是关于训练我们的基本认知功能,以扩大其门槛,打破通常的启发,而不仅仅是技术技能的训练。

参考

伯伦斯、T. E .、穆勒、T. H .、惠廷顿、J. C .、马克、s .、巴拉姆、A. B .、斯塔亨菲尔德、K. L .、& Kurth-Nelson,Z. (2018)。什么是认知地图?为灵活的行为组织知识。神经元100 (2),490–509。

卡克马克,S. (2009 年)。折纸教学对国小学生数学空间能力影响之研究。未发表的硕士论文)。安卡拉中东技术大学

郑怡玲和凯莉.米克斯。“空间训练提高孩子的数学能力。”认知与发展杂志15.1(2014):2–11。

吉利根,K. A .,弗卢里,e .,,法兰,E. K. (2017)。儿童中期空间能力对数学成绩的贡献。实验儿童心理学杂志163 ,107–125。

人工智能如何帮助我赢得与鸽子的战争

原文:https://towardsdatascience.com/how-artificial-intelligence-helped-me-to-win-the-war-against-the-pigeons-9458293983a1?source=collection_archive---------43-----------------------

鸽子回避系统

建筑概述和为什么你可能需要一个鸽子火绒

免责声明:您正在阅读的第 1 部分给出了该项目的概述。 第二部分 描述了技术设置和数据采集。 第三部分 讲的是如何训练鸽子识别模型,并在树莓派上运行。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: Reddit

想象一个美丽的夏日早晨。阳光透过树叶照射进来,鸟儿唱着欢快的歌曲,一切都充满了欢快的色彩。你泡了第一杯咖啡,站在阳台上享受只有周日早上才能享受的宁静与和谐。突然有什么东西打断了你对地球生命之美的沉思。在我的世界里,几乎每天都是我在自家阳台上发现的鸽子粪。我是一个忙碌的女人。我喜欢安静地享受早晨的咖啡,但我不喜欢——清理阳台上的鸽子粪便。

今天早上,我决定向鸽子开战,人工智能是最合适的武器。

现在我把情感部分放在一边,直接跳到工程、布线、建模和焊接的业务上。

问题陈述

鸽子经常光顾我的阳台,并在那里留下一些痕迹。我想在不伤害鸽子的情况下除掉它们,但要传递一个明确的信息:这里不欢迎鸽子。

解决方法

我已经建立了一个鸽子回避系统,可以检测鸽子并赶走它们。初始硬件设置包括:

软件堆栈:

  • 自动化的 Python
  • 深度学习部分的 Keras
  • PHP,JavaScript,HTML 用于数据标注解决方案

架构概述

整体解决方案的工作方式如下。每当一只鸽子落在阳台上,运动传感器就会检测到光线的变化。它触发主管道,主管道反过来激活摄像机。相机拍摄照片,并将其存储在树莓上。主管道将图片发送到鸽子识别模型,该模型计算一只鸽子出现在图片上的概率,并返回该类。如果探测到鸽子,主管道就会启动步进电机,举起一根带丝带的棍子赶走鸽子。听起来很简单,但很有效。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

鸽子回避系统架构图

为什么你可能需要一个鸽子火绒

架构图上有一个元素到目前为止还没有被解释,鸽子火绒。正是在这个时候,人们通常会扬起眉毛问:“鸽子的火种到底是什么?”鸽子绒是整体解决方案的重要组成部分。显然,为了训练鸽子识别模型,我需要向它输入带标签的数据。鸽子火绒是一个托管在树莓上的网络应用程序,它可以帮助我手动标记图像。最初,我想实现一个移动应用程序,左滑动会将图片标记为“不是鸽子”,右滑动会标记为“鸽子”。然而,很快我意识到,首先,移动应用程序开发对于最小可行产品(MVP)来说有点矫枉过正。第二,在现实中,我需要三个类,因为每当我在阳台上喝咖啡时,我会产生很多运动,并且通过制作数百张照片然后试图对它们进行分类,覆盆子会消失。因此,我引入了一个类“人类”,它会在下一张照片拍摄之前造成两分钟的延迟。我的主要希望是,当我已经在阳台上的时候,鸽子不会厚颜无耻地爬到阳台上。因为这些原因,我满足于安装在树莓上的 Apache HTTP Server 上运行的 web app。这就是鸽子火绒的界面。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

鸽子火绒

由于我更喜欢在手机上点燃鸽子,这个网页被改编成手机版。这个应用程序非常简单。每当我给图片分配一个标签,它就把图片移到其中一个文件夹里:“鸽子”、“人”或者“什么都没有”。这也是未来培训的适当目录结构。“删除”按钮会将图片临时移动到“回收站”文件夹中,该文件夹由 cron 作业每晚运行的 clean _ directories.py 脚本定期清空。

顺便说一下,所有代码,包括训练例程、推理、鸽子火绒、树莓自动化都可以在 GitHub 上获得。

即使我不喜欢移动应用程序的最初想法,我仍然保留了标签模块的原始名称。我希望 Tinder 不要为此起诉我,否则你会在新闻里听到我的消息。

下一步是什么?

我以“鸽子回避系统”的名义在几篇文章中记录了这个项目。第 2 部分:“如何为避鸽系统设置数据收集”将解释如何访问外部 Raspberry 组件,如摄像头、运动传感器和步进引擎。它还将提供有关数据收集以及如何在阳台上设置整个系统的详细信息。深度学习部分在:“如何用深度学习把鸽子从阳台上赶走”中有描述。然而,我建议先阅读关于数据收集的文章。所以请保持更新,同时,先睹为快第二部分:我在我的厨房里焊接电缆。这个项目我确实需要很多电缆。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我在厨房里焊接电缆

如果你对这个项目有任何疑问,请随时通过 LinkedIn 联系我。

人工智能如何帮助我们对抗新冠肺炎?

原文:https://towardsdatascience.com/how-artificial-intelligence-is-helping-us-fight-against-covid-19-2f4d885ddbd2?source=collection_archive---------23-----------------------

没有人工智能技术,我们无法控制传播

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

布莱恩·麦高恩在 Unsplash 上的照片

在过去的十年里,人工智能的发展速度是指数级的。疫情让我们更加依赖技术,因为我们在实践社交距离和在家工作的选择。人工智能和机器学习正在提供利用来自各个部门的数据并做出明智决策的选项。其中一个应用是人工智能如何被用来帮助我们对抗新冠肺炎。

早期诊断

人工智能被积极用于在早期阶段识别高风险患者,因此有助于实时控制感染的传播。这在危机时刻变得尤为重要,因为实时监控是人们自我隔离和减缓病毒传播的最佳选择。

Clevy 是一家法国初创公司 ,它使用增强辅助来帮助诊断新冠肺炎症状。这样就可以在不离开家的情况下进行诊断。这是一个既省时又划算的解决方案。此外,它还减少了时间负担,并帮助医疗机构在危机时期满足更多人的需求。

Mayoclinic 是另一个允许自我评估新冠肺炎症状并建议在疫情期间保护自己的方法的平台。

人工智能还可以用于从全球的新冠肺炎病例中开发新的诊断和管理系统。人工智能和机器学习使得通过一系列与新冠肺炎和其他相关疫情相关的先前和当前研究进行筛选变得更加容易。机器学习还被积极用于扩大客户沟通(通过 rob-chat 选项),甚至帮助组织和收集与新冠肺炎研究相关的数据。

MIT-IBM 沃森人工智能实验室 积极参与一系列人工智能相关项目,以缓解新冠肺炎疫情的传播。几乎所有这些项目都使用 AI 和 ML 平台。

他们的一个项目包括早期检测新冠肺炎病人的败血症。感染新冠肺炎病毒后,败血症患者的存活率较低。研究人员计划使用 ML 来分析 COVID 患者的白细胞(WBC)图像,以获得针对脓毒症的激活免疫反应。脓毒症是对感染的威胁生命的免疫反应。只有一半的脓毒症患者和新冠肺炎患者存活下来(这是一个致命的组合)。这种早期诊断将使医生有时间对那些高危患者采取必要的积极措施。

预测和跟踪

人工智能也被用于开发数学模型,研究新冠肺炎的传播速度。使用的不同数学模型包括:(1) SIR(易感、传染和康复)模型(ii) GLEaM(全球流行病和流动性)模型(iii) TRANSIMS(运输分析和模拟)系统和(iv) IBM(基于个体的模型)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由马丁·桑切斯Unsplash 拍摄

这些模型可以从理论上预测新冠肺炎疫情的阳性病例数和传播率。人工智能可以通过跟踪确诊病例的数量,轻松确定最脆弱的地区,并采取必要的行动来遏制传播。

SIR 模拟疾病在隔离人群中的传播和感染率。这个模型可以有效地解释为什么一些国家能够控制传染病的传播,而另一些国家仍然在挣扎。GLEaM 和 TRANSIMS 都考虑了旅行导致的身体接触模式。TRANSIMS 甚至通过在疾病爆发区域放置传感器来使用实时模型。

一群麻省理工学院的教授正在开发重启经济的模型。该项目包括分析不同年龄组的感染、住院和死亡风险。这种模式将允许重启经济,同时拯救更有可能被感染的老年人的生命。

散布错误信息

人工智能也被用来通过控制错误信息来应对这场危机。社交媒体现在正在积极使用个性化的人工智能技术来减少虚假信息在他们平台上的传播。这一点变得尤为重要,因为一系列阴谋论和虚假医疗信息正在媒体上流传。人工智能可以使筛选新冠肺炎虚假信息的过程更快。

药物和疫苗的开发

它可以帮助检测可用于治疗新冠肺炎患者的有用药物。人工智能可以通过计算分析更快地确定疫苗和治疗方法,这有助于临床试验。

IBM Watson Health使用数据库为患者确定正确的药物治疗。这一点很重要,因为患者可能有许多潜在的疾病,人工智能技术可以主动识别对患者理想的概率药物治疗。

人工智能也可以用来开发疫苗和治疗药物。该过程通常是劳动密集型的,因为各种药物组合的剂量选择包括一系列的试验和错误。AI 可以降低这个成本,让这个过程更有效率。

身份。AI 是一个人工智能平台,用于确定 Remdesivir 与利托那韦和洛匹那韦的组合作为对抗 SAR-COV-2 的方案。然而,这一理论仍然没有同行审查,但提供了未来成功控制新冠肺炎的技术乐观。

麻省理工学院还与 IBM 研究人员合作开发一种人工智能工具,以帮助医生找到呼吸机设置,从而确定患者需要在机器中停留多长时间。这一点尤为重要,因为缩短通气时间可以减少可能的肺损伤,并为其他重症监护患者提供使用空间。

还有其他一些相关的工业和学术研究正在进行,以帮助我们遏制这种传染病的传播。

结论

人工智能在早期诊断、跟踪、控制错误信息传播以及开发潜在药物和疫苗方面取得了成功。不仅仅是在疫情期间,它还一直称赞医疗保健行业的工作。这是为数不多的资源之一,可以允许成本效益,更少的时间消耗的方法来开发疫苗和治疗,以帮助我们抗击 SARS-COV-2。

参考文献

[1]https://clevy.io/

[2]r . Vaishya,m . Javaid,Khan,I. H .,& Haleem,A. (2020 年)。新冠肺炎·疫情的人工智能应用。糖尿病&代谢综合征:临床研究&综述

[3]https://towards data science . com/mathematical-models-used-to-study-infectious-disease-and-its-transmission-rate-234267d 2714 b

[4]奇纳齐,m .,戴维斯,J. T .,阿杰利,m .,焦安尼尼,c .,利特维诺娃,m .,默勒,s .,… &维布,C. (2020 年)。旅行限制对 2019 年新型冠状病毒(新冠肺炎)爆发传播的影响。科学,368(6489),395–400。

[5]Volpert,v .,Banerjee,m .,& Petrovskii,S. (2020 年)。冠状病毒感染的隔离模型及数据分析。自然现象的数学模型,15,24。

[6]Balcan,d .,Colizza,v .,Gonç alves,b .,Hu,h .,Ramasco,J. J .,& Vespignani,A. (2009 年)。多尺度移动网络与传染病的空间传播。美国国家科学院学报,106(51),21484–21489。

[7]尤班克、古奇卢、阿尼尔·库马尔等人,《模拟现实城市社会网络中的疾病爆发》。《自然》杂志 2004 年第 429 期,第 180-184 页。【https://doi.org/10.1038/nature02541

[8]德格利·阿蒂,M. L. C .,默勒,s .,里索,c .,阿杰利,m .,马萨里,m .,曼弗雷迪,p .,…,伊安内利,M. (2008 年)。意大利疫情流感的缓解措施:考虑不同情景的基于个体的模型。PloS one,3(3)。

[9]http://news . MIT . edu/2020/MIT-marshaling-人工智能-fight-against-新冠肺炎-0519

[10]https://www . OECD . org/coronavirus/policy-responses/using-artificial-intelligence-to-help-combat-新冠肺炎-ae4c5c21/

[11]https://www . technology networks . com/informatics/news/ai-platform-aims-to-accelerate-drug-development-for-新冠肺炎-333999

https://identif.ai/

[13]同前。AI:人工智能精确定位 Remdesivir 联合利托那韦和洛匹那韦作为对抗严重急性呼吸综合征冠状病毒 2 型(新型冠状病毒)的最佳方案。Agata Blasiak、Jhin Jieh Lim、Shirley Gek Kheng Seah、Theodore Kee、Alexandria Remus、De Hoe Chye、Pui San Wong、Lissa Hooi、Anh T.L. Truong、Nguyen Le、Conrad E.Z. Chan、Rishi Desai、Xianting Ding、Brendon J. Hanson、Edward Kai-Hua choi、Dean Ho。medRxiv 2020 . 05 . 04 . 20088104;https://doi.org/10.1101/2020.05.04.20088104

人工智能如何在 2020 年改变商业

原文:https://towardsdatascience.com/how-artificial-intelligence-is-transforming-business-in-2020-1e68d4c1dd53?source=collection_archive---------32-----------------------

商业格局正在发生巨大的变化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由皮克斯巴伊加里克·巴尔塞吉安拍摄

介绍

工业革命千载难逢,然而,我们发现自己正在经历一场深刻的革命,即人工智能(AI)革命。200 多年前,当蒸汽机被发明时,我们经历了第一次工业革命。一个世纪后,我们发明了电,一个世纪后,发明了互联网。像所有这些发现一样,人工智能彻底改变了我们的经济,并颠覆了你能想到的每个行业。

但首先,是什么让 AI 如此具有革命性?

像蒸汽机和电力一样,人工智能扩大了社会生产力的上限。与效率低下且容易出错的人类不同,算法可以全天候工作,不容易犯人类犯的错误。除了生产力,人工智能目前的能力和未来的潜力本质上是无限的。人工智能应用增强了复杂流程的自动化、个性化的客户体验、改进的风险管理等等。

在这篇文章中,我们将看到人工智能如何彻底改变了几个行业。

人工智能和金融

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

pch.vector 创建的人员向量

根据麦肯锡的一份报告,金融服务是少数几个显著采用人工智能实践的行业之一,因此,一些公司的利润率比行业平均水平高出 10%以上。

以下是人工智能如何改变金融行业的一些常见应用。

欺诈防范

一般来说,人工智能应用寻求增加收入或削减成本。但在防止欺诈方面,人工智能两者兼而有之。必须向客户还钱是有代价的,而且不能将钱用于投资也会造成收入损失。在 2016 年,由于欺诈和身份盗窃,160 亿美元被盗,这就是为什么它是人工智能中最大的应用之一。通过分析客户的活动、位置和购买习惯,欺诈检测模型能够标记出可疑或异常的事件。

算法交易

交易员面临的最大挑战之一是管理自己的情绪。制定一个合理的交易策略是一回事,但是不管你面临什么样的混乱,坚持这个策略是另一回事。然而,算法交易消除了交易中的情感因素。机器学习和人工智能极大地提高了算法交易能力,随着数据的增加,算法每天都在学习和改进。

个性化银行服务

许多金融科技公司正在利用人工智能为客户提供个性化的银行服务。客户可以根据他们的风险偏好获得独特的金融工具组合,他/她还可以根据他们的支出模式、收入和目标获得个性化的金融计划。随着人工智能的发展,你可以期待看到更多个性化的银行服务。

如果你想了解更多关于人工智能在金融行业的影响,请查看 2020 年银行业人工智能趋势

人工智能和营销

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 GraphiqaStock 创建的背景矢量—【www.freepik.com

很长一段时间以来,市场营销更多的是一门艺术而不是科学,直到最近。随着机器学习和人工智能的出现,数据科学家能够量化营销决策,并从整体上增强营销实践。

营销归因

营销中最大的问题之一是弄清楚如何量化各种营销渠道的影响。对于线下营销渠道,如电视、广告牌或广播,这尤其困难。

也就是说,出现了两种流行的营销建模技术来解决这个问题,归因建模和营销组合模型。归因建模用于确定销售和转化的信用如何分配给客户旅程中的不同接触点(例如,客户看到脸书广告,然后是 YouTube 广告,然后是 SEM 广告)。归因模式的问题在于,它们没有考虑线下渠道,而这正是营销组合模式的切入点。营销组合模型是多元回归的一种形式,旨在根据花费的美元来估计营销渠道的影响,以确定对转化率或收入的影响。

客户特征分析

客户特征分析或客户细分是通过对客户进行特征分析来更好地识别客户的实践。通过使用聚类技术和其他机器学习技术,营销人员可以更好地了解客户人口统计数据(年龄、性别)和地理位置(位置)。通过这样做,营销人员可以更好地定位广告和信息,以联系他们的目标市场。

人工智能和物流

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

宏向量创建的背景向量—www.freepik.com

通常,物流不是商业中最热门的话题,但涉及到人工智能时就不是了。事实上,AI 的一些最大潜力可以在物流中看到,包括自动化仓库和自动化车辆。

自动化仓库

当你想到自动化仓库时,你可能会想到亚马逊的仓库,那里有成千上万的移动机器人将库存从 A 点移动到 b 点。虽然这是真的,但实际上还有更多。自动化仓库还意味着使用数据来优化库存水平,从而减少所需的仓库空间,降低运输成本和总体成本。

自动驾驶汽车

人工智能在物流中的另一个用例是自动驾驶汽车。我之前说过,人类效率低下,容易出错。在运输方面尤其如此。人类需要睡觉、吃饭、使用洗手间、休息等等。有了自动驾驶汽车,交通将不再局限于一天八小时,一周五天。

特斯拉是自动驾驶汽车的主要例子,不仅生产消费类汽车,还生产自动驾驶卡车。另一个不太为人所知的例子是劳斯莱斯和英特尔。他们一起建立了一个智能感知系统,为自主船创造了机会。

案例研究:了解人工智能如何通过动态定价模型转变一家全球运输公司

人工智能和零售

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由皮克斯拜梅根·雷扎辛拍摄

在可以说是竞争最激烈的行业之一,零售商正在寻找通过人工智能脱颖而出和增加价值的创新方法。人工智能正以多种方式应用于整个产品和服务周期。以下是人工智能在零售业中的许多用例中的几个。

聊天机器人和机器人助手

聊天机器人在过去几年里有了显著的改进。虽然他们还不能完全取代客户服务代表,但他们非常擅长回答简单的问题,并用于指导客户找到正确的支持团队。比聊天机器人更有趣的是机器人助手——由软银设计的机器人 Pepper 是一种社交人形机器人,用于实体零售店与客户互动并提供帮助。

个性化推荐

一些零售公司也在使用人工智能为客户提供个性化推荐。弗兰克和奥克声称,通过问一系列问题,人工智能可以为每个顾客提供一个独特的服装风格订阅箱。亚马逊是另一个很好的例子,它使用人工智能根据以前的搜索历史和购买历史提供推荐的产品。

案例研究:了解人工智能如何改进需求预测以优化库存。

人工智能和电信

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

卡特曼戈斯塔创建的业务向量—www.freepik.com

电信行业的估计价值为 1.4 万亿美元——价值如此之大,每一个差异都很重要,这就是为什么电信公司已经找到了几个人工智能用例来改善他们的客户体验,并最终实现利润最大化。以下是人工智能在电信行业的三个主要应用。

流失预测建模

客户流失率是指客户停止与某个实体做生意的比率。因为从技术上讲,电信行业的客户提供了永久的收入,客户流失的成本很高。因此,电信公司利用人工智能根据活动水平、投诉数量等来预测客户何时可能流失。

网络最佳化

人工智能已经成为构建自我优化网络的关键,使运营商能够根据流量数据自动优化网络。根据 IDC 的数据,已经有超过 60%的运营商投资人工智能系统来改善他们的网络。

预测性维护

我想我们都同意,电信服务中最大的诽谤者之一是网络故障——当你的 wifi 无法工作时,你不讨厌吗?嗯,公司现在正在利用人工智能,根据设备的状态和分析网络模式来预测网络何时可能发生故障,以便他们可以主动预防网络故障。

案例研究:了解人工智能如何改善电信网络运营并模拟消费者行为

感谢阅读!

让我们连线上 领英

人工智能将如何推动 2020 年的消费主义

原文:https://towardsdatascience.com/how-artificial-intelligence-will-fuel-consumerism-in-2020-946c67240dfa?source=collection_archive---------18-----------------------

气候变化还是消费主义?

当机器人比你更了解你的时候

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们都知道什么是消费主义。我们都有罪却不承认。回想一下,我们出售或藏在抽屉里的许多 iPhones(或 Android 手机),只是因为我们想得到最新的手机。为什么续航时间延长一小时的电池和分辨率稍高的相机。

我们花数小时排队购买数不清的 Hello Kitties 或 Pokémon 公仔,只是因为它们是“限量版”。这是我们最喜欢的不同颜色的衣服,因为我们可以。我们告诉自己迫切需要的是装满衣服和鞋子的架子和衣柜——沙滩装、休闲装、正装、家居服、睡衣、派对装等——但实际上我们并不需要。

对于我们许多有罪的人来说,这种消费主义和物质主义的现象是合理的。然而,我们没有意识到的是,人工智能(AI)在多大程度上助长了这一现象。

而且只会在 2020 年被 AI 加剧。

消费主义——有什么大不了的?

实话实说吧——人工智能已经在助长消费主义了。最精彩的部分?我们甚至没有意识到我们对整个“消费主义”现象有多着迷。如果我们这样做了,气候变化和整个推动“绿色”生活方式的运动就不会存在了。

但这不是本文要讨论的内容。因此,尽管我们消费的东西产生了大约 60%的全球温室气体[1],我们还是要花一点时间来忽略这个可悲的事实,并检查人工智能将如何推动T5 更多 消费主义。

以下是我的分析。

广告定位——当机器人比你更了解你的时候

你多久点击一次 Instagram、脸书、YouTube 或其他网站上的赞助广告?你有多经常在你的新闻订阅上发现一个广告,而你甚至没有在谷歌上搜索过它,但只是模糊地记得向某人提起过它,并且感觉完全被吓坏了?

:不确定,但肯定越来越频繁

放松点,没人在监视你。这些算法正在变得越来越好。随着关于你的数据越来越多,这些推荐系统能够微调各种参数的权重,以获得你的几乎完美的复制品(模型)(或者看起来是这样)。

这些推荐系统是延续消费主义的完美例子。他们鼓励你比平常更早地得到你可能想要或需要的东西,仅仅是通过出现在你眼前(视觉刺激)。

当然,有些人可能会认为这是另一种形式的营销。的确如此。但是,当我们想到像英国退出欧盟、川普总统大选这样的传奇故事,当然还有导致我们现在所知的数据保护政策甚至监管的整个剑桥分析公司时,广告定位的整个想法可能是如此可怕。

见鬼,我甚至担心把我的电子邮件送给免费 WiFi,因为我不想让人们知道我在哪里,也不想出卖这些信息。妄想症是真的。

推荐系统无处不在——电子商务网站、社交媒体、基于订阅的服务(网飞、Spotify、Medium 等)等等。消费主义不再仅仅是物质商品。它还包括音乐、电影、书籍和任何书面文章等内容。

这些算法越好(即数据越多),消费主义就越持久。

亚马逊效应——当机器人管理你的仓库

杰夫·贝索斯才华横溢。投资者喜欢他的公司是因为他带来了多少股东价值,更不用说 T2 亚马逊 T3 的企业集团式商业模式了。竞争对手讨厌他,因为他们因缺乏规模经济而难以跟上,也缺乏纵向扩展的资源。

当然,这不仅仅是关于亚马逊。这是关于整个电子商务行业和对实体自由化的推动,就像灭霸在收集了无限宝石后打了个响指,让一半的人口消失了一样。尽管这看起来不可思议,但我们肯定会慢慢实现这一目标。我相信,进入实体店的体验很快就会从纯粹的交易型转变为体验式。

那么,发生了什么变化?

最近,亚马逊宣布向美国顾客提供免费的当天送达和当天送达服务…其增加的支出(96 亿美元)不仅包括运输和接收,还包括陆地、海洋和空中的配送和逆向物流。目标是:这样你就再也不需要去别的地方购物了。

阿里巴巴也紧随其后,花费 160 亿美元建立了一家快递公司,试图建立自己的递送平台。这也是对 JD.com 首次进军中国电子商务市场提供当日送达服务的回应。

就像斯科特在他的文章中非常精彩地提到的那样,这对像 DHL、FedEx 和 UPS 这样的公司有着巨大的影响。对于这些公司来说,现在更有意义的是被像亚马逊 T21 或沃尔玛这样的公司收购,以免被完全取代,如果他们不能提供相同的当天送达服务。他们肯定能够做到,但代价更高。不管怎样,必须要发生一些激烈的事情。

AI 在哪里发挥作用?

如果你还没有在 YouTube [4]上看过阿里巴巴的仓库,你应该看看。仓库里的大部分操作都是由机器人来完成的,我可以想象未来大多数仓库会是这样的。

它本质上是计算机科学爱好者的天堂。这个仓库类似于一个吃豆人棋盘,吃豆人(机器人)必须在迷宫(成排的物品)中导航,以获得食物(拾取物品)并避免鬼魂(其他机器人)。我们遇到的是一个路由问题(旅行推销员问题)和一个调度问题的组合。有了 AI,这些问题就变得简单了。深度 Q 学习(强化学习代理)和计算机视觉的使用使得典型的计算机科学问题更容易解决。

我敢打赌,电子商务公司都将转向自动化仓库这一黄金标准。如果他们不这样做,他们就失去了竞争力,亚马逊的目标也就实现了。

消费主义的增长仅仅是这种极快的传递速度的结果。

如果退货就像快递第二天送到你家门口一样方便(更不用说包裹投递点如此普遍),当你可以在家里舒适地尝试东西时,谁还会出去呢?

额外收获:Lite 是新的重量级产品

这一部分与人工智能如何推动消费主义没有直接关系,但由于基于云的时代商业模式的转变,我想提出这一部分。

我非常肯定,在 2020 年,没有人会质疑科技公司正在并将继续推动全球经济。新兴公司基于轻资产模式,而已经存在很长时间的公司弃船转向轻资产模式。亚马逊网络服务(AWS)、微软 Azure、谷歌云平台(GCP)和阿里巴巴等云提供商将获得所有这些利润,更不用说这些云服务的巨大利润了。

Spotify 允许播放流媒体音乐。YouTube 允许视频内容的流式传输。网飞允许电影和电视剧的流媒体播放。游戏正在向云发展,在云环境中,昂贵的游戏硬件不再是以高帧率运行游戏的必要条件。CD 用于音乐、DVD 用于电影、游戏机用于硬核游戏的时代已经一去不复返了。你现在需要的是良好的互联网来刺激消费。

结束语

当我们期待未来有所收获的一年时,让我们花一点时间来欣赏人工智能对我们生活的改善。说到这里,让我们也默哀一下,纪念环境为我们做出的牺牲,这样我们就可以享受当天送达了。

澳大利亚的树袋熊和其他动物。

参考

[1]家庭消费的环境影响评估,工业生态学杂志—https://onlinelibrary.wiley.com/doi/abs/10.1111/jiec.12371
【2】阿里巴巴旨在以 160 亿美元的快递风险投资交付,金融时报—https://www . ft . com/content/3 b5 e9 b5 c-049 c-11ea-9 AFA-d9e 2401 fa 7 ca
【3】fck dex,Scott Galloway—https://medium.com/s/no-mercy-no-malice/fckdex-eca0025a0b11
【4】在阿里巴巴配备机器人的智能仓库内,YouTube

使用 Pandera 的自动化数据验证如何让我更有效率!

原文:https://towardsdatascience.com/how-automated-data-validation-made-me-more-productive-7d6b396776?source=collection_archive---------13-----------------------

数据科学家的重要策略

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Unsplash 上由 Franck V. 拍摄的照片

D ata 被称为 21 世纪的新石油。篡改数据以提取和使用正确的信息来解决我们的问题非常重要。对人们来说,处理数据是令人兴奋的,有时也是乏味的。正如正确的说法,“数据科学家花 80%的时间清理数据”。作为该包的一部分,当遇到新数据集时,我会经历相同的过程。同样的活动不限于,直到机器学习(ML)系统实现并部署到生产中。在实时生成预测时,数据可能会由于不直观和不可预见的情况而发生变化,如人为干扰导致的错误、提交的错误数据、数据的新趋势、记录数据时出现的问题等等。包含多个步骤的简单 ML 系统如下图所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者(普拉蒂克·甘地)创造的形象

这需要通过明确引入或标记另一个组件来稍微改变,在数据准备之后和特征工程之前,我们命名为 数据验证 :

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者(普拉蒂克·甘地)创造的形象

这篇文章关注的是为什么数据验证很重要,以及如何使用不同的策略将它无缝地集成到他们的管道中。经过一些工作后,我学会了如何实现脚本来进行数据验证,以节省一些时间。除此之外,我使用一些预建的包来自动化它们,加速我的游戏!

听听我的故事!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

公路旅行照片,RajUnsplash

根据 Gartner 的数据,几乎 85% 的项目将无法投入生产。机器学习(ML)管道在投入生产时通常会遇到几个问题。我经常遇到的一个主要问题是数据质量的妥协。一天花几个小时,一个月可能花几次,并且弄清楚由于某种原因传来的数据是不可接受的,这可能会很令人宽慰,但同时也会令人沮丧。导致数据类型改变的原因有很多,例如,引入了文本而不是整数,整数在异常值上(可能高出 10 倍),或者数据馈送中没有接收到整个特定列,等等。这就是增加这个额外步骤如此重要的原因。手动验证可能会花费额外的精力和时间。使其自动化(在一定程度上)可以减轻数据科学团队的负担。我认为在管道中集成自动化数据验证有一些主要的好处:

  • 节省几个小时的时间
  • 团队成员之间的挫折感
  • 通过关注其他领域提高效率
  • 努力使您的生产模型更加精确;)

Python 社区已经构建了一些优秀的包,以非常智能的方式处理这些问题。我将分享一些我探索过的,以及我如何设计我的脚本使它们成为我的管道的一部分。

数据源:我用了一个最近的数据集来展示如何实现这些包。下面是获取数据的链接。

数据验证包

潘德拉:

Pandera 提供了一个非常简单灵活的 API,用于对数据帧或系列数据进行数据验证。它还有助于执行复杂的统计验证,比如像 two_sample_ttest 这样的假设检验。更多关于包装和使用的细节可以在这里找到。

从数据集中抽取 10 行样本:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如我们所看到的,有多个不同数据类型的列:String、Int、Float、Datetime。我们需要定义我们期望的数据的模式。我定义了一个简单的模式,没有任何严格的数据验证检查规则,如上面的代码所示。根据期望的数据类型,我们可以用***【pa.Int】来表示整数, pa。字符串字符串, pa。 浮子为浮子或 pa。日期时间 如果有一个日期时间。这里我们设置 可空=真 如果我们期望值否则 。此外,如果我们设置compete = True*,它会将列转换为预期的数据类型,而不会给出任何错误。例如,用于将浮点数转换为整数,将整数转换为字符串等。在验证数据时,输出将是数据帧本身,因为它通过了所有的检查(试试看!!!).如果失败,输出将如下所示:**

**Traceback (most recent call last):
...
ValueError: cannot convert float NaN to integer**

关于潘德拉,我已经探索了一些惊人的能力,我会尽可能详细地解释。

设置必需的列:

有时,列可能是可选的,而不是必需的。在这样的情况下,我们可以设置 required = False。默认 必填=真 用于所有列

正如我们在下面的截图中看到的,它返回数据作为输出,没有任何错误。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于“ID”列,需要设置输出= False

尝试为同一列设置required = True并再次运行上面的代码。

处理新列:

默认情况下,如果新列被添加到数据框中且未在方案中定义,则不会引发错误。但是,如果你愿意你可以设置 strict = True。

运行上面的代码,我们看到它抛出了模式中没有定义的错误‘extra _ column’*。*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

设置 strict = True 和 lazy = False 时“extra_column”出错

如果你看到我的代码,我已经添加了 lazy = True ,它给出了如下更详细的视图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

索引验证:

如果数据集中存在任何特定模式或具有任何特殊重要性,也可以验证索引。例如,参见下文:

我创建并设置该列作为索引,以展示我们如何进行索引验证。在模式的括号之外,可以指定预期的索引格式。同样,输出与之前相同

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用索引验证后的输出

这里我们执行了一个单一的索引验证。多索引验证可以以类似的方式执行。点击查看

数据架构转换:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尤里察·科莱蒂Unsplash 上的照片

一旦我们定义了验证数据的模式,在由于额外的计算(100%的时间都会发生)而引入新的列之后,就有可能在管道本身中转换模式。假设最初我们只有 Id、County、Province_State、Country_Region、人口*作为列。我们向模式中添加新列 Weight、Date、Target、TargetValue ,如下所示:*

在打印如上所示的模式时,我们得到以下结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

添加列后转换的架构

另一方面,如果需要,我们也可以从模式中删除一些列,如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

删除列后的架构

检查列属性:

用户可以使用检查对象对列进行更详细的检查,如下所示:

Pandera 有一些可以直接使用的预置检查,比如大于等于小于。也可以传递自定义检查,例如,这里我们使用了 lambda 参数来计算字符串的长度。这是 Pandera 中最好的功能之一,可以为数据验证策略带来更多的价值。点击了解更多详情

如何以及何时使用:

  • 我创建单独的脚本,一旦在进入下一步之前接收到最终数据,就运行并给出验证报告。人们也可以将它们集成为预处理的一部分。
  • 人们也可以直接把它们用作装饰者。这里看如何
  • 除了直接在数据帧上使用之外,它还可以应用于系列,特定的列检查,甚至是逐元素检查
  • 由于灵活性 regex 操作也可以使用 Pandera 对数据执行。
  • 重要的是,你不可能一开始就有一个完美的数据验证模式。更有可能的是,当您在长时间内实时遇到数据时,通过合并不同的验证策略,您将使数据验证模式更加“完美”, ML 管道更加健壮。

其他包:

远大前程:

顾名思义,您可以为要验证的数据设置期望值。老实说,我和潘德拉相处得太好了,以至于我没有机会去发掘他的全部潜力。它看起来很容易实现,并且可以直接打包使用。下面是相同数据的一小段实现:

地狱犬:

这是另一个语法类似于 Pandera 的包。当数据为 字典格式JSON 格式时,更适用。

关于这个包的更多细节可以在这里找到。

漏勺:

如果您的数据是通过 XML、JSON 或 HTML 表单 post 获得的,这是另一个很棒的包。换句话说,验证任何类型的字符串、映射和列表数据都是有益的。以下是一些有用的链接:

Github:https://github.com/Pylons/colander

文献:https://docs.pylonsproject.org/projects/colander/en/latest/

JsonSchema:

JsonSchema 是 Python 的 JSON 模式的一个实现。顾名思义,这个包对于验证 JSON 数据非常有帮助。以下面这个包含有效 JSON 数据和无效 JSON 数据的例子为例:

在运行无效数据时,它会抛出一个错误:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

无效数据的错误

正如我们所看到的,价格应该是数字,但提供的是字符串。关于它的更多细节可以在这里找到。

结论:

这个帖子可能看起来主要是由 Pandera 主导的,因为它是我经常使用的软件包之一。写这个帖子纯粹是为了分享我踏上的航程。我确信人们可以从这些特定用例的包中获益更多。经常多走一英里可以达到非凡的效果。数据验证无疑是“额外努力”。开发数据验证策略可能会感觉到额外的工作,但是如果养成了创建自动化脚本的习惯,即使是处理一些小事情,也一定会受益匪浅。

如果您有任何意见和建议,请随时分享!

自动驾驶汽车将如何重新定义移动的概念

原文:https://towardsdatascience.com/how-autonomous-vehicles-will-redefine-the-concept-of-mobility-582f8701a5f8?source=collection_archive---------33-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bram Van Oost 在 Unsplash 上拍摄的照片

他们已经在我们中间,并将改变整个汽车行业。

自动驾驶汽车背后的技术会让你大吃一惊。这些车辆的特点是不必处理人的局限性,如疲劳和注意力不集中。

令许多人高兴的是,这些机器可以独自停车,它们不会像我们认识的许多人一样酒后驾驶或在驾驶时打电话。

众所周知,人为失误导致了 94%的交通事故,这项创新主要是为了拯救生命,持续降低死亡率。

根据美国国家公路交通安全管理局(NHTSA)2015 年的一项研究,交通事故是全球 15 至 29 岁年轻人最重要的死亡原因,超过了艾滋病、流感和登革热的受害者,根据世界卫生组织(世卫组织)。

还有,我们总是抱怨我们的时间很少。日子很忙,我们有几项义务要履行。我们平均每年有 40 天被堵在城市的交通中。

你有没有想过,如果我们不用担心驾驶,汽车在这段时间为我们工作,我们会赚多少钱?

据估计,自动驾驶汽车可以创造 7 万亿美元的市场!它被称为“乘客经济”,因为每个人都会不加注意地做一些其他的活动。

美容院、晚宴和健康诊所是可以在车内进行的服务。

车辆的自主性将改变整个汽车行业,从车辆工程和零部件行业到机械行业的交通组织方式。

颠覆性的浪潮:运输即服务。

我们中的一些人仍然记得数码摄影开始作为模拟摄影的一种选择出现的时候。柯达进行的研究证明是准确的,表明新技术将在 20 年内主导市场。尽管有时间做这件事,公司还是皱起了鼻子,没有进行现代化改造。目前,这个巨人已经萎缩,只作为一个专利实验室生存。

为了避免同样的错误,几乎所有的汽车制造商在失去未来市场后都在跑,计划交付能够自动化的车辆。

科技公司对完全自动驾驶汽车的开发已经刺激了主要品牌的新员工。

在“优步的自动驾驶汽车将如何在 2025 年摧毁 1000 万个工作岗位并重新定义经济”的文章中,Zack Kander 认为整个行业将在未来十年内被彻底改造。我们怎么能不同意呢?

当自动驾驶汽车技术已经得到很好的发展并且在街道上占大多数时,趋势是市场变化将开始巩固。整个运输行业的商业模式将会改变。汽车将不再是消费品,而是一种服务。

今天,在大部分时间里,例如一辆汽车,只被使用很短的时间,但维护它的成本并不那么低。根据 GlobalFleet 的一份报告,在整个欧洲,汽车费用每月高达 344€。

当不需要人类司机时,自动驾驶汽车将大大降低公司提供的运输成本。更便宜的服务可能会让拥有汽车的格言不再有吸引力。

我们可以认为,未来的车辆将是标准化的、电动的和自动驾驶的,并且将主要由车队公司拥有。这意味着当前的生产逻辑——每天生产数百万辆汽车——将很难在这种破坏中生存下来。

根据 Statista 的数据,预计 2020 年全球汽车行业将售出 5960 万辆汽车。至少在新冠肺炎之前是这样的。

由于冠状病毒疫情,预计该行业将在全球经济放缓的情况下出现下滑趋势。在疫情袭击之前,据估计,国际汽车销量有望在 2019 年达到 8000 万辆;反正全球汽车行业估计到 2024 年会达到 11425 万辆。

这场革命对于全球经济的重要性是显而易见的:车间、轮胎店、保险公司、经销店、专业人士(如司机、出租车司机、服务如车库、出租等。)会被严重打乱。当然,还有装配线本身。

随着更大的自主权而来的是更大的挑战。

自动驾驶汽车之间最显著的区别之一是它们的连接水平。他们将一直连接到互联网。正因为如此,我们今天通过手机或电脑做的许多事情将在旅途中使用交通工具本身来完成。

另一方面,自动驾驶汽车可能成为虚拟攻击的首选目标,旨在窃取数据或危害系统。因此,病毒和其他恶意程序的问题会更加频繁。我们准备好了吗?

自动驾驶汽车和新的客户体验。

随着该计划在大多数汽车制造商推出商用自动驾驶汽车服务方面的进展,设计师和产品所有者认识到,除了技术本身的发展,专注于客户体验对于未来的商业成功至关重要。

在推出像自动驾驶汽车服务这样复杂的技术时,没有简单的捷径。自从人们从马转向汽车以来,汽车工业面临着最具挑战性的事情。

AV 的采用在很大程度上取决于人们对技术的信任,足以进入汽车,然后喜欢上用户体验再回来。

在未来几年,自动驾驶汽车有巨大的潜力扩大几个城市的交通、商品和工作机会。做到这一点的最佳方式是创建运输服务,在旅程的每一步都提供以客户为中心的体验。

推出大规模运营的新移动服务的挑战将涉及根本的消费者行为变化:用车辆所有权交换车辆共享。

这种文化变革将要求运输公司基于智能技术和高利用率来管理其自主车队。另一个关键方面是创造可靠、高效的自动驾驶汽车服务,满足客户对汽车清洁、维护、恢复和耐用性的期望,以赢得他们的忠诚度。

还需要知道如何规划服务的扩展,在获得本地、全国和全球规模之前,确定在哪里以及如何推出服务以改善客户体验。

我们与汽车的日常关系即将改变。我们的用户体验可能会基于更高的效率和安全性,因为这些自主系统将取代人类和车辆之间的大部分交互。因此,随着更少的人为错误和更多积累的知识和经验,磨损、断裂和故障往往不那么经常发生,从而影响整个汽车行业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

杰克·亨特在 Unsplash 上的照片

自动驾驶汽车对汽车制造商的影响

自从 100 多年前汽车被发明以来,汽车制造商的商业模式几乎没有改变。

在过去的几年里,引擎已经变得更加强大和高效。设计变得更有吸引力,增加了新的安全和便利项目,但是,从本质上讲,汽车仍然与 20 世纪初销售的汽车非常相似。

现在,有了自动驾驶汽车,这种情况会改变吗?它将会有很大的变化!

比如,一般来说,一个工厂生产一辆汽车。正如我们今天所知,大多数汽车在大多数情况下都是通过经销商的中介传递给最终消费者的。然后,第二年,汽车制造商推出了更现代的模式,并恢复其销售周期。随着自动驾驶汽车的出现,这一过程将发生重大变化。

他们为汽车制造商赚钱的方式也是如此。

汽车产业也被称为产业中的产业,“不仅因为其规模和经济重要性,还因为其对商品、能源、信贷、技术等众多经济领域的冲击和影响。随着自动驾驶汽车技术的发展,这个行业在未来 10 年或 20 年将会发生很大的变化。

拥有一辆能自动驾驶并能在其生命周期内接收更新的汽车的想法颠覆了我们对汽车行业的所有认识。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Marvin MeyerUnsplash 上拍摄的照片

关于自动驾驶汽车的维护

有了全自动驾驶,驾驶效率将会更高,减少每行驶一公里的维护需求。

急刹车、冲刺、不必要的加速、与坑洞和障碍物的碰撞会减少,事故也会减少。毕竟传感器和执行器比人更快更准。

然而,减震器、刹车片和刹车盘、轮胎、缓冲垫和制动器等零件的磨损以及过滤器和油液等物品的使用寿命几乎不会改变,它们只会达到最有效的阶段。

如果,或者我应该说,当自动驾驶汽车采用电动化时,电气和电子系统将取代燃料喷射,燃烧,冷却和气体排放的所有部分。

电动汽车需要不同的维护,因为它们不应对爆炸和高温。

但这是否意味着汽车服务和零部件供应商将终结?大概不会。

有人仍然需要制造所有这些部件,并让它们一起工作。自动驾驶汽车将永远需要大量的维护服务、替换的部件,技术和机械方面的改进仍在开发中。设计等活动也将继续推进。但这一切在自动驾驶和共享汽车的未来会像以前一样继续赚钱吗?

我们可以通过观察千禧一代来观察这个现象;他们中的许多人不再买车,尤其是在大城市。如果你住在像纽约这样的城市,当你有车的时候,你可能不想付钱去停车或处理其他问题。我住在波兰的弗罗茨瓦夫……猜猜看……我没有车……对于一个在运输行业的全球领导者中从事颠覆性技术工作的人来说,这很有趣。

当人们不再频繁购买汽车时,汽车制造商的商业模式(制造、销售、重新开始)可能会失去一些意义。然而,没有人比今天的汽车制造商更有资格引领未来汽车制造的变革。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马克西姆·阿涅利在 Unsplash 上的照片

随着自动驾驶汽车的到来,交通产业链会发生什么变化?

自动驾驶汽车的普及将彻底改变几乎所有领域的交通运输行业。

这里有一些可能会受到影响的活动:

备件市场

即使事故减少,驾驶效率提高,备件市场仍将持续增长。新的车辆将继续从工厂到达,增加现有的车队。

毫无疑问,将发生变化的是零件类型及其应用的复杂性,因为车辆型号的多样性趋于增加,除了其他技术项目外,还需要使用更复杂的工具,以便机械师能够进行维修。

此外,像相机、激光雷达和其他传感器这样的电气和电子产品在这个市场上将变得更加重要。

服务站

除了为装有内燃机的车辆提供服务(内燃机将持续运行很长一段时间),服务站还需要提供充电服务。他们还需要适应接收自动驾驶汽车,采用新的服务和支付形式。

因此,销售的服务和产品的多样性将增加,尽管加油站的小修理和大修需求减少,如更换机油或过滤器。

机械车间

如果他们想抓住扩大市场的机会,车间将改变以执行新技术要求的维护,使用适当的工具和训练有素的专业人员。

除了对传统车辆的维修,其他服务将变得更受欢迎,如嵌入式电子传感器和电子元件的审查。

车辆贸易

自动驾驶汽车有一种强烈的共享趋势,加速了将汽车转变为服务的过程,而不是像今天这样成为消费品。因此,车主数量将会减少,尤其是在大城市,集中在车队上。

在这种情况下,中小型汽车销售店将受到影响,因为收购将在更大的规模上进行,可能是在与经销商或汽车制造商的直接谈判中。

结论

通过这些简单的想象练习,我们可以看到整个行业都会被触动。一些关于汽车修理店的行动已经开始,这些行动可以促进向自主汽车主导的市场的过渡。其他一些需要时间,取决于市场对自动驾驶汽车的反应速度。自动驾驶汽车在最基本的自动化水平上已经成为现实。

汽车制造商和技术公司已经投入了大量资金来让他们的全自动驾驶汽车设计起步。因此,现在是跟踪这项技术的发展并为它给我们的社会带来的变化做好准备的最佳时机。

这篇文章对你有帮助吗?想了解更多自动驾驶技术?让我知道。

还有一件事…

如果你有兴趣阅读关于自动驾驶技术和机会的文章,下面的文章会让你感兴趣:

此外,我刚刚在亚马逊上发布了一些令人兴奋的电子书,我相信其中一些你可能会感兴趣……请看:

参考

  1. 人为失误导致 94%的交通事故
  2. 自动驾驶汽车背后的技术
  3. 美国国家公路交通安全管理局(NHTSA)
  4. 优步的自动驾驶汽车将如何在 2025 年摧毁 1000 万个工作岗位并重新定义经济
  5. GlobalFleet(T1)
  6. Statista(T3)

B+树索引是如何在数据库中构建的?

原文:https://towardsdatascience.com/how-b-tree-indexes-are-built-in-a-database-6f847fb3cfcc?source=collection_archive---------26-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 niko photosUnsplash 上拍摄

使用图表来说明如何在数据库管理系统中建立 B+树索引

如果您不是 DBA 或数据库开发人员,您可能不知道数据库索引的机制。但是只要你会写一些 SQL 查询,你一定听说过数据库索引,知道索引可以提高 SQL 查询的性能。

在我以前的一篇文章中,我介绍了 B+树索引,它仍然被大多数数据库管理系统(DBMS)使用。它可以提高大多数条件下的 SQL 查询性能。

[## 为什么我们需要数据库表的索引

引入没有任何公式和计算机科学理论的 B+树索引

towardsdatascience.com](/why-we-need-indexes-for-database-tables-25198145a8ca)

有一个图是我用来举例的,如下图所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你很好奇 b+树为什么是这个样子吗?具体来说,为什么顶级节点只有一个数字为 5 的节点?为什么叶节点 7 是单独的?在本文中,我将介绍如何从头开始构建 B+树索引。

将键插入 B+树

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由古斯塔夫·古尔斯特兰德Unsplash 拍摄

让我们从一个空表开始,忽略它的其他列,只关注创建了 B+树索引的键列。

现在,假设我们开始使用这张桌子。因此,一系列条目将被插入到表中。因为键列上有一个 B+树索引,所以需要在逐个插入数据行时构建索引。

尽管通常键字段可能是按顺序插入的,当然,情况并不总是这样。为了演示一般情况下的机制,让我们假设密钥是随机插入的。例如,顺序如下:

5, 7, 8, 1, 4, 6, 2, 3, 9

需要强调的是,建立 B+树指数的方法并不只有一种。因此,我们需要在我们的例子中有一些假设。不用担心,所有 b+树索引的机制都是一样的。

假设 1:硬盘驱动器的每个块可以存储两个密钥

当然,在实践中,这个数字小得不可能。但这会让我们的例子更容易理解。

好的。现在,我们可以将前两个数字插入到索引中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因为假设 1,当我们插入两个值时,我们不需要担心任何事情。这些值必须排序,所以 5 在左边,而 7 在右边。请注意,该节点是一个叶节点,因为此时我们不需要任何非叶节点,因为一个叶节点中只能存储两个值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当我们插入一个新数字“8”时,我们首先假设我们需要将它插入到现有的叶节点中。然而,它将以一个具有三个值“5,7,8”的节点结束。基于假设 1,我们需要拆分节点,因为该块只能存储两个值。

假设 2:当一个节点被拆分时,左边节点的右值去更高一级

我们需要作出假设 2 来定义每当一个节点被分割时哪个值去更高的级别。请注意,也可能有这样的假设,如右节点的左值上升,我们只需要定义它并遵循它。

因此,不能存储在该块中的最后一个值“8”被分裂,成为新的叶节点。之后,左边的节点是“5”和“7”,最右边的值是“7”,所以会上一级。

现在,我们有了一个非叶节点。这个新节点需要用左右两个指针来创建。左指针指向值较小的节点,而右指针指向值较大的节点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

接下来,当我们插入数字“1”时,叶节点“5,7”变成了“1,5,7”,这导致了另一次分裂。最后一个值“7”将被分离出来,成为一个新的叶节点。请注意,编号“7”不会被合并到另一个编号为“8”的节点中,这是因为 B+Tree 不具备这一功能,同时这会造成额外的索引构建开销。没有必要。

之后基于假设 2,左边节点最右边的值是数字“5”。它达到了更高的水平。已经有一个数字为“7”的节点,所以简单地在“7”的左边插入数字 5。别忘了让指针指向的节点小于或等于“5”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下一个值是“4”。又造成了分裂,于是数字 4 基于假设 2 上了一层楼。但是,第一级非叶节点“5,7”已经得到了两个值。基于假设 1,需要拆分。

毫无疑问,基于假设 1,数字“5”应该上升到第二级非叶节点。但是,要知道数字 5 将不再存在于一级非叶节点中,这一点非常重要。这是 B+树的机制之一,在非叶子节点中不应该有任何重复的值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

插入数字“6”相对容易。因为叶节点“5”还有一个空格,所以数字“6”会被插入到这个节点中,没有任何其他效果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当插入数字“2”时,需要拆分叶节点“1,2,4”。基于假设 2,数字“2”需要被提升。由于非叶节点“4”仍然有空间,所以数字“2”在那里结束,没有进一步的影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后两个数字“3”和“9”可以在叶节点上找到它们的位置。因此,不再需要分割。

所以,所有的 9 个数字都以这种随机顺序插入到 B+树索引中。

摘要

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

特雷·吉普森在 Unsplash 上的照片

在本文中,我使用了图表来说明如何从头开始构建 B+树。事实证明,在 B+树索引的实现之间,假设可能是不同的。然而,机制是相同的。

作为最经典的索引类型,B+树已经使用了几十年,并且仍然被大多数数据库管理系统使用。尽管它可能不再是最先进的索引,但我相信它仍然是标志性的,DBA、数据分析师和软件开发人员都应该知道。

[## 通过我的推荐链接加入 Medium 克里斯托弗·陶

作为一个媒体会员,你的会员费的一部分会给你阅读的作家,你可以完全接触到每一个故事…

medium.com](https://medium.com/@qiuyujx/membership)

如果你觉得我的文章有帮助,请考虑加入灵媒会员来支持我和成千上万的其他作家!(点击上面的链接)

面部识别软件让黑人被捕有多糟糕

原文:https://towardsdatascience.com/how-bad-facial-recognition-software-gets-black-people-arrested-3c02738a3d54?source=collection_archive---------38-----------------------

美国司法压迫黑人和棕色人种的另一种方式

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

黑人被面部识别软件错配的频率更高。弗兰基·科尔多瓦在 Unsplash 上的照片

遍布美国的骚乱再次提醒我们,以白人为主的群体对有色人种的公然压迫。但是,当警察谋杀案现在成为焦点时,我们不应该忘记司法系统用来毁灭黑人生活的更微妙的工具。

首先,有许多黑人和棕色人种在被捕后死去。虽然联邦官员未能收集数据,但独立资源显示,差距是真实的。

还有一个事实是,有色人种在审判时会受到更严厉的判决。显而易见,这是白人刑事法官种族偏见的结果。

最重要的是,事实上黑人和棕色人种更容易被逮捕。虽然黑人占平均人口的 13%,但截至 2017 年,他们占美国监狱的 33%。占人口 72%的白人只占监狱的 30%。从统计数字来看,黑人被监禁的可能性是白人的六倍。

因此,很明显,由于种族偏见,黑人和棕色人种受到警察和司法系统的压迫。不太明显的是,以白人为主的软件开发人员助长了这种犯罪。

算法与深色皮肤的人不匹配的几率要高 10 倍

国家标准和技术研究所(NIST)最近的一项研究证实了研究人员一直说的话:面部识别对你很有帮助,只要你是一个白人男性——其他人就失去了。

一种对法院很重要的方法是一对一匹配。这意味着你要查询两张不同的照片是否描绘了同一个人,例如,这可能有助于识别你在视频中捕捉到的嫌疑人。这项研究发现,根据算法的不同,黑人或亚裔美国人的误报率是白人美国人的 10 至 100 倍。换句话说,如果一个算法呈现了来自两个不同肤色的人的两幅图像,它们在计算机看来几乎是一样的。

在美国开发的算法中,假阳性的数量大致相同,不考虑非高加索人种。除了非洲裔和亚裔美国人之外,这项研究还包括美洲原住民、美洲印第安人、阿拉斯加印第安人和太平洋岛民。

一些研究人员,其中包括来自 T4 NIST 的 Patrick Grother,提到白种人的面孔可能比非洲人或亚洲人的面孔更加多样化。但这并不成立:NIST 的研究还发现,在亚洲开发的算法能够像识别高加索人一样准确地识别亚洲人。根本原因似乎更多地在于算法本身,或者它从中学习的图像数据集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们不要让这些人受到不实指控。照片由粘土堤Unsplash 上拍摄

面部识别责任的缺失不仅仅是 NIST 哀叹的问题。例如,麻省理工学院的研究人员 Joy Buolamwini 和斯坦福大学的 Timnit Gebru 在种族和性别方面发现了类似的差异。值得一提的是,两位科学家本身都是黑人女性——她们是从事人工智能工作的极少数人中的两位。

如果面部识别是白人为白人制造的玩具,所有这些差异都不会那么糟糕。问题是,这些算法被用于在它们的开发和实施中没有发言权的种族群体。例如,他们更有可能被错误地监禁,因为机器由于他们的肤色而犯了错误。正如 Buolamwini 所说的那样,“技术应该更适合使用它的人和被它使用的人。”

谷歌可能对获取黑色和棕色数据集持怀疑态度

是什么造成了这些差异?也许是算法的问题——没有这方面的定量数据。但是大多数研究人员认为应该归咎于算法用来学习什么是脸的数据。显然,获得大量白人的图像要比获得黑人和棕色人种的图像容易得多。

这似乎是真的。白人更有可能有足够的现金购买技术设备,用来给自己和家人拍照,并上传到网上。例如,如果你在谷歌上搜索“奶奶”,你需要向下滚动一点才能看到一个皮肤更黑的女人。

白人开发者更有可能选择其中一个以白人为主的数据集,而不会考虑他们已经忘记了什么。即使该算法本身也适用于黑人和棕色人种的图像。

例如,在 2009 年,一个惠普网络摄像头被认为能够跟踪面孔对黑人不起作用。2015 年,谷歌将一名黑人误标为“大猩猩”。到目前为止,只有苹果公司的 FaceID 及其三维红外扫描仪似乎对所有种族都有效。问题是,人们在日常生活和执法中很少在三维和不可见的红外光下拍摄照片和视频。

因此,尽可能多地获取黑人和棕色人种的照片是非常有意义的,这样开发人员就可以将他们包含在现有的数据集中。唯一的问题是,得到这些照片会导致更多的问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们不能让大型科技公司出售有区别的产品。摄粘土堤的 Unsplash

为了让他们的面部扫描在 Pixel 上工作,谷歌分包给的工作人员,让他们扫描街上的黑人和棕色人种,以换取一张 5 美元的礼品卡。令人担忧的是,多名前承包商后来站出来说,他们被建议使用不道德的策略。

一名前承包商告诉《纽约每日新闻》,“他们说要瞄准无家可归的人,因为他们最不可能对媒体说任何事情”。

“我觉得他们想让我们掠夺弱者,”另一名承包商说。

甚至有报道称,承包商被建议在没有阅读同意书的情况下催促人们签署同意书,并将面部扫描伪装成“自拍游戏”或“调查”。

这显然引起了人们对黑人和棕色人种在公共场合的隐私的更多关注。创造包容性产品不能以滥用最弱势群体的隐私和信任为代价。

八年的监禁,也许毫无意义

尽管有这些担忧,面部识别技术已经在美国警察和司法部门广泛使用。当其他不利于嫌疑人的证据不足时,这可能导致监禁。

这发生在 T2 威利·艾伦·林奇的案件中。早在 2015 年,佛罗里达州的卧底特工让一名男子向他们出售价值 50 美元的快克可卡因。但是他们不想马上暴露身份。因此,一名警察没有当场逮捕他,而是把电话放在耳边,假装在打电话,拍了几张该男子的照片。

回到警长办公室,侦探们无法辨认照片上的男子。于是他们转而求助于人脸分析对比考试系统(FACES)。当出现一张照片时,这个软件会从警方的数据库中返回可能的嫌疑人。照片显示威利·林奇和其他嫌疑人一起被捕了。

一个令人不安的方面是,特工没有在林奇的逮捕报告中提到面孔,而是声称他们已经通过人工搜索确定了他的身份。另一个方面是软件返回了多个嫌疑人,都用一个星级系统评分。

正如 Slate 报道的那样,运行该软件的分析师认为,根据面孔,林奇被评为一星,而其他所有人一星也没有。然而,她承认她不知道最大可能的恒星数量是多少。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于今天的面部识别技术来说,有色人种看起来都差不多。弗兰基·科尔多瓦在 Unsplash 上的照片

有趣的是,法院和警方都没有考虑到照片上的男子可能不在警方的嫌疑人数据库中。林奇是黑人的事实更强调了这一点。除了那一张快照,他们所有的就是价值 50 美元的快克可卡因——但显然这足以让这个人被关八年。

美国公民自由联盟(ACLU)在 2019 年 3 月提交了一份法庭之友简报,将该问题提交给佛罗里达州最高法院。但是由于这种过程需要时间,所以可能要到林奇八年刑期结束时才会有结果。没人能把这些年还给林奇。

最后一句话:我们也需要反对种族主义技术

随着反对种族主义的骚乱在世界范围内继续,大规模的逮捕浪潮也在继续。我们需要确保有缺陷的面部识别软件不会导致更多的错误指控。

只要这种技术不平等,它就不适合警察使用。而且技术还不成熟。这是事实。两年前,IBM 发布了一个“面孔多样性”数据集,以消除面部识别中的差异。现在,他们已经宣布不再提供、开发或研究这种技术。似乎流行的偏见如此强烈,以至于 IBM 都无法消除它们。

显然,这并不意味着谷歌、亚马逊和微软等其他公司不会继续推进这一领域。但即使是他们也开始怀疑面部识别软件到底有多道德和有利可图。

由于欧盟正在考虑对这项技术实施为期五年的禁令,亚马逊和微软反对禁令的声音比谷歌大得多。事实上,谷歌拒绝向任何人出售面部识别软件。看起来他们试图获得黑人和棕色面孔的方式的丑闻对他们来说已经足够了。微软也紧随其后,T2 宣布不会向警方出售其软件。

甚至大公司也意识到和黑人和棕色人种乱搞不再酷了。随着越来越多的人走上街头反对种族主义,反对面部识别的声音也越来越大

无论我们的肤色如何,我们的工作就是倾听这些声音并让他们被听到。下次你看到闭路电视摄像头时,想想这个问题。

[## 我们必须对抗面部监控以保护黑人的生命

来自算法正义联盟的紧急信件,作者 Joy Buolamwini

onezero.medium.com](https://onezero.medium.com/we-must-fight-face-surveillance-to-protect-black-lives-5ffcd0b4c28a)

在首次拟合算法下,碎片有多糟糕?

原文:https://towardsdatascience.com/how-bad-is-fragmentation-under-a-first-fit-algorithm-88c50c130cee?source=collection_archive---------67-----------------------

模拟破碎的基本原理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由克莱门特·HUnsplash 上拍摄

有时我阅读操作系统,因为我想知道我的电脑是如何工作的。我已经将 Linux 发行版作为我的主要操作系统运行了大约 10 年,因此熟悉这些概念允许我极大地定制和优化我的系统。

普通大众可能感兴趣的一个话题是:

什么是碎片整理,为什么我有时要整理我的电脑碎片?

虽然,可能没有一个 1990 年以后出生的人听说过碎片整理,因为计算机内存容量的大规模增长。

我要描述的不是在任何现代操作系统上内存管理实际上是如何完成的,但是它会给人一种为什么会发生碎片的感觉(甚至这是什么)。

当我试图理解一个概念时,我经常发现写自己的模拟是有益的。我将给出我用来运行一个非常简单的首次拟合算法模拟的代码,这样我们就可以看到它会变得有多糟糕。

首次拟合算法

首适算法正是它听起来的样子。你把记忆想象成填满的酒吧。每个程序都有一个大小,你寻找第一个足够大的洞来放它。这是我做的一张图片来说明:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由作者在 Google Draw 中制作

这是什么意思?

你下载蓝色程序,它进入第一个(最左边)区域,没问题。你下载红色的,第一个可用的洞就在蓝色的旁边。绿色也一样。

然后你意识到你不想要红色了,所以你删除了它。这就留下了一个漏洞。当你下载紫色程序时,你的内存管理注意到了这个漏洞,并试图在那里安装它。哇哦。这个洞太小了,所以它继续寻找第一个适合它的洞(因此得名“首次适合算法”)。

最终,你可能会删除绿色,一些东西可能会进入红色和绿色留下的大洞,但它可能不会填满整个东西。

一旦这些洞开始出现,就很难去掉。这叫做 外部碎裂 。我写了一个模拟来看看情况会变得多糟。虽然这个程序只做了我刚才展示的简单的事情,但是它有点长而且令人困惑,所以让我们一步一步来。

我上了两节课。第一个允许我假装在下载一个程序。每个程序都有一个从 1 到 10 的随机大小,它在内存中的位置,以及直到我删除它的时间(一个从 1 到 20 的随机数)。

这个类只是记忆的棒。在我们的模拟中,它的总大小为 100,并且它有一个当前在内存中的程序列表(程序跟踪它们的位置)。

我做了一个功能,把一个程序加到记忆棒里。这只是寻找适合它的第一个可用的孔。不幸的是,我最终没有看到一个光滑统一的方法来做到这一点,并通过案例拼凑了一些东西。我分别检查第一个程序前的孔和最后一个程序后的孔。

我创建了一个 sort 方法,因为当我向列表中添加一个新程序时,尽管它的位置可能在中间,但它却卡在了列表的末尾。这只是按位置对它们进行排序。最后,我有一个程序,如果时间足够长,它就会被删除。

最后,我只是模拟了 100 个时间步。在每一个时间点上,我都尝试使用一个随机生成的程序。然后,我让所有的删除时间参数减少。我检查是否有 0 并删除它们。我将列表排序,然后重复。

以下是一些最终结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个程序使用了 66%的内存,因此外部碎片导致了大约 34%的浪费。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个在 69%的使用率上稍微好一点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这种情况要糟糕得多,使用率为 43%,因此浪费了 57%。完整的代码可以在 GitHub 这里找到。

用不同大小的内存和不同长度的时间删除东西来感受它是如何改变事情的,这很有趣。如果您尝试使用的空间量足够小于您的总内存,碎片显然不会是一个大问题。

另一方面,正如这些模拟所显示的,题目的答案是它可能非常糟糕。这些模拟实际上是准确的(如果我的旧操作系统概念第七版教科书是正确的),因为你可以从数学上证明你用这个算法浪费的预期空间大约是 33%(我运行的模拟比我展示给你的多得多,这是我通常看到的)。

不过,没有必要害怕。旧的操作系统确实在这方面使用了一些变体,但所有现代操作系统都使用一种叫做 分页 的东西,这种东西完全避免了外部碎片(有一种东西叫做内部碎片,我没有谈到)。

只是为了好玩,我决定向你“证明”只有当你使用足够大比例的内存时,这个算法才是糟糕的(也就是说,在现代计算机上可能永远不会!).这是一个模拟结果,你的程序太小了,浪费的空间根本不重要:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

冠状病毒爆发会有多糟糕?—预测疫情数字

原文:https://towardsdatascience.com/how-bad-will-the-coronavirus-outbreak-get-predicting-the-outbreak-figures-f0b8e8b61991?source=collection_archive---------2-----------------------

数据分析师的观点—您应该知道的 4 件重要事情

编者按:【towardsdatascience.com】是一家以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家。想了解更多关于疫情冠状病毒的信息,可以点击 这里

“每一个在中国和其他地方受苦的人,愿上帝加强受害者和他们的家庭,引导他们度过这段艰难的时光。请遵循世卫组织网站中概述的建议,保持安全并受到保护 "

我们今天站在哪里?

疫情继续蔓延——截至 2 月 1 日,世卫组织已确认约 12000 例病例,仅周六就确认了 2000 例以上(约占报告病例总数的 18%)。共有 28 个国家的 48 个省受到影响。然而,这些病例中只有 2%多一点是在中国以外发现的。虽然这个数字可能看起来很小,但处于疫情中心的武汉是中国主要的交通枢纽。由于农历新年,城市间的旅行增加,这在一定程度上助长了疫情。去年 10 月至 11 月期间,有近 200 万人离开武汉,大约 12 万人飞往国外。因此,冠状病毒的爆发仍然是全球关注的主要问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

受影响的国家/地区—截至 2020 年 1 月 31 日的报告(鸣谢—由作者使用 Excel 3D 地图绘制)

这种病毒的传染性如何?

任何疫情传播的速度和难易程度决定了其规模。伦敦帝国理工学院发布的报告表明,一个人患冠状病毒会影响 1.5 到 3.5 个健康人。据《纽约时报》报道, 如果 5 名新型冠状病毒携带者可以影响 2.6 名其他人,那么 1 个周期后可能有 5 人患病,2 个周期后有 18 人患病,3 个周期后有 52 人患病,以此类推

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一种冠状病毒如何在 5 个周期内从 5 人传播到 368 人(鸣谢:纽约时报)

中国的疫情有多严重?

数据 vs 世界卫生组织辩论!

我曾致力于创建一个 QlikSense base 仪表盘来监控当前的情况并跟踪疫情。你可以在下面找到更多关于它的信息。

[## 新型冠状病毒(2019-nCoV)——世卫组织新型交互式、基于网络的冠状病毒在线培训…

世卫组织的在线训练是目前对抗冠状病毒爆发的最佳武器;涵盖检测方法…

medium.com](https://medium.com/@angeleastbengal/novel-coronavirus-2019-ncov-whos-new-interactive-web-based-online-training-for-coronavirus-d0865f0b47af) [## 冠状病毒爆发会有多糟糕?—疾病爆发—假设分析

数据分析师对当前形势的看法

medium.com](https://medium.com/@angeleastbengal/how-bad-will-the-coronavirus-outbreak-get-the-outbreak-hypothesis-analysis-940197ed7815) [## 新冠肺炎对国际学生的影响

不可预见的挑战及其对国际学生招生的影响

medium.com](https://medium.com/@angeleastbengal/the-impact-of-covid-19-on-international-students-88f96cb8dcf9)

截至周六,世卫组织已在中国确认了 11821 例病例。然而,由约翰霍普金斯大学(T2)整理的数据显示这个数字要高得多。某些病例存在假阳性的可能性,即某人被错误地怀疑携带病毒,但在检测时被排除。中国报告病例数的平均增长率仍高达 16.3%(高于 2003 年的 SARS 病例数)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

中国受影响的州/省(由作者使用 Excel 3D 地图绘制)

展望未来——到下周末,确诊病例将超过 38,000 例!

鉴于我们没有足够的数据点,很难使用时间序列模型来预测疫情。让我们来看看一段时间以来确诊病例的增长率。在研究与时间相关的变量时,需要考虑三个关键参数。

  • 趋势 —变量的大小是否随时间线性增加?例如,确诊病例的增长是否会随着时间的推移而增加?
  • 水平 —变量在一段时间内的平均值是多少?例如,过去 6 天的平均增长率是多少?
  • 季节性 —我们是否在特定的区间内看到了相似的数值模式?—我们是否在特定日期观察到类似的趋势,即每周一确诊病例/增长数字较高?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据来源:世卫组织形势报告

假设和见解

  • 假设——疫情将继续增长,因为确诊病例的初始数量很低,我们只能在增长率稳定下来后再看数字。否则数字可能会失真
  • 确诊病例增长数字缺乏季节性。可行,因为数据点较少;然而,由于确诊病例数量增加,增长率开始下降
  • 可以使用 前一天的值α和前一增长率 的组合来预测接下来 7 天的结果;其中α是增长率随时间变化的平均值

预测

利用前一天的确诊病例总数和最近增长率的α值(-2.9%),我预测了下周的疫情爆发。使用世卫组织形势报告 12 & 报告 13 对预测进行了验证,观察到 1%的 MAPE。看一下图表就知道,我最终高估了这些数字。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预报

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测。数据来源——世卫组织局势报告

ARIMA(自回归综合移动平均线)能给出更好的结果吗?

时间序列是在固定时间间隔内记录指标的序列。根据频率的不同,时间序列可以是每年、每月、每周甚至每天。由于确诊病例数是一个随时间变化的变量,像单指数或双指数平滑法或 ARIMA 可以产生更好的预测。然而,由于数据点较少,我没有尝试。任何时间序列模型都需要足够的数据点来理解当前值和先前值之间的相互作用。然而,我使用偏自相关(PACF)图来验证我的假设是否正确。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我将在我的下一篇文章中写更多,但是,如果你想了解更多,请访问这个网站。利用 PACF,我得出了以下结论:

  • 在排除中间滞后的贡献后,PACF 可以被想象为序列和它的滞后之间的相关性。由于 PACF 仅高于滞后 1、的显著值,这表明在今天和前一天的总确诊病例之间存在纯粹的相关性,而不是任何其他情况(因此我可以使用当前值来预测下一个)、****

关于作者:高级分析专家和管理顾问,通过商业、技术和组织数据数学的结合,帮助公司找到各种问题的解决方案。一个数据科学爱好者,在这里分享、学习、贡献;你可以跟我在 上联系

贝叶斯定理如何应用于测试一种疾病(如冠状病毒)?

原文:https://towardsdatascience.com/how-bayes-theorem-applies-to-test-a-disease-like-coronavirus-e63c38b3dbbe?source=collection_archive---------15-----------------------

它解释了为什么各国进行筛查和检测的速度很慢。

许多人在高中或大学都学过一定程度的统计学。然而,人们并不知道统计学在日常生活中的实际应用。今天我要介绍统计学中一个应用于现实生活的著名概率定理,贝叶斯定理。

贝叶斯定理背后的概念并不难。它根据与事件相关的已知条件来计算事件的概率。这个定理描述了一个观察到的事件如何影响另一个事件的概率。

太抽象?太难了?下面我给你举个例子。

截至 4 月 8 日,全球约有 140 万冠状病毒患者[1],全球约有 77 亿人[2]。所以感染率在 0.019%左右。假设一家制药公司开发了一种测试试剂盒,用来测试一个人是否感染了冠状病毒。由于开发非常仓促,这个测试套件的准确性并不完美。正常人有 2%的几率呈阳性,感染者有 1%的几率呈阴性。问题是,如果你做了测试,结果呈阳性,你被感染的可能性有多大?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Unsplash 上拍摄的 ThisisEngineering RAEng

贝叶斯定理的公式如下

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这个公式中,B 是我们想知道发生概率的事件,A 是观察到的事件。P(B|A)表示给定 A 发生的概率 B,P(A)和 P(B)分别是 A 和 B 发生的概率。最后,P(A|B)表示给定 B 发生的概率,P(B)也称为先验概率,因为它没有考虑来自 A 的任何信息,P(B|A)也称为后验概率。

在上面的例子中,A 代表从检测试剂盒中得到阳性结果,B 代表被冠状病毒感染。

所以容易 P(B),又名被感染的概率,是 0.019%。P(A|B)表示假定人被感染,测试试剂盒显示阳性结果。如前所述,感染者有 1%的几率呈阴性。因此,有 99%的机会在感染者身上显示阳性。因此 P(A|B) = 99%。唯一缺失的谜题是 P(A),也就是显示阳性结果的概率。

有两种显示积极结果的情况。第一种是人被感染了试剂盒显示阳性,第二种是人没被感染但试剂盒还是显示阳性。既然我们知道感染率是 0.19%。因此,一个人没有被感染的概率是 1–0.019% = 99.981%。在正常人身上有 2%的几率呈阳性。利用简单的概率规则,我们可以计算出 P(A)= 99.81% * 2%+0.19% * 99% = 2.01843%。

将所有数字代入贝叶斯定理后,P(B|A) = 0.93%。这意味着这个人只有不到 1%的实际感染。

这一刻,你可能会很惊讶,结果很小。而这在现实生活中肯定是不能接受的。因此,需要进行多次尝试来验证结果。在这种情况下,P(B)将变为 0.93%,因为被感染的概率由第一次尝试的结果更新。在不改变其他变量的情况下,P(B|A)将大幅提高至 31.77%。在第三次尝试中,结果达到 95.8%,几乎可以肯定这个人被感染了。

这个简单的例子揭示了检测疾病以获得更高准确性的耗时过程。因此,尽管许多国家已经提供了额外资源来增加实验室技术人员的数量和提高效率,但只有少数国家能够对其公民进行大规模筛查。因此,呆在家里。这不仅减少了你被感染的机会,也减轻了诊断的负担。

统计学可能对每个人来说都太复杂了。然而,它在我们的日常生活中被广泛使用。希望这篇文章能帮助你更多的了解贝叶斯定理。希望你喜欢,下次再见。

引用

[1]:冠状病毒最新:一瞥,卫报,2020 年 4 月 8 日,https://www . The Guardian . com/world/2020/apr/08/Coronavirus-latest-at-a-glance-death-toll-83000

[2]:世界人口钟,worldometers.info,2020 年 4 月 8 日,【https://www.worldometers.info/world-population/

我的其他文章

你会用你的媒体文章来吸引招聘经理和人力资源吗?

我在德国亚马逊公司为期六个月的实习中所做所学

为什么 SQL 中的窗口函数如此重要,你应该马上学习它

如何使用 SQL 进行数据分析(房产销售时间序列)

用 Python 中的克鲁克算法更优雅地解决数独

贝叶斯定理如何帮助赢得第二次世界大战

原文:https://towardsdatascience.com/how-bayes-theorem-helped-win-the-second-world-war-7f3be5f4676c?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1943 年,吉尔伯特和马绍尔群岛战役期间,美国海军 SBD-5 侦察机在华盛顿号和列克星敦号上巡逻

第一部分:介绍贝叶斯统计和它如何破解日本海军密码 JN 25

在第二次世界大战期间,美国和英国的密码分析师都疯狂地试图破译轴心国军事部门发送的加密通信。在这些努力中,位于布莱奇利公园的英国密码破译中心可能因其作为英国炸弹的诞生地而闻名,该机器将在 1939 年至战争结束期间解码臭名昭著的德国密码 Enigma。虽然 Bombe 和它的后继模型已经得到了大多数公众的关注,但是如果没有统计方法的支持,他们的努力通常是徒劳的。本文的目标是阐明其中一种方法,即贝叶斯推理,首先介绍它背后的理论,然后概述它是如何被用来破解轴密码的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

托比·奥克斯博洛拍摄的布莱奇利公园的 1 号小屋。来源:Flickr。这个文件是在知识共享归属-共享 2.0 通用许可下许可的

第一部分将致力于破解日本海军密码 JN 25,而第二部分将概述贝叶斯推理在破解英格玛密码中的作用。这份报告的大部分内容基于爱德华·辛普森写的一篇文章,他是在布莱奇利公园工作的密码破译员之一。我试图通过回顾贝叶斯形式主义和进行仅在辛普森的文章中隐含的大部分数学运算,使这个主题更容易理解。如果在这篇文章的最后,你发现自己对这个话题很感兴趣,我鼓励你阅读辛普森的原始文章,这是一篇关于他在布莱奇利公园的迷人的第一手报道。

定理

像许多其他著名的理论一样,贝叶斯定理出奇的简单:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

公式本身很容易推导出来,并且在贝叶斯统计之外有许多应用。然而,它的简单性可能具有欺骗性,因为该定理的大部分力量在于对所涉及的概率 P 的解释。几个世纪以来,贝叶斯定理的真正争议在于它的使用挑战了更传统的频率主义方法。而所谓的频率主义者将事件的概率定义为“在许多试验中其相对频率的极限”[1]。贝叶斯主义者将概率解释为个人信仰的一种度量。

有人可能会问,他们怎么敢在数学理论中加入像信仰这样主观的东西。说出这种批评,人们肯定会有好的同伴。许多统计学的重量级人物,包括费希尔和皮尔逊,已经放弃了基于类似论点的概率的贝叶斯解释[4]。

为了真正理解这两种方法之间的差异并能够做出公正的判断,让我们考虑下面的例子:

想象一下,一个朋友向你挑战掷硬币游戏,并迅速拿出一枚她想用的硬币。在同意这个游戏之前,生性多疑的你想确定她递给你的硬币是公平的,也就是说,硬币正面和反面落地的机会是相等的。

频繁主义方法

一个频繁主义者会把这个问题框架为一个假设检验,用零假设 H₀:的硬币是公平的,用替代假设 H₁的硬币是不公平的。然后,她将决定一系列试验(比如说𝑛=100)和一个置信水平(比如𝛼=0.05).抛硬币后𝑛时报,结果被记录下来。如果我们让𝑘表示我们观察正面的次数,让𝑝表示硬币正面落地的概率,那么按照二项式分布,特定结果的概率如下

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

给定置信水平𝛼,她就可以计算拒绝区域,即可以安全拒绝零假设 H₀:𝑝=0.5 的𝑘区间。这个区域可以通过求解

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了𝑘*.令人欣慰的是,人们在过去已经处理过这类问题,所以她可以简单地在表中查找它的解,或者使用任何统计软件来给她答案,而不是自己实际求解方程。原来,对于这个问题,𝑘*=10,所以 H₀可以拒绝如果|𝑘−50|>10,或者等价地如果𝑘 <40 or 𝑘> 60。

让我们假设在 100 次掷硬币中,(𝑘=)有 73 次是正面朝上。常客现在可以得出结论,硬币被操纵了,她的结论是错误的可能性小于 5%(置信水平)。

贝叶斯方法

作为贝叶斯统计的坚定支持者,你出现了。你对“浪费时间”感到震惊,并认为所有这些本来可以通过更少的试验来完成。为了理解如何继续,让我们先回顾一下贝叶斯定理:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意,我们用更有意义的符号𝜃和𝐷.代替了变量 a 和 b𝜃表示模型的参数,在我们的情况下,这只是正面𝑝的概率,这是所用硬币固有的特征,也是我们试图推断的未知值。𝐷代表观察数据,即硬币正面和反面落地的次数。

  • 𝑃(𝜃|𝐷)是𝜃的概率给定证据或数据𝐷.换句话说,硬币正面着地一定次数后,𝑝具有特定值的概率。这叫做后路
  • 𝑃(𝐷|𝜃)回答了以下问题:观察到𝐷给𝜃的数据的可能性有多大?这也是频率主义者计算的东西,它被称为可能性
  • 𝑃(𝜃)是统计学家在观察任何数据之前对𝜃的不同值有多大可能的信念。它通常被称为型号之前的
  • 𝑃(𝐷)通常被称为边际,描述了观察数据的概率,与模型参数无关。它确保后验分布是归一化的,但我们经常可以找到避免直接计算的方法。

我们需要做的第一件事是决定一个模型来描述抛硬币实验。和以前一样,二项分布是我们选择的函数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据 d 包括𝑛的投掷次数和𝑘.的头数定义了可能性之后,我们现在必须在之前选择一个。记住,先验描述了统计学家在看到任何数据之前对参数𝜃的信念。因此,如果我们在和一个值得信赖的朋友打交道,作为贝叶斯人,我们可以选择一个在𝜃=0.5(一枚公平硬币的价值)附近有一个尖峰的先验,如橙色曲线所示。如果我们的朋友过去试图捉弄我们,我们可能更倾向于选择蓝色曲线作为先验。它的范围更广,因此对𝜃.的任何特殊价值都不太相信

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你们可能已经注意到了,我们没有写下任何先验方程。不幸的是,贝叶斯推理中涉及的数学可能相当棘手。通常积分无法解析计算,人们不得不求助于数值工具,如蒙特卡罗抽样。出于这个原因,我们将依靠图表来发展对贝叶斯统计的直观理解。

假设在 6 次投掷中,硬币有 4 次正面朝上。使用“低信任”先验,后验分布𝑃(𝜃|𝐷)将看起来像这样:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如你所见,分布已经转移到更大的𝜃值,因为正面出现的次数是反面的两倍。我们可以将似然项解释为作用于先验分布的过滤器,只允许与数据𝐷.或多或少一致的𝜃值通过

分布仍然相当广泛,所以我们得出结论,要做出任何可靠的推断,我们需要更多的样本。经过 20 次投掷,观察头部 15 次后,后部看起来像这样:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以非常肯定地得出结论,这枚硬币被操纵了,而且我们已经能够比频繁者少扔 80 枚硬币来做到这一点。谈资源的高效利用!

现在你应该同意和我们的朋友一起玩了吧?看情况。如果她让你选正面或反面,就赌正面!然而,如果她坚持为自己挑选头像,也许是时候你找一个新朋友了…

人们实际上可以计算出这个游戏有利版本的预期收益:如果我们在正面下注 1 美元,我们的预期收益是

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由于我们不知道𝜃的确切值,我们需要对其概率分布进行积分:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于最后一个表达式,我们实际上不需要计算任何积分。为了获得后验分布下𝜃的期望值(平均值)的粗略近似值,查看所述分布以找到⟨𝜃⟩≈0.7 就足够了(精确值约为 0.708)。因此

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每次抛硬币的预期投资回报率约为 40%,我会说“去吧”;但是在你把所有的钱都押上之前,确保你知道赌徒的毁灭。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

美国海军亚利桑那号(BB-39)在日本偷袭珍珠港后燃烧,公共领域

日本海军密码机 JN 25

日本视角

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

二战期间,日本海军对信息进行编码的方式相当简单。发送者将使用一个代码簿(I) 把他的信息的每个字转换成一个五位数。作为一种安全措施,这五个数字的总和总是能被 3 整除。在给日本人一种方法来确保他们的信息被正确无误地传输的同时,这种方法将极大地帮助盟军解码截获的信息;但稍后会详细介绍。

对明文进行编码后,发送者将查询所谓的添加剂(II) 的加密表。这些五位数将被添加(非进位)到代码中,以产生最终的加密信息(III) 。接收者可以访问相同的代码簿和添加剂,并且可以通过颠倒上述过程来简单地解码消息。

联盟视角

面对一组截获的信息,联合密码分析师的任务是找出正确的添加剂。与此同时,所谓的书籍制作者试图通过结合语言和组合技巧来复制日本法典。

由于密码分析师只能获得有限数量的证据,即给定数量的拦截消息,他们所能希望的最好情况是对消息中最有可能的添加剂做出概率陈述。因此,(贝叶斯)统计特别适合解决这个问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

解密过程将从一组已知具有相同添加剂的截取消息(IV) 开始。这些信息被认为是“深入的”,人们会说是信息的“深度”。

将五位数的密码相互比较,并记录结果(总是选择低于 5555 的数字)。这一过程背后的逻辑是,通过计算编码信息之间的差异,潜在的添加剂将会相互抵消。
盟军已经知道了日本的部分密码,许多密码组也是已知的。这些被称为**“好组”**,并与它们的(非携带)差异 (V) 一起被列表。如果已知 50 组,则必须计算并记录 1225 个差异。

密码分析人员会比较从截获的信息和来自好的群体的信息中计算出来的差异。如果找到一个匹配项(在我们的例子中是 22571,用红色显示),就会计算一个假设的附加项(用绿色显示)。

最后也是最重要的任务是测试这个假设的添加剂的有效性。作为第一步,在每个消息 (VI) 中,从其相应的编码字中减去添加剂。如果产生的代码(显示为蓝色)违反了“可被 3 整除”的规则,这个附加项可以很快被丢弃,为盟军节省了大量时间。通常,多种潜在添加剂将通过该测试,因此使用统计分析来确定它们的相对强度。
作为真实添加剂的证据,密码分析员将在上述测试中使用任何其他良好组的存在。数学结果是这样的:

让我们用𝐴来表示加法成立的事件,用𝐴来表示加法不成立的事件。我们想要确定在添加剂被加入𝑃(𝐴|𝐷).后给定好组的数据的后验概率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们只对比值比(真与假)感兴趣,分母中的边际𝑃(𝐷就会抵消:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在没有任何关于 a 的概率的先验知识的情况下,人们总是可以使用一个给两个事件分配相等概率的先验,即𝑃(𝐴)=0.5.等式的最后一项。从而抵消,剩下的是确定似然比,这是很容易获得的。(请注意,如果我们有任何理由相信我们正在处理一个正确的添加剂,基于证据而不是良好群体的存在,我们总是可以修改先验以反映这一信念。)

作为例子,让我们考虑可以在消息 2 中恢复的好组 32151。如果 98213 是不是真加法,那么 32151 只是一个随机的五位数。这个数字出现的概率是 1/10⁵,但是,由于这个数字需要检查“被 3 整除”的规则,我们得到了𝑃(32151| 𝐴)=3/10⁵.

如果 98213 是一个真正的添加剂,那么𝑝(32151|𝐴的可能性是由 32151(“车队”)的相对出现频率给出的。当然,像“船”或“天气”这样的词比其他像“攻击”这样的词出现得更频繁。这需要在正确的统计处理中加以考虑,因为更频繁的术语为假设增加了更多的证据。为了这个例子,让我们假设每第 80 个截取的单词是“Ship ”,每第 250 个截取的单词是“Fleet ”,那么添加剂 98213 的总证据将被计算为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从技术上来说,未包含在良好组列表中的代码也为上面的产品添加了因素。然而,由于这些因素仅略小于 1,为了节省时间,可以安全地忽略它们。

作为最后一个简化技巧,可能性将被转换成它们的对数值,用简单的加法代替复杂的乘法。每个好的组的对数似然性将被预先制成表格,这样工作人员可以简单地查找数值,测试添加剂的过程也可以被简化。这一程序的主要优势之一是,测试添加剂的劳动密集型和重复性任务可以外包给数学知识有限的员工。专家意见只需要在边缘案例或非常重要的信息中被参考。

结论

我希望我能够对贝叶斯推理有所启发,并展示它是如何在布莱奇利公园被用来破译 JN 25 的。如果你想知道更多关于这个话题的信息,请点击这里查看爱德华·辛普森的文章。请继续关注第二部分,我将剖析德国之谜的内部运作,并讨论贝叶斯定理是如何帮助破解它的。

参考

[1]https://en.wikipedia.org/wiki/Frequentist_probability

[2]https://en.wikipedia.org/wiki/Bayesian_probability

[3]爱德华·辛普森,贝氏在布莱奇利公园( 2010),英国皇家统计学会,http://math center . Oxford . emory . edu/site/math 117/Bayes theorem/enigma _ and _ Bayes _ theorem . pdf

[4]莎伦·伯奇·麦克格雷,《不会消亡的理论:贝氏法则如何破解恩尼格玛密码,追捕俄罗斯潜艇,并从两个世纪的争议中脱颖而出》,耶鲁大学出版社

BERT 如何确定搜索相关性

原文:https://towardsdatascience.com/how-bert-determines-search-relevance-2a67a1575ac4?source=collection_archive---------16-----------------------

了解 BERT 的局限性和偏见将有助于您更好地理解 BERT 和 Search 如何看待世界和您的内容。

2019 年 10 月 25 日,谷歌搜索副总裁潘杜·纳亚克宣布:

通过将 BERT 模型应用于搜索中的排名和特色片段,我们能够更好地帮助您找到有用的信息。事实上,当涉及到排名结果时,BERT 将帮助搜索更好地理解美国十分之一的英语搜索,我们将随着时间的推移将这一功能扩展到更多的语言和地区。[ 1

谷歌的言论和解释提出了一些关键问题:

  • BERT 比以前的搜索相关性工作好多少?
  • BERT 模型是如何创建的?它们是如何微调的?
  • BERT 模型的局限性和偏差是什么?
  • 这些偏见会如何影响伯特对网页内容的看法?
  • 一个人可以使用 BERT 来确定她的内容对于特定查询的表现吗?
  • 如何对查询和可能的目标页面“应用 BERT 模型”来得出排名?

BERT 比以前的搜索相关性工作好多少?

2015 年,Crowdflower(现在的阿彭←Figure-Eight←Crowdflower)举办了一场 Kaggle 比赛[ 2 ,数据科学家建立模型,预测给定查询、产品名称和产品描述的搜索结果的相关性。获胜者 ChenglongChen 以 72.189% [ 3 ]的分数获得第一名,获得了 1 万美元的奖金。虽然比赛已经关闭了五年,但数据集仍然可用,Kaggle 比赛评分功能仍然适用于私人排行榜(它只是不奖励任何网站积分)。我拉了数据,微调了一个 BERT 分类模型,预测了一个提交,它的得分是 77.327% [ 4 ]。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

这一获奖结果,虽然晚了几年,却显示了 BERT 是如何戏剧性地超越了现有的技术水平。)机器学习模型投票选出最佳结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由陈[3])

相比之下,我的高分结果使用了一个 BERT 模型和一个相对简单的管道:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

对于我的第一个模型(也是最后一个模型),特征化是“只取前 505 个令牌”跨越三段数据(查询、产品标题、产品描述)——没有任何特殊处理——这些就是你看到的结果。在本文中,我们将在本文的后面讨论 BERT 如何以及为什么能够在糟糕和肮脏的输入下表现良好。

Kaggle Crowdflower 搜索相关性数据集有 20,571 个标记样本,生成提交需要对 22,513 个测试样本进行预测。虽然这是少量的数据,并且该领域仅限于电子商务产品 BERT base 没有对这些数据进行训练——但 BERT 分类器仍然能够以突破性的准确性开始学习和预测。

BERT 模型是如何创建的?它们是如何微调的?

BERT 是 Transformers [ 5 ]中双向编码器表示的首字母缩写,是一种语言模型。语言模型对单词和单词一起出现的对数概率进行编码。最初的 BERT 模型是通过在英语维基百科和多伦多图书语料库上接受训练来实现的。训练目标是下一句预测和掩蔽词预测。
下一句任务选择一些相邻的句子,给它们正的权重;然后选择一些随机的句子并给它们负的权重:通过这种方式,BERT 模型学会判断两个句子是否按顺序出现。许多人认为这给了 BERT 一个模型显示的自然语言理解(NLU)的基础。实际上,伯特似乎知道哪些单词和句子应该放在一起。
屏蔽单词任务随机隐藏一个单词,奖励伯特能够预测到缺失的单词。这项任务,加上网络辍学,让伯特学会从周围的单词中推断更大的上下文。在实践中,BERT 通常用作更复杂模型的基础层;例如,通常会添加一个附加的最终层,然后对该新层进行微调以充当分类器。

我不会在这里解释变压器模型的机制,在这里阅读它。最佳微调技术的细节仍在制定中(从发表的 Arxiv 论文数量来看),尽管超参数调整取决于您的数据,但进一步的探索肯定会有所收获。然而,在我们急于纠结于细节之前,让我们不要错过要点:当一个具有次优超参数调整的新模型大幅度击败先前的技术水平时,搜索引擎公司会采用它。完美是好的敌人。有时,新的足够好,如此之好,以至于公司立即将其作为战略优势,即使最佳微调机制尚未公开确定。

为了理解为什么 BERT 如此擅长预测搜索相关性,我们将不得不研究它的一些内在的,局限性和偏见。

BERT 模型的局限性和偏差是什么?

1.512 个单词的限制

BERT 基线模型最多接受 512 个令牌。虽然可以用更少的令牌构建 BERT 模型,例如 tweets 的 256 个令牌,或者从头开始定义和训练 BERT 模型,例如较大文档的 1024 个令牌,但几乎所有常用的 BERT 模型的基线都是 512 个。

如果您的页面超过 512 个单词,搜索引擎可能会:

  • 就拿前 512 个符号
    来说吧——如果你的页面在前 512 个符号中没有表达出它的观点,引擎可能甚至看不到它(可能已经是真的了)。
  • 通过摘要算法(TextRank,Deep Learning 等)或通过应用算法删除不重要的单词和句子,将页面内容减少到 512 个标记以下——但这些计算成本很高,所以大多数页面可能不会这样做。

注意:虽然我们说 512 个记号/单词,但实际上,BERT 通常会查看 505 个记号(假设一个 4 个单词的查询,需要 3 个 BERT 记号分隔符)。实际上,搜索算法考虑的内容的标记数量可能远远小于 505,我们将会看到。

2.不是所有的单词都是记号:很多常用单词变成了单个记号;但是更长的和不熟悉的单词被分解成子音。

一个很好的例子是,一些单词在英式英语和美式英语的拼法上有所不同。有时,子词标记化的代价可能相当高:

bert_tokenizer.tokenize(‘睡衣’),bert_tokenizer.tokenize(‘睡衣’)
[‘p ‘,’ ##y ‘,’ ##ja ‘,’ ##mas’],[‘睡衣’]

bert_tokenizer.tokenize(‘小胡子’),bert_tokenizer.tokenize(‘小胡子’)
[‘mo ‘,’ ##ust ‘,’ ##ache’],[‘小胡子’]

有时候,没有区别:

[‘颜色’],[‘颜色’]

但是通常不太熟悉的拼写会产生多个标记:

[‘aero ‘,’ ##plane’],[’ plane ‘]
[’ ars ‘,’ ##e’],[‘ass’]
[‘jem ‘,’ ##my’],[’ Jimmy ‘]【T2][’ orient ‘,’ ##ated’],[‘oriented’]
[‘special ‘,’ ##ity’],[‘specialty’]

很少,但有时,英国拼法变得符号化了,符号变少了:

[‘波特’],[‘放’,’ # #之三’]

3.明显的拼写错误隐含着惩罚:

bert_tokenizer.tokenize(‘反建制’)
[‘反’,‘-’,‘建制’]

bert_tokenizer.tokenize(‘反建制’)
[‘反’,‘-’,’ est ‘,’ ##ab ‘,’ ##lism ‘,’ ##ent’]

虽然这些处罚看起来令人震惊,但它们实际上表明伯特是多么宽容;该模型将试图理解你给它的任何东西,而不是丢弃拼写错误的单词或忽略它以前没有见过的东西。此外,这些偏见并不是针对英国语言拼写变化的阴谋,而是训练数据的副作用:BERT 模型及其 BERT 记号赋予器通常具有有限的词汇(通常为 30,000 个单词,包括子记号),这些词汇经过精心选择,因此几乎任何单词都可以被编码,许多最常见的单词都被提升为单独的记号。这个单词和令牌的流行度竞赛是基于原始训练数据的。最初的 BERT 模型是在英语维基百科和来自多伦多图书语料库(11,038 本书,47,004,228 个句子)的一些附加文本上训练的。显然,英式拼写在语料库中并不占主导地位。

如果您正在分析带有英式英语拼写变化的文档,那么在将它们输入到 BERT 模型之前,对拼写进行标准化可能是有益的。一个训练有素的模型可以概括出它以前没有见过的东西,或者只接受过部分训练,但是最好的模型性能发生在熟悉的数据上。

有了许多其他的语言模型和词向量,很容易识别这个词是否是新的,语言模型是否已经在其上训练过,这些类型的词有它们自己的术语:OOV,在词汇之外*。但是很难确定伯特是否从未见过一个单词或用它重复训练过,因为有太多的单词是由副发音分解的。但是这个小缺点是强大力量的来源:在实践中,BERT 可以根据历史和对相似邻近单词的理解来综合一个单词的意思。*

4.伯特会忽略一些项目。毫无疑问,伯特不知道表情符号。
-通常,BERT 将表情符号标记为未知(字面意思为“[UNK]”),如果这些表情符号在压缩页面时没有被丢弃,那么当模型看到它们时,它们不会增加任何价值。

toker.tokenize(‘😍 🐶❤️’)
[‘[未知]’,‘[未知]’,‘[未知]’]

这些偏见会如何影响伯特对网页内容的看法?

基本上,由于 BERT 模型接受有限数量的令牌(通常是< 505), if your page uses unusual words or uncommon spellings, your page content will be split into more tokens, and in effect, the BERT model will end up seeing less of your page than a similar page that uses more common words and popular spellings.

This does not mean that you should aim to create pages that exactly mimic the style of Wikipedia. For a long time, search engines have preferred articles with general appeal, using common words and standardized spellings, written more akin to the news or Wikipedia articles than an aimless wandering of verbiage. So in a sense, the use of BERT natively supports the best practices of writing content for search engines.

Why is BERT so good at predicting search results?

Fundamentally both of BERT’s training objectives work together: word masking helps BERT build a context for understanding, and the next sentence prediction, well, — isn’t the problem of content relevance often a matter of determining how well one search query “sentence” is paired with one search result “sentence”?

We have already seen how BERT has the ability to synthesize meaning from subword tokens and neighboring words. This skill gives BERT an advantage since 15% of search queries contain words that have never been seen before [ 1 )。BERT 是确定搜索相关性所需的未知术语含义的自然预测器。

一个人可以使用 BERT 来确定她的内容对于特定查询的表现吗?

总之,大概不会;为了理解其中的原因,让我们深入探讨如何使用 BERT 来评估查询和页面的匹配程度。在高层次上,为了回答这个问题,他们可能会选择一些页面进行检查,并针对这些页面运行您的查询来预测相关性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

大多数搜索查询不超过四个单词,大多数页面摘要不超过 505 个单词(否则就不算是摘要)。搜索相关性分数通常分为:1 .跑题了,2。好吧,三。很好,第四个。非常好。[ 2

当 ML 工程师建立一个模型来估计一个查询与搜索结果的匹配程度时,他们通常会对大约 100 万个例子进行训练。为什么这么多?深度学习模型需要大量的数据,才能很好地进行归纳,预测以前没有见过的东西。如果你试图建立一个通用的搜索引擎,你需要大量的数据。但是,如果您的搜索空间较小,例如只是电子商务技术,或者只是家居装修网站的产品等,那么只需几千个带标签的样本就可以击败之前的技术水平。不常用数据是搜索查询的常规组成部分:

这些查询中有 15%是我们以前从未见过的——谷歌搜索副总裁潘杜·纳亚克

几千个标记样本可以提供一些好的结果,当然,一百万个标记样本可能会提供很好的结果。

如何对一个查询和一个可能的目标页面“应用 BERT 模型”来得出排名?

Kaggle Crowdflower 竞争数据提供了一些有趣的线索,说明额外数据在实践中是如何被经常使用的。通常情况下,更多的功能(如果可用)会添加到模型中,以使其更加灵活,并能够跨一系列输入进行预测。
例如,之前我们将搜索排名问题公式化为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

但是在 Kaggle 提交查询数据中,额外的信息是可用的,或者有时是缺失的,因此特征将被格式化为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

在一些测试案例中,只提供了查询和产品标题,而在现实世界中,可能只提供了很少的页面内容,甚至没有。
例如,如果你的公司有一个“索尼 PS6 创始人版”的产品页面,该页面有动态内容,如最近的推文或购买者的推荐、用户图片等,搜索引擎很可能只使用页面标题(或关于页面的某种类型的元数据),而实际上不使用页面内容。教训很明显,当提供网页内容时,首先最重要的是关注准确反映你的产品和内容的相关信息。

BERT 将继续存在,它对搜索相关性的影响只会越来越大。任何向客户或内部客户提供搜索的公司都可以使用 BERT 来提高搜索结果的相关性。用很少的数据,一个 BERT 分类器就可以击败以前的技术水平,更多的数据将有助于产生更好的结果和更一致的性能。

参考

【1】https://blog . Google/products/Search/Search-Language-understand-BERT【2】Kaggle 众筹搜索结果相关性【3】陈龙臣众筹 Kaggle 【4】ML-You-Can-Use:搜索—搜索结果相关性使用

(感谢詹士对本文一稿的审阅和评论。)

大数据真的有那么大吗?

原文:https://towardsdatascience.com/how-big-is-big-data-7be51cdea64e?source=collection_archive---------49-----------------------

而且为什么一开始就叫大数据?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

evUnsplash 上的照片

“大数据”这个术语已经出现了一段时间,但在几乎所有情况下,我们都认为它指的是非常大的数据集。毕竟,它的名称中有“大”这个词,所以数据必须是大的,对吗?

大数据术语在 2012 年左右开始变得越来越受欢迎,直到 2014 年才真正实现飞跃。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“大数据”一词的谷歌趋势 -作者图片

它主要用于覆盖大公司不断增长的数据足迹。随着公司收集和处理更多种类和不同的数据,数据库和数据集市的旧语言实际上并不适合。因此,大数据和数据湖等术语的诞生将数据处理带入了未来。

那么,大数据的真正含义是什么?大数据工程师的工作角色和普通的数据工程师有区别吗?

我希望在这篇文章中阐明这些问题。

大数据有多大?

嗯,不一定要那么大。大数据用于描述不同于传统数据仓库的数据存储和处理解决方案。这通常是因为使用传统数据库需要存储和处理的数据量变得过于昂贵,但这不是唯一的原因。

大数据还包括非结构化数据处理和存储。公司现在可以收集和处理视频、图像和文档,而不是收集标准的表格数据,大数据解决方案需要考虑这一点。

这就是为什么数据湖这个术语变得如此流行,因为您将您的数据存储称为一个开放和变化的湖,而不是一个固定和结构化的仓库。

也就是说,大数据经常被用来描述大量的数据。

我们现在产生的数据几乎是 10 年前的 30 倍。

试图在传统的数据仓库中存储和分析如此大量的数据会花费太多的资金,并且需要太长的时间来返回结果。

这是因为传统的数据解决方案是为纵向扩展而构建的。我的意思是,你有一个数据库,如果你想要更多的存储空间,你可以增加更多的硬盘,如果你想要更多的能力,你可以提高 CPU 和 RAM。然而,有时添加更多并不能给你带来任何额外的好处,反而会变得过于昂贵。

大数据解决方案可以横向扩展。这意味着您的数据存储通常是一个服务器/数据库集群。如果您需要更多的存储或计算能力,您可以添加几乎无限多的服务器。

这听起来很简单,并且回避了一个问题*,为什么我们不用旧的数据库做这件事呢?*答案很简单,这需要改变数据处理方式。如果您将一个传统的数据库拆分到多台机器上,并且希望对一个表中的所有记录进行计数,那么当您的表现在分布在多台机器上,每台机器都给出不同的答案时,您如何得到这个数字呢?

这就是大数据解决方案所提供的。它们不仅提供了一种存储难以置信的大量数据的方法(见下面的 Google 文章),而且管理跨多个节点(服务器)的数据处理。

[## 谷歌的数据足迹会让你大吃一惊

说真的,他们有一大堆数据!

medium.com](https://medium.com/@lewisdgavin/googles-data-footprint-will-blow-your-mind-2237cf8e0d4)

简而言之,要回答大数据有多大的问题,这要视情况而定…它有多大就有多大。但是,只有当您能够应对这三个 V 时,它才真正成为大数据平台。体积、速度和变化。

大数据技术的例子

今天,我们可以使用如此多的大数据技术,因此我将在这里列出其中最有趣的故事。

  • Hadoop —一种大数据软件框架,包含多种技术,共同创建大数据解决方案。该框架允许跨多个服务器垂直存储和处理数据。
  • Apache Hive——Hive 是适合 Hadoop 框架的技术之一。它最初是由脸书开发的,允许分析师和工程师使用 SQL 来分析存储在他们的 Hadoop 集群中的数 Pb 的非结构化数据。
  • Apache Spark — Spark 可以在 Hadoop 或独立集群上运行。从 Hive 的缺陷中学习,它成为一个快速的内存数据处理解决方案,以提供更快的大规模分析。
  • Apache Kafka 由 LinkedIn 开发,Kafka 旨在将大量数据实时吸收到他们的数据湖中。Kafka 允许您横向扩展数据流和数据摄取,同时使其具有容错能力,因此不会丢失任何数据。

大数据工程师需要哪些技能?

在大数据技术兴起的早期,大数据工程师不仅需要 SQL 等数据处理技能,还需要编程经验。这是因为许多早期系统是由程序员构建的,然后才变得更加普遍,类似 SQL 的接口构建在上面。

如今,仍然需要将编程和 SQL 很好地结合起来,但是在某些情况下,您可能只需要 SQL 知识就可以了,特别是如果您了解集群和单节点数据处理之间的核心区别。

虽然在大多数情况下,你需要强大的技术背景,但我发现编程技能和数据处理技能一样重要。这是因为您经常构建和管理数据湖,这需要 DevOps 之类的技能集以及将这些技术集成在一起。

作为一名大数据工程师,您不仅要对数据执行 ETL 处理,还要从各种来源获取数据,包括网站、API、服务器和其他数据库。您可能还需要创建能够以毫秒级延迟接收、分析和存储结果的实时解决方案。所有这些任务都需要传统数据仓库模型之外的新技能。

最终,世界上的数据足迹只会越来越大,所以最终我们今天所说的大数据可能就是明天的小数据。它正在学习扩展以满足不断增长的需求,这造就了大数据,大数据。

“像我这样的初学数据科学家如何获得经验?”

原文:https://towardsdatascience.com/how-can-a-beginner-data-scientist-like-me-gain-experience-df2d4d718ad7?source=collection_archive---------5-----------------------

我学过一些课程,现在做什么?提示:摸摸炉子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一项被低估的技能。感谢山姆·伯克的照片。

Manuela 前几天给我发了一封电子邮件,问了我一个问题“像我这样的数据科学家初学者如何获得经验?”。

问得好。

它接着说,“我参加了一些课程,做了一些项目,但一些面试官说:‘我喜欢你的阵型,但你没有我们想要的最起码的经验,以后再来吧!’".

我回复了一些我正在复制到这篇文章的观点。

**免责声明:**我不是去找工作。所以你可能会问,“那么,我为什么要接受一个不去找工作的人的建议呢?”。

你这么问是对的。

永远不要相信那些没有亲身经历的人的建议。我的解释是,我没有找到适合我的工作,所以我创造了自己的(这可以是一篇独立的文章,事实上,我的建议是:不要找工作,而是创业)。

然而,如果我想得到一个角色(反过来,它需要的经验),我会这么做。

课程和经验差距

网络课程是商品(一个很普通的东西)。是的,我是作为一个教在线机器学习课程的人这么说的。

在线课程创造基础知识,从事你自己的项目创造特定的知识(无法教授的知识)。

所以我对 Manuela 的第一个问题是,当你说你完成了一些课程和项目时,有多少是你自己的项目,而不是你作为课程的一部分完成的项目?

以下是我对经验的定义:你独自(或与他人合作)尝试过但不知道结果的事情。

这里有一个例子。

你父母告诉你多少次炉子是热的?

我猜你是在被烧伤后才明白的。

听父母的话就相当于听教官给你上课。当然,你可以理解他们所说的,但是除非你亲自尝试,否则你不会真正理解。

所以获得经验(在真正开始一个角色之前)相当于摸炉子。

如果你像我一样,有课程证书和课程项目,正在寻找一种叫做经验的难以捉摸的东西,现在是时候开始问自己了:

我碰到炉子了吗?

在你拥有它之前开始工作

找出你想要的理想角色,然后开始行动。

如果这听起来很奇怪,把它作为你研究的一部分。如果你有能力学习数据科学技能,你就有能力弄清楚不同类型的角色需要什么。

我举一个具体的例子。

假设你在寻找自由职业者,但是所有的机会都需要经验。还有一个用于建立计算机视觉模型,以识别手术台上是否有医生的工具(这不是虚构的,我是从我被要求参与的一个实际项目中得出的)。

你读了角色任务,然后说,“哇,那太有意思了,我很乐意去做。”你继续读,看到“需要 3 年以上的经验”,然后想,“嗯,我没有 3 年以上的经验,所以我不打算申请。”然后用剩下的时间思考,“好吧,看来我对这些角色都不够好。”

我去过那里。而且是错误的思维过程。这是一个基于恐惧的决定,而不是基于成长的决定。你决定不申请,因为你害怕你的能力达不到要求。

事实是,许多角色涉及大量的动态计算(毕竟,这是数据科学中的科学或机器学习工程师中的工程师)。

那么你能做些什么呢?

你可以获取项目的工作描述,然后自己构建。花一周时间设计和计划你可能如何做,花四周时间实际做,然后花一周时间分享你学到的东西。

最坏的情况是,你已经花了 6 周的时间找出了什么没有用(对于一个特定的问题),最好的情况是,你现在有东西可以向别人展示你实际上做了什么(没有课程项目的有益指导)。

你可以这样说,“我看到了这个项目,并决定建立一个概念证明。”

对于医生的工具问题,你可以在互联网上搜索工具的不同图片,创建自己的数据集(人工与否无关紧要,重要的是弄清楚如何创建这样的东西),建立一个模型来检测工具是否丢失,然后使用 Streamlit 将你的概念证明部署到一个面向用户的应用程序中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个自我设计项目的例子。首先收集您自己的数据,以某种方式对其建模或分析,使用 Streamlit(或类似工具)构建一个用户可交互的界面,并通过 web 将其部署给用户。对于这种端到端的例子,看看我如何使用相同的步骤复制 Airbnb 的便利设施检测

如果未来的雇主不把这种主动性称为“经验”,你就不想在那里工作。

**补充说明:**当 Andrei(我的商业伙伴)和我为我们的机器学习课程(对 Shubhamai 大声喊出来)雇用一名教师助理时,我们雇用了那个已经在自己回答别人问题的学生。Shubhamai 在得到这份工作之前就开始了。

后续行动

另一个被忽略的点。永远不要把拒绝视为一劳永逸的事情。

正如引用的,一些面试官说,“你没有我们想要的经验,以后再来吧。”

换一个词吧,“你还没有我们要的的经验,以后再来吧。”

如果有人告诉你“你还没有经验”,你真诚地相信他们的话,去实践你的技能,也就是说,做一些像在你有工作之前就开始工作的事情,你应该继续跟进。

向他们展示你所做的工作(需要注意的是:这需要实际去做并提高你的技能)。

说,“嘿,根据我们上次的谈话,我想让你知道我一直在提高我的技能,这是我同时建立的。如果你有任何空缺,我很乐意被重新考虑。”

大部分忘记了后续。不仅仅是采访,而是任何事情。任何一种关系都可以通过某人采取额外的步骤来改善。

记住,生活中的很多结果都是非线性的。如果有人给我发了一封邮件,而我在几个月内忘记回复(邮件对我来说是福是祸),我可能永远不会回复。但是如果他们跟进并提醒我的懈怠(谢谢),我更有可能在接下来的 24 小时内回复。

这总是有用吗?

不,当然不是。但它显示出的主动性远远超过了只是浏览多个招聘信息。

了解某人

许多职位空缺甚至没有列出来。

我在一家科技公司的第一份(也是唯一一份)工作来自于一个人,他看到了我在 LinkedIn 上发布的内容,碰巧认识一个人,而这个人又认识一个可能有兴趣和我交谈的人。我最终遇到了这个人(对 Cam 大喊),他被证明是一个完整而绝对的活着的传奇,就我一直在做的事情进行了交谈,他问我下周是否愿意来一天,我做了,然后又一天,两天后,我得到了一个角色。

在这种情况下应该注意的是,我确实有基本技能,离世界一流还差得很远,但我不会走进那里,不知道什么是 pandas DataFrame,也不知道如何解决和查找堆栈溢出问题(是的,我每天花很多时间,甚至工作几个月都在研究和搜索东西,记住,工程师是“解决问题”的人)。

对我们未来的许多雇员(尤其是初级雇员)来说,他们是因为有人认识某人。

我是这样看的:求职门户已经死了。

他们可能对某些人有用,但对我来说,我假装他们没有。我告诉自己,通过那个按钮申请很容易,但更难的是找到我应该与之交谈的人,与他们交谈,向他们展示我一直在做的事情,接受他们的建议,听取他们的反馈,提高我的技能,跟进并展示他们,并有可能获得一份工作。然而,如果我通过招聘启事来申请,它会立刻被拒绝(也许不会,但我也是这么告诉自己的)。

当然,在一个理想的世界里(尽管可能不理想),公司会只雇佣有才能的人,但这不是人们的工作方式。人们喜欢和他们喜欢的人一起工作。

好吧,那你怎么去了解一个人呢?

如果你要走数字路线,保持简单。就像你给我发的邮件一样(正如你在上面看到的,Manuela 给我发了一封非常简洁明确的邮件)。又短又甜。直接提问。

我得到了 Airbnb 的面试,因为我在 LinkedIn 上发了一条招聘人员(做调研找到的)的消息。她在一天之内回复说,“嘿,丹尼尔,你明天有空吗?”。我没有得到这份工作,但我确信我比通过他们的招聘网站申请(我甚至没有申请)更接近了。

同样,这个过程也不能保证。

您可以向 100 个人发送消息,但没有收到回复。同样的,申请 100 份工作却没有得到任何机会。如果你的记分卡最终看起来像这样,把它作为反馈,你处理事情的方式可能需要改进。

数字是高效的,远程工作越来越成为一件事,但人们仍然喜欢与他们的身体互动(可能对我们这样的技术书呆子来说很惊讶),就像在同一个房间里一样。这意味着去参加活动(在社会条件允许的情况下),与人交谈,多走一步与 X 公司的 Dave 跟进(见上文),他告诉了你他过去几个月一直在做的项目。

我工作的科技公司每个月都会举办一次人工智能聚会。在我为他们工作之前,我去了一个聚会,不知道他们是谁,甚至不知道他们的存在,7 个月后,我在那里工作。

分享你的作品

这应该是清楚的,但如果不是,我会把它放在这里。

如果你的外出机会失败了,让他们来找你。

这要从创造东西并公开分享(完成与否)开始。

我在过去 3 年中拥有的所有最好的机会都来自于偶然发现我的工作的人(我从 2016 年开始在网上写作,从 2017 年开始写机器学习)。

是的,你应该有自己的博客,把它作为你的投资组合的中心枢纽,把其他社交媒体平台(你可以搞清楚这些)作为辐条。

想想吧。你是怎么学到东西的?你可能四处搜索,偶然发现了一篇关于这个主题的很棒的博客文章,并在自己的工作中使用了它。

你猜怎么着?

你可以成为一个有帮助的博客帖子的创建者。

这与上面的内容有联系。在你有工作之前就开始工作,分享你的工作(这是你的经验)。一旦你做了与之前被拒绝的工作相关的事情,继续说,“嘿,这是我做的。”

进一步阅读

现实一点,雇佣没有经验的人对任何公司来说都是一大风险。

因为很有可能,你会在短期内失去生意上的钱(当你学习和建立你的基本技能时)。所以你可以认为你的主要职责是降低风险。

怎么会?

以上几点足以作为开始。但是如果你有兴趣了解更多。以下资源会有所帮助。

  • 好到他们不能忽视你的加州纽波特(Cal Newport)——这几乎可以从标题上看出来。
  • 如何交流和分享你的作品——我写的一篇文章详细讨论了这几点。
  • 不要称自己为程序员——另一篇关于开始一个角色主题的伟大文章(如果你没有角色,你可能会把这篇文章理解为“嗯,这些与我无关”,但你应该把这些要点视为逆向工程,记住:在你有角色之前开始工作)。

有问题吗?如果你有任何进一步的问题,请留下你的回复或随时给我发电子邮件。

PS 我把这篇文章变成了一个视频(在每一点上重复多一点)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值