TowardsDataScience 博客中文翻译 2020(二百四十一)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

分析新冠肺炎趋势的开源代码——第一部分

原文:https://towardsdatascience.com/covid-19-trends-corona-virus-in-numbers-8725c25b636d?source=collection_archive---------40-----------------------

GitHub 和 Google 联合实验室使用约翰·霍普斯金大学的数据库跟踪新型冠状病毒传播的用例

我开发了一个 python 代码库,并将其发布在我的 GitHub 库中,使用由约翰·霍普斯金大学维护的数据库来呈现新型冠状病毒的传播。在本文中,我不提供任何预测模型,而是专注于以有意义的方式提供数据,旨在对新型冠状病毒感染如何在不同地理区域传播做出循证判断。尽管有明显的迹象表明官方数据被严重低估,但这个代码库旨在使新冠肺炎趋势的官方数据和分析工具包民主化。

[## 悉尼/新冠肺炎 _ 分析

使用约翰霍普金大学的数据库分析 2019 年新冠状病毒病例的代码库…

github.com](https://github.com/sidbannet/COVID-19_analysis)

这些数据在各个国家报告的新冠肺炎病例的地理散点图和时间序列图中呈现,以比较各个地理区域的传播率。此外,还特别关注美国的利差率。以坚持只回答“数据怎么说?”我的分析仅限于报告的病例。约翰·霍普斯金大学报告的新冠肺炎病例有三种类型,分别是 1) 确诊感染,2) 报告死亡,3) 报告康复

新冠肺炎教在世界各地传播的地理散点动画。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

地理散布图例

气泡的颜色代表3 天内感染人数增加的百分比,作为传播率的衡量标准*。*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

动画展示新冠肺炎确诊病例数。气泡的大小与确诊病例的数量成比例,气泡的颜色显示传播速度

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

动画展示新冠肺炎确诊病例数。气泡的大小与新冠肺炎的死亡人数成比例,气泡的颜色显示了传播速度

冠状病毒像任何传染病一样,最初以指数增长速度在给定人群中传播。这意味着每日新增感染病例与特定人群中的感染人数成正比。衡量新冠肺炎病毒传播速度的一个很好的指标是感染人数增加的天数。在本节中,受冠状病毒影响的人数使用时间序列图纵坐标中的对数标度表示。在横坐标图中,显示了前 500 例报告病例的天数。当病毒找不到新的感染者时,通常会达到饱和点,然后时间序列纵坐标会在对数范围内变平。

最上面的三个子图显示了每个国家的确诊病例(左)(中)和(右)的数据。底部的三个子图显示了美国各州的相同指标。这些图中仅显示了截至 2020 年 4 月 3 日确诊病例超过 10000 例的国家(韩国除外)和至少有 5000 例确诊病例的美国各州。**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自社区爆发开始至 2020 年 4 月 3 日的新冠肺炎趋势

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从 500 例到 1 万例确诊病例的天数

并非所有国家都遵循上述对数图中的相同轨迹。影响这些轨迹的因素是 a)检测的可用性,b)人口密度和 c)采取的政策措施。

澳洲比利时荷兰用了 16 到 18 天报告了 1 万例病例,而美国中国意大利德国西班牙用了 9 到 12 天的时间达到 1 万例确诊病例。美国土耳其显示在第 11 天左右报告的病例突然增加。这可能是由于冠状病毒检测活动的增加。加拿大比利时的病例还在不断出现。根据这些图,法国英国意大利德国将在大约 30-35 天内报告 10 万个病例。意大利的确诊病例轨迹已经显示出大约 40 天持平的充分证据。西班牙目前的传播率高于意大利,但也显示出传播率放缓的一些初步迹象。美国正走在一条不同于任何其他国家的轨道上,而且几乎没有迹象显示曲线变平。

到目前为止,德国、T42、瑞士、加拿大、澳大利亚在限制新冠肺炎死亡人数增长率方面做得非常好。另一方面,美国没有显示新冠肺炎死亡曲线减缓的证据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从最初的 500 例增加到 5000 例的天数

美国范围内,各州的传播率差异很大。纽约和新泽西的传播率最高,而华盛顿的传播率则截然不同。纽约用了 7 天时间报告了第一万个病例,而华盛顿从全州第一个 500 个病例的类似增长可能需要 25 天以上。在其他州中,加利福尼亚州佐治亚州得克萨斯州可以归为一类,它们在大约 16-18 天内报告了 1 万例病例。****

如何使用开源代码库来重新分析数据

求知欲强的观众可以使用 谷歌 平台重新分析和绘制本文中的人物,代码也发表在 GitHub gist 上。

使用谷歌合作实验室的新笔记本,人们可以克隆代码库

  • 克隆代码和数据仓库
  • 设置环境
***# Clone repository* 
!git clone https://github.com/sidbannet/COVID-19_analysis.git 
%cd ./COVID-19_analysis
!git submodule init
!git submodule update --remote**

加载分析和绘图所需的包。

  • 分析工具
  • 绘图工具
***# Import necessary modules*
**from** **tools** **import** collection **as** cll
**import** **plotly.tools** **as** **tls**
**from** **plotly.offline** **import** iplot
**import** **plotly.express** **as** **px****

解析数据库中的数据

  • 设置包含数据和解析数据的方法的类
  • 解析数据
***# Setup data class and parse the database*
d = cll.DataClass()
d.parse()**

制作时间序列图

绘制每个国家和每个美国州的新冠肺炎时间序列数据

  • 确诊病例数
  • COVID 的死亡人数
  • 从 COVID 中恢复的数量

以对数标度绘制这些变量,以突出自首次爆发以来疫情相对于天数的指数增长。

***# Make some meaningful timeseries plots* 
fig, ax = d.plots_timeseries(
   n_outbreak=500, n_filter_country=10000, n_filter_state=5000) fig.set_size_inches(w=24, h=12) 
_ = [axes.set_ylim([10, 50000]) **for** axes **in** ax[:, 1].flat] 
_ = ax[0, 0].set_xlim([0, 40]) 
_ = ax[0, 0].get_legend().remove() 
_ = ax[0, 1].get_legend().remove() 
_ = ax[1, 0].get_legend().remove() 
_ = ax[1, 1].get_legend().remove()**

地理分散动画,以可视化新冠肺炎的趋势

在下面这张geoscatter动画图像中,气泡的大小代表了报道的新冠肺炎病例数。气泡的颜色代表病例数的每日增长率。动画帧表示从 2020 年 1 月 22 日开始的日期。

***# Data frame customized for plotly express geo-scatter*
df_global = d.df_global.copy()
date_time = [str(date) **for** date **in** df_global.date]
date_str = [str.split(date, ' ')[0] **for** date **in** date_time]
df_global['Date'] = date_str*# Geo scatter of confirmed cases*
fig = px.scatter_geo(df_global, locations="iso_alpha", color="rate",
                     color_continuous_scale='jet', range_color=[1.0, 2.0],
                     hover_name="country", size="confirmed",
                     animation_frame="Date",
                     title='Confirmed case',
                     size_max=int(80),
                     width=2000, height=1000,
                     projection="natural earth")
fig.show()*# Geo scatter of deaths*
fig = px.scatter_geo(df_global, locations="iso_alpha", color="rate",
                     color_continuous_scale='jet', range_color=[1.0, 2.0],
                     hover_name="country", size="death",
                     animation_frame="Date",
                     title='Deaths',
                     size_max=int(80),
                     width=2000, height=1000,
                     projection="natural earth")
fig.show()**

— —直到下次

新冠肺炎疫苗和治疗时间表

原文:https://towardsdatascience.com/covid-19-vaccine-treatment-timeline-9051a1b71863?source=collection_archive---------34-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第 3、4 期新冠肺炎干预临床试验时间表。数据来自 ClinicalTrials.gov。

可视化所有新冠肺炎介入临床研究的完整时间表。

什么时候事情会最终恢复正常?我们都见过许多模拟“拉平曲线”的模型和新冠肺炎的投影。现在让我们来看一个预示新冠肺炎末日的模型。在这篇文章中,我们将介绍新冠肺炎目前的干预措施,包括治疗和疫苗。我们将在一个全面的时间表中很好地将这些放在一起。最后,我们将简要探讨目前临床试验中的治疗方法的相似之处。

从美国国立卫生研究院(NIH)的临床试验网站上,我们可以看到数百个正在进行的与治疗新冠肺炎相关的临床试验。我们想特别关注介入性临床试验。介入性研究包括疫苗、药物和疗法。从这些干预性研究中,我们希望将重点放在最近的研究上,并将有一个合理的最终完成日期,所以让我们专注于 2019 年至 2025 年之间的研究。

从 NIH 临床试验网站上,我们正在寻找的相关数据包括研究的标题、干预的类型、干预的组成部分以及干预的预计完成日期。首先,让我们看看什么类型的干预措施目前正在试验中!这第一个饼图显示了不同类型的新冠肺炎干预,从药物到生物制剂到诊断(等等)。

临床试验中新冠肺炎的干预类别。符合该类别的病历报告数量显示在饼图中。“其他”被列为 ClinicalTrials.gov 的一个类别。数据来自 ClinicalTrials.gov。

很明显,大多数临床试验是针对药物和生物制剂的。很好!这意味着有许多临床试验在寻找疫苗或治疗方法。

现在的问题是在这些干预措施中使用了什么成分。我们能否发现一个统一的趋势,并对哪些药物可能成功对抗新冠肺炎做出推论?

要回答这个问题,每个临床试验都必须列出方案中描述的干预措施的组成部分。使用一系列自动请求来获取相关的组件信息。这些成分然后被浓缩和匹配,并且在下面,我们使用一个饼图来显示在至少 3 次试验中包含的成分。

临床试验中新冠肺炎治疗的干预成分。符合该类别的病历报告数量显示在饼图中。数据来自 ClinicalTrials.gov。

似乎目前大多数治疗都着眼于羟氯喹和洛匹那韦-利托那韦。专利药物,如 Gilead 的 Remdesivir,出现的次数不多,因此没有在可视化中列出。值得一提的是,这种可视化包括仅仅评估这些药物安全性的研究(不仅仅局限于 3、4 期)。尽管如此,在作品中看到不同类型的治疗还是很有趣的。

酷!羟氯喹和其他药物的疗效将在许多临床试验中进行严格评估。现在我们会问,这些药物多快能上市?

要回答这个问题,每个临床试验必须包含其研究开始日期、主要完成日期和研究完成日期。研究开始日期是指研究正式开始的日期。主要完成是指研究人员估计他们可以做出主要结果结论的日期(即这种治疗安全吗?这种治疗有效吗?)而研究完成日期是指研究人员估计他们可以做出主要、次要和不利结论的日期(即这种治疗有效吗?这种治疗会造成长期的不良影响吗?).临床试验有 4 个阶段,后期阶段(3,4)测试干预的临床效果。下面,我们将主要关注 3 期和 4 期临床试验。

3-4 期干预的临床试验时间表

第 3、4 期新冠肺炎干预临床试验时间表。将鼠标悬停在各点上,查看相应的研究。数据来自 ClinicalTrials.gov。

该图中绘制的信息与顶部第一个图中绘制的数据相同。它是专门针对 3 期和 4 期临床试验的,因为它们是部署准备最充分的。这一总体数字(不受阶段限制)也在下面的补充部分以互动形式呈现。

从 2020 年 2 月 1 日开始到 2020 年 4 月 18 日结束的鲑鱼色阴影框代表了第一次广泛注意到新冠肺炎和这一可视化的(当前)日期。3 个气泡(有时 2 个)代表研究开始日期、主要完成日期(如果包括)和研究完成日期。大多数研究都是在这个范围内开始的。

在这个跟踪器中,我们可以专门跟踪临床试验的阶段,以及跟踪它们的预计结束日期。我们可以在下面的柱状图中看到这些最终研究完成日期的分布。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎干预研究完成日期柱状图。数据来自 ClinicalTrials.gov。

该直方图显示了与新冠肺炎相关的所有介入性临床试验的预计最终研究完成日期。似乎大多数审判将在 2020 年末和 2021 年初结束。很有可能,我们可以期待一种安全有效的疫苗在 2021 年的某个时候向公众提供。

结论

在我们拥有安全、方便、有效的疫苗和治疗方法之前,我们应该期待社会距离仍然是常态。根据相关 3 期和 4 期临床试验的完成日期,这可能会在 2021 年初的某个时候发生。特别是因为我们都试图在这个时候拉平曲线,在疫苗出来之前过早地开放这个国家将对公共卫生产生重大影响。请记住这一点:目前还没有治愈或预防新冠肺炎的方法。尽管临床试验管道中的新干预措施看起来很有希望,例如 Moderna 的新型 mRNA 方法和 Gilead 的 Remdesivir,但这些公司都不会在今年晚些时候结束临床研究。现在,我们比以往任何时候都更需要维护强有力的社区标准,照顾那些受病毒影响最严重的人,并记住这一切都会过去的。正是在这些不确定的时期,我们作为一个社区的纽带受到了考验,我们将比以前更加强大。

在此之前,我们将继续关注这些治疗的进展!

补充材料和方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

生物制品干预临床试验时间表。数据来自 ClinicalTrials.gov。

互动版第 3、4 期干预措施:【https://plotly.com/~nathan2wong/28/#/

【所有干预的互动版:https://plotly.com/~nathan2wong/7/#/

仅生物制品互动版(更多疫苗):https://plotly.com/~nathan2wong/5/

方法:

  • API 请求获取所有临床试验数据的 XML,使用嵌套循环获取具体的试验信息,包括干预和完成日期。
  • 将响应格式化为 JSON,用 BeautifulSoup、Regex、Datetime 和其他过程解析响应。
  • 熊猫保存不同临床试验的记录。
  • 可视化与 Matplotlib,Seaborn,Plotly。

接下来的步骤

  • 对世卫组织临床试验数据库执行相同的可视化。
  • 每天刷新以获取更新
  • 跟踪单个临床研究的进展

数据:https://clinicaltrials.gov

可根据要求提供代码。请将所有信件寄至:berkeley.edu 的 nathanwong。

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

最后更新*:2020 年 4 月 18 日。*

新冠肺炎:我们对非药物干预了解多少?

原文:https://towardsdatascience.com/covid-19-what-do-we-know-about-non-pharmaceutical-interventions-ba5c9f4150bb?source=collection_archive---------62-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Giang (GiGi) Nguyen。详细分析可以在我的 Github Repo 或者 Kaggle 笔记本上找到

上面的预测是由 SEIR 模型产生的,该模型估计,鉴于干预,新冠肺炎感染从 4 月 10 日开始下降,并可能在美国超过 100 万确诊病例时达到峰值。该模型将在本文稍后详细讨论。

免责声明 :本分析的目标是提供有关新冠肺炎传播的数据信息。建议基于我的数据探索和个人观点。因此,预测仅作为参考,不应作为未来事件的最终验证。 关于新冠肺炎的任何健康相关问题都应咨询您的医生和医疗保健提供者。

通过早期的《接触者追踪、广泛检测和隔离法》,韩国在实施后 1 个月内就将传播率控制在了医疗保健能力之下。该病例与中国有相似的模式,中国在早期通过全面封锁武汉抑制了疫情的增长,当时每天约有 100 多例确诊的新病例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Giang (GiGi) Nguyen。详细分析可以在我的 Github Repo 或者 Kaggle 笔记本上找到

尽管一些国家的形势已经稳定,但其他国家的形势仍在上升。在缺乏新型冠状病毒疫苗的情况下,我们正试图利用其他非药物因素来抑制病毒的传播,并将其保持在医疗保健能力之下。

在这篇文章中,我将评估 3 个主要话题:

  • 关于传播、潜伏期和环境稳定性,我们知道些什么?例:各地区气温、湿度、风速数据。
  • 我们对新冠肺炎风险因素了解多少?例如:一个国家吸烟人口的百分比或病人的重症监护室床位数。
  • 我们对非药物干预了解多少?隔离、取消大型集会、大范围检测、追踪接触者等。

背景

为了加入抗击新冠肺炎的行列,我参加了由 Kaggle 发起的为期 4 周的新冠肺炎预测挑战。

虽然挑战包括预测确诊病例和死亡人数,但主要目标不仅仅是做出准确的预测。在这个项目中,我的首要任务是确定似乎影响新冠肺炎病毒传播率的关键因素,这些因素最终可以作为参考,帮助医疗和政府机构做好准备,并随着疫情的发展做出调整。

数据

约翰·霍普金斯大学系统科学与工程中心(JHU·CSSE)提供并每天更新 Kaggle 竞赛数据。train 数据包含 1 月 21 日至 4 月 17 日全球 184 个国家的新冠肺炎确诊病例和死亡病例的累计数。出于预测目的,可从 4 月 2 日至 5 月 14 日获取测试数据。

除了原始数据集,我还利用了来自不同 Kagglers 贡献的多个开源数据,包括但不限于天气、人口统计、干预和关于疫情的测试数据集。

分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Giang (GiGi) Nguyen。详细分析可以在我的 Github 回购或者 Kaggle 笔记本上找到

目前,全球约有 250 万感染病例,其中 32%主要在美国

天气

下面是一个互动图表。随意点击“播放”或拖动时间线栏,查看感染病例的数量如何随着湿度水平的变化而变化。

来源:Giang (GiGi) Nguyen。详细分析可以在我的 Github Repo 或者 Kaggle 笔记本上找到

:颜色代表湿度水平,圆圈大小显示新冠肺炎病例数。

天气有不同的组成部分:温度(华氏)、风速、降水、气压、湿度和日照时间(每个地区太阳照射地球表面的持续时间)。应用多元线性回归模型,我想了解哪些变量与病毒的传播率显著相关。

我的初步发现表明,温度、风速和湿度与全球感染病例数显著相关。特别是,当湿度增加时,确诊病例的数量会减少,而温度和风速则显示出相反的结果。

然而,效果因地区而异。以西班牙为例:虽然湿度似乎没有显著影响(p > 0.05),但较高的温度与新冠肺炎病例的下降密切相关。当风速与感染病例的减少显著相关时,美国也是一个特例。

虽然我们了解天气因素与病毒传播之间的相关性,但这些变量在相隔几英里的情况下可能非常多样。因此,调查其他潜在因素至关重要。

人口统计和风险因素

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Giang (GiGi) Nguyen。详细分析可以在我的 Github Repo 或者 Kaggle 笔记本上找到

韩国和德国是每千人 ICU 床位数最高的两个国家之一。因此,与确诊病例数量相当的同行相比,他们的死亡率最低(2-3%)。

在分析之前,我假设有足够数量的 ICU(重症监护病房)床位,我们可以挽救更多情况危急的新冠肺炎患者。结果证实了我的假设。

当我们增加 ICU 病床数量时,死亡人数在统计学上显著下降。

为了检验人口统计学和风险因素与冠状病毒致死病例之间的相关性,我再次应用了多线性回归模型。当我们增加 ICU 病床数量时,死亡人数有统计学意义上的显著下降 (p < 0.05)。相反,一个国家的中位年龄越高,致命风险的趋势越高。该模型反映了现实生活中的情况,因为意大利是中位年龄最高的国家之一(~45 岁),并且该国迄今为止冠状病毒死亡率最高(~13%)。

而吸烟或有潜在健康问题(肺癌等)的人口数量。)未显示死亡率的统计显著结果,应进行进一步的科学调查。

广泛的检测显示对抑制新冠肺炎的传播有显著的积极影响。

此外,广泛的检测显示对抑制新冠肺炎的传播有显著的积极影响,因为检测次数的激增与传播次数密切相关。如果我们能够扩大家庭检测试剂盒的规模,让更多的家庭可以使用,更多的人可以在家里立即进行分类,降低传染的风险,并最终成为更准确的接触者追踪的基础。证明这一点的最佳案例是韩国,该国在第一天就引入了广泛的测试。

城市人口密度也被发现显著影响新冠肺炎传播。城市越拥挤,确诊病例越多。这确实反映了美国人口众多的州(纽约、马萨诸塞州、加利福尼亚州等)的情况。)报告的冠状病毒病例最多。

虽然我们理解足够数量的 ICU 病床、呼吸机和个人防护设备的积极影响将挽救更多新冠肺炎患者的生命,但我们迫切需要评估非药物干预在抑制传播率方面的潜在作用。

非药物干预

如果我们仔细观察中国和韩国在一段时间内的感染病例,它们实际上遵循逻辑曲线。尽管传输速率呈指数增长,但是,在某个被称为拐点(传播的中点)的点上,传输速率会减慢。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: 3Blue1Brown 通过 Youtube

在这篇文章中,我不会详细讨论逻辑曲线背后的数学原理,但基本上,我会计算疫情的增长因子,以深入了解哪些国家可能已经到达拐点。增长因子可以通过第 N 天的病例数变化与 (N-1) 天的病例数变化之比来计算。例如,如果一个国家的增长因子稳定在 1.00 左右,那么这可能是该国已经到达拐点的迹象。

这让我们想到了流行病学中的房室模型之一——SEIR 模型,代表易感+暴露+传染性+康复:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:维基百科 SEIR 模型

对于 2003 年爆发的 SARS,患者只需 2-7 天就能出现症状。这就是我们能够更快采取行动抑制疾病传播的原因。然而,这种新型冠状病毒需要长达 14 天的时间才能出现明显的症状——这是一颗定时炸弹,后果要严重得多。

在 SEIR 模型中,这段时间被称为潜伏期。基本上,它是指个体已经被感染,但他们自己还没有传染性的这段时间。这发生在隔间 E (对于暴露)。

以下是该模型的细分:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:流行病计算器作者 Gabriel Goh

在求解模型之前,我将假设有一些干预会导致再生数(R0)减少(,如更多的 ICU 床位、呼吸机或隔离、广泛检测、接触者追踪、疫苗等。)。

出于分析的目的,干预期被设置为 60 天,预测期是从训练日(4 月 17 日)起提前 300 天进行预测。注意,这些时间点是我的假设;因此,它们不是固定的,而是可以被灵活地修改以检查不同的场景。

在求解上述微分方程后,我们将对每个国家拟合 SEIR 模型,以预测感染率,在那里感染率将达到拐点和平台。(特别感谢 潘善品 为本代码奠定基础)

让我们先来看看美国受影响最大的州——纽约州:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Giang (GiGi) Nguyen。详细分析可以在我的 Github 回购或者 Kaggle 笔记本上找到

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Giang (GiGi) Nguyen。详细分析可以在我的 Github Repo 或者 Kaggle 笔记本上找到

好消息!我的模型预测,美国已经在 4 月 10 日左右达到拐点,并将很快持平。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Giang (GiGi) Nguyen。详细分析可以在我的 Github Repo 或者 Kaggle 笔记本上找到

西班牙的模式与此类似,预计将在 4 月 19 日达到反射点,并在变得更加稳定之前达到最多约 50 万+感染病例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Giang (GiGi) Nguyen。详细分析可以在我的 Github Repo 或者 Kaggle 笔记本上找到

然而,意大利预计要到 7 月 14 日才会达到拐点,这距离现在还有 3 个月。这可能是因为它们的生长因子每天都呈指数增长。

除了 SEIR 模型,我还尝试了随机森林和贝叶斯岭模型对天气和人口数据进行预测。然而,首要目标同样不仅仅是准确的预报,而是确定新冠肺炎传播的关键指标,这些指标最终可以作为抑制疫情的参考。

结束语

在#AtHome 自我隔离期间学习新东西(流行病学的分室模型、疫情的指标等)是一次非常有益的经历。),在与我以前所做的完全不同的领域进行分析,并(潜在地)提供一些有意义的见解,以帮助我们共同抗击疫情。

总之,我希望你保持安全和健康,洗手,戴口罩和#StayHome 来帮助我们在前线的医疗英雄!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: Siouxsie Wiles 通过分拆

链接到我的 Github Repo

[## giging HN/covid 19-非药物

白宫科技政策办公室(OSTP)召集了一个联合研究小组和…

github.com](https://github.com/giginghn/covid19-non-pharmaceutical/blob/master/README.md)

进一步阅读

新冠肺炎-我们对越南的情况了解多少?

原文:https://towardsdatascience.com/covid-19-what-do-we-know-about-the-situation-in-vietnam-82c195163d7e?source=collection_archive---------15-----------------------

深入研究越战新冠肺炎患者数据

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

根据约翰霍普金斯大学的数据,目前全球已有超过 340 万例新冠肺炎确诊病例,至少 239622 人死亡,分布在 212 个国家和地区(2020 年 5 月 2 日更新)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图一。新冠肺炎确诊病例在各个国家和地区的分布。**资料来源:Tran Nguyen。详细分析可以在我的 Kaggle 笔记本或者我的 Github 上找到。

确诊病例和死亡人数呈指数上升,在许多国家达到了严峻的里程碑。与此同时,越南目前总共只有270 例新冠肺炎确诊病例,无死亡病例。现在,越南已经连续 16 天没有本地传播的新病例,连续 8 天没有新病例。这给我们留下了许多问题要问。

越南发生了什么?

  • 越南官员报告的新冠肺炎病例数是否被低估了?测试在越南进行得好吗?
  • 越南政府是否隐瞒了当地新冠肺炎疫情的范围?如果不是,那么在如此“真实”的低病例数和无死亡的情况下,越南是如何控制病毒的?
  • 我们对越战新冠肺炎患者了解多少?这些病人有什么特征可以帮助降低越南的感染率吗?

作为一名具有分子生物学和生物信息学背景的数据分析师,我过去也在 PCR/qPCR(用于新冠肺炎的标准检测方法)方面做了很多工作(实验),自从世卫组织宣布 2019 年 12 月武汉爆发一小批未知肺炎以来,我就对新冠肺炎感兴趣。当疫情沿着自己的路线跨越国界时,我对许多主题的兴趣越来越大:测试(测试,以及更多的测试)、早期测试和接触者追踪、流行病监测、新型冠状病毒基因组、患者症状、疫苗开发等。我住在湾区(美国加利福尼亚州),经常在清晨阅读/观看世界各地的冠状病毒实时更新/简报,因此我非常熟悉新冠肺炎的情况和许多国家为控制疫情而采取的措施。越南的低病例数给我们大家提出了许多问题。因此,我决定收集数据,并利用互联网上所有可用的信息进行独立研究。

具有讽刺意味的是,越南医疗保健系统的一个重要特点是隐私法不像美国、加拿大或欧洲那样严格。因此,越南的新冠肺炎患者数据是公开的。在某些情况下,他们的地址、姓名、个人联系方式、日常活动和习惯(例如,在市场上的哪个商店买东西)都是细节。

在本文的其余部分,我将向您展示越南新冠肺炎患者数据集,并逐步回答上面的一些问题。(测试和接触者追踪——隔离值得拥有自己的注释,即将推出)。

**免责声明 **

  • 这是我的个人作品,与任何机构都没有关系。虽然这个分析是数据驱动的,但我的评论反映了我的个人观点。
  • 我的结果基于从越南卫生部网站和越南主流媒体收集的数据。这些数据可能有偏差,反映的是互联网上公开的信息。然而,对于那些对越南新冠肺炎疫情感兴趣的人来说,它可以作为一个很好的参考。(老实说,到目前为止,我对任何有关越战新冠肺炎·疫情的报道的范围都不满意,所以我决定自己做一个)。

数据

我们学到了什么?

1。新冠肺炎疫情在越南的增长速度比大多数国家都慢,到目前为止还没有死亡病例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图二。新冠肺炎确诊病例在一些国家的增长速度有多快 (Y 轴是对数刻度,但为了便于解释,标签保持为实数(100-100 万例))。与其他国家相比,越南的新冠肺炎确诊病例数量一直较低。来源:Tran Nguyen。详细分析可以在我的 Kaggle 笔记本上找到。

越南与中国接壤,于 2020 年 1 月 23 日报告了首例新冠肺炎确诊病例,与韩国(1 月 20 日)、美国(1 月 21 日)、英国(1 月 31 日)几乎同时。从那时起,每个国家都有自己的控制疫情的具体策略。大多数国家现在已经从遏制范式(早期追踪、隔离传染源)转向严重缓解范式(减少传播的策略)。虽然失去了一些 F0 病例,但越南仍然安全地保持在遏制阶段。

随着活跃病例(目前住院的新冠肺炎患者)数量显著减少,曲线变得平缓(图 3)。请注意,在越南,所有的新冠肺炎患者,包括无症状的病例,都住院了。相比之下,在美国,无症状病例或症状轻微的人被建议呆在家里,除非接受医疗护理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 3。越南新冠肺炎确诊病例的增长速度有多快。**活跃病例包括无症状患者和“再感染”病例。

在整个疫情期间,每日病例数一直保持在个位数的低水平,在高峰期,每日病例数低于 20 例(见图 4 中的每日病例图)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图四。越南新冠肺炎疫情可以用两个不同的波来描述:**第一波(2020 年 1 月 23 日至 2 月 16 日)和第二波(2020 年 3 月 6 日至 4 月下旬)。在每日的新新冠肺炎病例中,输入性病例的数量仍然占主导地位。

有趣的是,新冠肺炎输入和本地传播病例的增长率有相同的趋势,这两者加起来就是总确诊病例。此外,输入病例的数量仍然大于本地传播病例。这一趋势表明,随着时间的推移,越南一直能够控制疫情:本地病例从未超过输入病例。

2.越南从欧洲和美国获得的新冠肺炎输入病例多于从中国获得的病例

注意:疾病无国界,这种新型冠状病毒也是如此。因此,这种分析是模棱两可的,只能作为参考意见。

越南的新冠肺炎疫情可以用两种不同的波浪来描述。(越南新冠肺炎疫情的全貌,包括确诊病例、时间表、患者概况、传染源、主要感染群等。可在本笔记中找到。

  • 第一波来自中国的输入病例最多。唯一从美国输入的病例(如图所示)来自患者 BN7。该患者可能是来自中国的传播病例,因为该病例报告得非常早(2020 年 2 月 2 日),并且该患者在从美国到越南的途中确实在中国武汉中转了 2 小时。
  • 第二次浪潮始于许多来自欧洲(主要来自英国)的病例。

这一趋势与美国的情况非常一致(美国从欧洲获得的新冠肺炎病例多于从中国获得的病例

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**图 5。越南新冠肺炎输入病例的传染源。*此分析的注意事项:**国家列表可能被低估,因为一些患者可能在回到越南之前去过许多国家,但没有报告。他们也在不同的地方过境,可能在这些短暂的过境期间被感染。(例如,患者 BN7 可能是在中国武汉转机 2 小时时被感染的)。在这项分析中,包括过境国在内的所有国家都包括在内。

有想过吗?

请记住,这份报告可能会有偏见,原因如下:为了对传染源有一个概括的看法,在这项分析中,包括“过境”国家在内的所有国家都包括在内。许多国家可能在传染源列表中占据主导地位,因为它们是主要的国际旅行枢纽 患者中转地,如英国、俄罗斯、阿联酋等

在这份传染源名单中(图 5),英国主要与 54 例确诊病例有关(占输入病例的 27%),几乎是第二大传染源法国的 3 倍,与 19 例病例有关。这一事实背后的原因不仅仅是因为英国是繁忙的国际旅游中心之一。但是,它表明,自疫情爆发初期以来,英国新冠肺炎病例的实际数量可能要高得多。英国因其对冠状病毒的反应而受到批评。当时没有采取适当而迅速的措施:没有隔离,没有旅行禁令,……请注意,越南的大多数外国新冠肺炎患者来自英国(图 6)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6。越南国籍的新冠肺炎患者

为什么越南从欧洲和美国获得的新冠肺炎病例比从中国获得的多?中国是一个与越南接壤的邻国,与越南有着密切的日常贸易关系。 对我们来说是个谜。其他变量,如当地天气(温度、湿度)、种族背景和基因变异、疫苗接种情况、文化和社会行为,特别是人们的意识(武汉震中是当时越南社交媒体和新闻上的热门趋势),可能有助于减缓来自中国的病毒传播。

3.越南新冠肺炎患者的年龄和性别分布大多与特定人群有关,而不是随机的,这表明疫情在很大程度上得到了控制。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

****图 7。越南新冠肺炎患者的年龄、性别、国籍和旅行史分布的小提琴图。*关于小提琴图的说明:它是一个盒子图和一个核密度图的混合体。白点:中间值;中间粗灰条:四分位数范围;小提琴图的 Wider 和 skinner 部分:人口中的成员接受给定值的概率分别较高和较低。

为导入案例:

  • 大多数越南新冠肺炎输入病例年龄在 20-30 岁之间。他们是去国外学习和培训的学生和年轻员工。更多详情,请参见越南新冠肺炎患者数据集中的样本行。
  • 大多数外国患者都是老年人,男性为 50-70 岁,女性为 45-60 岁。他们很可能是退休旅行者。

为本地案例:

年龄趋势似乎与越南特定的感染人群有关:年轻时的外国人与佛酒吧烧烤(一家餐馆和酒吧)人群有关;大多数越南女性患者与巴赫迈医院等的食品供应公司有联系。

= >目前,在这个小数据集的情况下,无法判断是否有任何年龄性别的人群感染新冠肺炎病毒的风险更高。当所有病例似乎都与特定的聚集性和旅行团体有关时,越南的疫情似乎在很大程度上得到了控制。

4.接近 65%的越南新冠肺炎患者在确诊为病毒阳性时无症状:

如果越南没有早期检测和检疫,情况可能会更糟。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 8。270 名越南新冠肺炎患者病毒检测呈阳性时的症状。值得注意的是,大约 65%的病例是无症状(显示无症状)。注意,为了更谨慎起见,这里的无症状病例称为推定(原因可在本报告末尾找到)。来源:Tran Nguyen。详细分析可以在我的 Kaggle 笔记本或者我的 Github 上找到。

**在所有 270 例越南新冠肺炎确诊病例中,只有 35.2%的患者在病毒检测呈阳性之前或之后出现症状。值得注意的是,只有 6.3%的病例报告了**(气短/胸闷/轻度肺炎/呼吸衰竭)。大多数有症状的患者报告了轻微的感冒/流感样症状(如发烧、咳嗽、喉咙痛、疲劳等)。) (占全部病例的 25.4%)。

在有症状的患者中,常见的症状包括发烧、咳嗽和喉咙痛。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图九。报告了有症状患者的详细症状。在总共 270 例病例中,只有 35.2%的病例有症状。来源:Tran Nguyen。详细分析可以在我的 Kaggle 笔记本上找到。

从这个结果我们可以推断出什么?

如果越南没有迅速作出反应,进行检测并早期隔离人员,这些新冠肺炎病例中的 90%以上将继续经常出现在公共场所,不知不觉地在社区中传播病毒。

如果越南对考试采取和其他国家一样的政策,比如美国(我目前生活在美国,最了解这种情况),会发生什么?一场灾难:超过 90%的患者没有资格接受新冠肺炎测试。在这些患者身上检测到任何严重的新冠肺炎相关症状之前;在它们变得“足够”有资格进行测试之前;当他们徘徊在等待测试结果的时候,病毒可能已经悄悄地传播了。自第一波感染(2020 年 1 月 23 日)以来,应该会有许多“热点”。当来自欧洲的第二波感染如火如荼时(从 2020 年 3 月 6 日第 17 号患者开始),情况将会异常严重。(此处查看越南两次感染浪潮的更多详情)。

5.越南新冠肺炎患者(确诊后)的住院时间约为 2 周,主要是因为越南严格的出院政策。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

****图 10。越南新冠肺炎患者的平均住院时间。请注意,在越南,所有新冠肺炎患者,包括无症状病例,均已住院。因此,大多数越南新冠肺炎患者病情较轻。只有少数患者出现了更严重的并发症。

越南新冠肺炎患者(大多数症状轻微)的平均住院时间约为 2 周。在一个罕见的案例中,患者 BN51 在正式出院前已经接受了 13 次检测(参见越战新冠肺炎患者数据集的参考和注释)。

与越南患者相比,外国人住院时间更长。原因可能是因为医院内的环境(食物、医疗保健中的语言障碍)、种族背景和基因变异,和/或他们的年龄组:大多数外国人是退休的旅行者,他们更容易受到病毒的影响。

越南卫生部网站上的新冠肺炎病例出院标准如下:

“新冠肺炎患者在 48 小时内连续两次实验室检查呈阴性,至少连续 3 天没有发烧,生命体征正常,血液检查正常,胸部 x 光检查有所改善,可以出院。出院的病人必须(在家里/旅馆)再隔离 14 天。”

讨论大纲视图:

1 例住院时间仅 1 天。原因可能是:

  • 住院时间从患者被正式确认为新冠肺炎阳性之日算起,而不是从患者住院、出现症状和/或采集样本进行检测之日算起。因此,该患者在被确认为病毒阳性之前可能已经住院。
  • 公布检测结果的时间可能因患者而异,取决于他们从当地实验室和国家卫生和流行病学研究所实验室进行了多少次检测/确诊检测。

讨论新冠肺炎测试的详细说明即将发布。

6.越南有 270 例新冠肺炎确诊病例,目前没有死亡病例。

一些住院时间长(超过 30 天)的患者表示,他们的病情更加严重。不同来源的重症患者数据并不一致(每个患者出现严重症状的时间、患者 id 等)。)所以在分析中省略了。然而,你仍然可以看一看越南新冠肺炎数据集。这是对它的一种理解:

在重症监护室(ICU)收治的少数新冠肺炎患者中,一些人被插管并康复;2 -3 例接受了 ECMO 治疗(体外膜肺氧合)和强化透析。但是到目前为止,没有死亡重症新冠肺炎患者出现好转迹象;感谢医护人员和医院的巨大努力。早期反应(病例识别、隔离、接触者追踪、隔离)有助于避免卫生保健系统的负担,从而降低发病率和死亡率。

“一个很好的经验法则是,一旦你所在的城市或城镇出现确诊的新冠肺炎死亡病例,病毒可能已经在你所在的社区存在了两周左右。”

这条规则可能不是一个真实的事实,但是当还没有确认新冠肺炎死亡的时候,想到越南仍然是“安全的”,这是非常令人鼓舞的。

越南官员一直在努力遏制病毒?请继续关注,我的媒体页面将很快提供这方面的可视化。

带回家的信息

凭借如此小的样本量(270 例新冠肺炎确诊病例)和公开的患者数据集、**,我们可以更好地了解新冠肺炎患者的概况。**

曲线已经变平;越南被誉为“疫情中一个异常成功的故事】;越南政府已经开始解除一些隔离措施和封锁。然而,整个国家需要保持警惕,保持耐心,并“准备在需要时采取措施”否则,在冠状病毒疫苗和/或针对新冠肺炎的特效疗法问世之前,越南可能会失去已经取得的进展。

我同题其他笔记:

越南新冠肺炎患者的全貌

**关于无症状/有症状病例的注意事项

关于健康状况数据的注意事项 :我没有任何知情人,也没有医院的文件。患者的健康状况收集自越南卫生部网站和越南主流媒体,有 2 个显著的局限性:

(I)每个患者描述的症状依赖于患者及其密切接触者的记忆,而这些记忆可能是模糊的。

㈡健康记录不是从医院文件中正式收集的,因此这些记录可能被少报。

然而,我得到的数据仍然是一个很好的参考来源,原因如下:

(I)主流媒体似乎“渴求”信息,因此,他们报道了任何可能的信息。例如,患者 BN204 被报告没有症状,但留在同一隔离室的另一人回忆说,该患者确实打喷嚏。而这个微不足道的症状被举报了。所以主流媒体不太可能漏掉任何案例。

㈡许多病例没有提及患者的健康状况(我将这些病例报告为“未报告”)。其他人被报告说他们的“健康状况稳定”(被报告为“未报告(稳定状况)”,我们可以假设他们没有表现出任何症状。

(iii)当汇总“未报告”、“未报告(病情稳定)”和“阳性时无症状”的病例时,我们得到 64.8%,接近于越南卫生部网站上公布的 63.33%的无症状确诊病例。详细分析可以在我的 Kaggle 笔记本或者我的 Github 上找到。

新冠肺炎将增加保险业对人工智能的采用

原文:https://towardsdatascience.com/covid-19-will-increase-ai-adoption-in-insurance-5f2d65db2221?source=collection_archive---------42-----------------------

保险公司将转向人工智能,以削减成本、降低风险并产生客户洞察力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由哈鲁特·莫夫西斯扬皮克斯拜拍摄

迈克·泰森(Mike Tyson)有一句名言:“每个人都有一个计划,直到他们被打中嘴巴”。每个公司都有一个到 2020 年的战略计划。然后,新冠肺炎走进了拳击台。

保险业受到新冠肺炎和经济困难的沉重打击。**随着许多保险公司专注于现金保护,如果领先的保险公司在人工智能方面进行明智的投资,它们可以从危机中变得更加强大。**保险公司的大规模客户数据集及其著名的手动流程创造了一些“快速取胜”的人工智能机会。

保险公司必须主动采用人工智能,因为商业前景并不乐观。伦敦劳埃德保险社估计【2020 年承保损失将达到 1070 亿美元。保险公司正在寻找数十亿美元的业务中断和贸易信用保险损失索赔(当买方不能支付卖方时的保险)。

保险单的销售将受到经济活动下降的影响。货物和商品的生产和流动停滞不前。这意味着需要货物、能源、商品、航运等保险的公司越来越少。

许多保险公司将从冠状病毒时代中摆脱出来。根据国际货币基金组织的说法,他们将直接步入自大萧条以来最严重的衰退,这将减少对某些个人和商业保险的需求

为什么是现在的 AI?

乍一看,大流行后的经济似乎不是投资人工智能的最佳时机。毕竟,企业不应该尽可能多地保存资本吗?

事实上,这是开发人工智能能力的大好时机。人工智能擅长自动化逻辑、重复的过程,并从数据中产生洞察力。这使得保险公司能够削减成本并发现新的收入来源。AI 软件厂商的成熟意味着 AI 工具不需要从零开始构建。如果保险公司了解他们的业务需求,并制定人工智能战略来满足这些需求,在人工智能方面的小额投资可以实现高投资回报率。

大型保险公司多年来一直在投资数字化转型。将数据转换为数字格式,拥抱移动和基于网络的客户互动,以及升级技术栈,这些都给了这些公司快速采用人工智能的基础设施。数字化转型为 AI 转型埋下了伏笔。

保险业务优先级

在大流行后的经济中,保险公司应该关注三个优先事项:降低成本降低风险客户洞察

新冠肺炎和经济衰退将在短期内影响保险公司的收入(承保收入)和费用(索赔)栏。在市场回暖之前,保险公司的当务之急是降低成本和风险。

为了降低成本,保险公司应优先考虑流程和索赔自动化。他们将简化工作流程,以便用更少的人完成同样的工作。人工智能工具,如智能机器人流程自动化(RPA) 将与此相关。

为了降低风险,保险公司将投资于更好的欺诈检测工具,因为在经济困难时期,欺诈行为预计会增加。根据英国保险协会(ABI)的数据,2008 年的经济衰退导致欺诈性保险索赔比 2007 年增加了 17%。

保险公司也将通过提高承保标准来降低风险。这意味着更好地理解风险,并投保更高质量的风险,以防止大型意外索赔。机器学习自然语言处理(NLP) 工具可以搜索过去的保险单,并了解如何为新保单定价。

然后,保险公司可以专注于保持收入流和发现新的收入来源。投资人工智能获得客户洞察将产生巨大的投资回报,因为保险公司拥有大量客户数据。由机器视觉支持的企业搜索软件可以快速搜索内部数据库和文档库,为代理和客户服务人员提供 360 度的客户视图。

降低成本的人工智能:通过智能 RPA 实现理赔自动化

**保险公司可以使用智能 RPA 来自动处理索赔,从而降低成本并更快地支付索赔。**索赔处理充满了智能 RPA 可以解决的挑战,例如手动数据输入、多数据源(文档、电子邮件、图像、移动应用程序)和时间密集型决策。

传统的RPA 软件在不使用人工智能的情况下自动执行手动和重复性任务。例如,它只是记录和复制员工的动作和鼠标点击,以生成发票或报告。这只有在流程从不改变的情况下才有效。例如,当发票布局或报告要求发生变化时,大多数传统 RPA 工具都必须更新。

来自 UiPathAutomation Anywhere 等厂商的智能 RPA 系统为 RPA 工具添加了机器学习、NLP 和机器视觉。智能 RPA 不只是复制人类操作,而是在处理新数据和不断变化的需求时,找到最有效的方法来自动化任务。

AI 增强的 RPA 可以在索赔生命周期的三个阶段减少时间和成本:数据输入、验证和裁决

数据输入验证阶段,RPA 机器人自动从多个来源手动输入数据。机器视觉和机器学习可能会使机器人适应不断变化的模板、文档格式和验证规则。机器学习还允许机器人在获得新数据或有人指出错误时进行学习和改进。

裁决阶段决定是否应该支付或拒绝索赔。机器学习和 NLP 允许机器人分析过去的索赔决定,并通读保险单文件,以确定如何处理当前的索赔。

智能 RPA 功能强大,因为它可以自动执行需要多人跨团队完成的任务。如果部署得当,它可以解放理赔人员,让他们将精力集中在高价值和复杂的理赔上。

降低风险的人工智能:改进核保和欺诈检测

承销

人工智能增强的承保提供了三个好处:通过数据洞察更好地管理风险,自动化任务以更好地利用承保人的时间,以及通过撰写更高质量的业务来提高竞争优势。

大多数保险公司只处理 10-15%的数据。

核保传统上依赖于经验、规则和判断。承销商考虑过去的政策、风险表、客户档案、索赔历史、行业/市场风险,并评估新政策如何影响投资组合的整体风险。

在大流行后的经济中,提高承保标准至关重要。在这种环境下,保险公司承担不起误判风险和招致巨额损失的后果。面临的挑战是,保险商不得不评估大量的保险单,这使他们捉襟见肘。

根据埃森哲的一项研究,大多数保险公司只处理了他们拥有的数据的 10-15%。有太多的数据源——过去的保单、远程信息处理(汽车保险)、可穿戴设备(健康保险)、第三方数据库(例如航运数据)和社交媒体。人类无法大规模处理这些信息。即使是自动核保工具也只能起到这么大的作用,因为它们不够“智能”,无法处理简单案件之外的任何事情。

人工智能可以帮助保险商更快、更准确地评估政策风险。机器学习和 NLP 工具可以“阅读”和理解过去的保险单,并帮助保险商为新风险构建稳健的保单。预测分析工具可以研究类似保单的过去索赔、损失和其他风险指标,以预测未来损失的可能性和大小。

人工智能工具还可以帮助保险商随着时间的推移监控风险,这在保险单续签时非常有用。人工智能初创公司 Cape Analytics 利用地理空间图像从上方拍摄房地产。机器视觉然后跟踪属性如何随时间变化。保险商可以在更新这些财产的保险单时使用这些见解。

人工智能不会取代人类保险商。人工智能工具只是提供更高质量的数据洞察。承销商有责任利用这些见解建立一个有利可图的商业账簿。人工智能驱动的分析也让保险商得以专注于复杂和高价值的业务。

欺诈检测

美国联邦调查局估计美国非健康保险欺诈每年超过 400 亿美元,这可能使家庭每年额外花费 400-700 美元。

机器学习可以分析历史索赔和客户历史,以检测潜在的欺诈行为。机器视觉和图像识别可以研究汽车或房屋潜在损坏的图片和视频,并标记可疑案件。

阿里巴巴集团旗下的金融科技公司蚂蚁金服打造了一款名为丁孙保的汽车保险移动应用。该应用由机器视觉提供支持,使用手机的摄像头来检测汽车的损坏,并立即支付索赔。理论上,该应用程序还可以标记汽车被故意损坏的可疑索赔。

欺诈检测本质上是模式识别,即识别与过去的欺诈案例相匹配的特征。机器学习是这方面的理想选择。在过去欺诈的大型数据集上训练的模型可以比人类更快地发现新索赔中的可疑模式。此外,随着更多真实世界的数据输入,模型变得更好。

面向客户洞察的人工智能:企业搜索软件

保险公司比大多数其他行业拥有更多的客户数据。如果你是个人客户,保险公司知道你的人生阶段、家庭、医疗和旅行史、房屋和汽车所有权等等。如果你是企业客户,他们对你的业务和员工非常了解。他们也知道你的保险历史。

在一个完美的世界里,保险公司将利用这些数据对任何客户进行 360 度全方位的观察。客户服务将是天衣无缝的。向上销售和交叉销售机会很容易被发现。

实际上,客户数据以不同的格式存储在互不相连的系统中(例如文档、电子邮件、图像、pdf)。数据集通常太大,无法及时搜索,而且还受到访问权限的限制。

人工智能支持的企业搜索 软件使员工能够搜索公司的数字系统,包括文档数据库、CRM 系统、电子邮件、网站、文档、呼叫中心日志等。工作人员可以使用问题或关键字进行搜索,并调出回答该问题的相关媒体。

企业搜索系统使用机器视觉来识别屏幕上的图像和文本。光学字符识别(OCR)用于将扫描的 pdf 中的文本数字化为 word 文档或电子表格。NLP 用于解释文本。

远程工作的兴起使得企业搜索系统更加引人注目。员工可以搜索信息,而不用花时间寻找同事。

调查索赔的索赔理算员可以搜索类似的索赔(例如,过去 2 年中的 2016 款银色丰田卡罗拉)。他们还可以调出证明文件和过去的欺诈案例。

承销商可以搜索过去的客户和保单,为新保单定价。销售人员可以获取客户的信息,以确定他们最可能需要的产品和服务。

客户服务代理可以在通话过程中访问客户信息,并增加客户查询的响应时间。在经济低迷时期,当公司争夺不断缩水的客户资金时,良好的客户服务是留住客户的关键。

在大流行后的经济中,360 度客户视角是一个强大的竞争优势,因为它有助于公司留住好客户并吸引新客户。更重要的是,这些客户洞察使保险公司能够创造和营销正确的产品组合,这将推动他们在经济复苏时实现增长和更大的市场份额。

保险高管的外卖

新冠肺炎事件后,保险公司的第一反应将是削减成本和降低风险。虽然一些高管会收紧钱包,但其他人有机会进行小规模的战略性人工智能投资,这些投资有可能快速获得投资回报。更重要的是,当经济好转时,人工智能的采用现在可以让主动的保险公司领先一步。

在这个充满挑战的时代,保险高管和商业领袖应该如何对待人工智能?他们应该如何选择 AI 项目?他们应该内部构建 AI 工具还是从供应商那里购买?

答案会根据公司的独特情况而有所不同。一般来说,公司应该在短期内着眼于低成本和高投资回报率的项目。高管还必须深刻理解他们的业务需求、痛点和 AI 用例。然后,他们应该选择满足这些需求的人工智能工具。一些公司走出去购买人工智能产品,并试图在以后找出他们的业务需求——这通常不会有好结果。

内部构建人工智能工具或购买供应商软件都有其利弊。虽然内部构建需要时间、工程师和数据科学家,但该产品是根据您的需求量身定制的。从供应商那里购买更快更便宜,但是产品可能与您的流程和数据不完全兼容。

保险公司与供应商合作开发定制工具的混合方法是另一种方法。这加快了实施速度,同时确保了良好的产品适应性。

最后,实施人工智能项目需要技术和业务团队共同努力。商业领袖和功能专家对于确保人工智能解决方案适合当前的业务需求并能够根据不断变化的需求进行定制至关重要。

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

有天赋的新冠肺炎

原文:https://towardsdatascience.com/covid-19-with-a-flair-2802a9f4c90f?source=collection_archive---------9-----------------------

使用 BERT 模拟冠状病毒讨论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

去飞溅

一些背景

除非你一直生活在一块足够幸运的岩石下,不在新冠肺炎广袤的疆域之内,否则你会意识到这种病毒正在席卷全球。在撰写本文时,约 25 万病例已被确认,死亡人数超过 1 万人。不鼓励群众集会,商店和餐馆关门,国家关闭边境,在家工作是强制性的,而不是特权。这是件大事。

它几乎占据了媒体的所有讨论,优先于 2020 年美国总统大选或英国最终在不到 9 个月的时间里永远离开欧盟等话题。人们在社交媒体上充斥着 COVID 信息,这只能意味着一件事:数据。等待分析的新数据。我们会分析它。

为什么

为什么要分析文本数据?这里想象的商业案例是什么?

在社交媒体时代,每个人都可以在一个平台上发表自己的观点,从客户那里获得直接和即时的反馈从未如此容易。因为人们在网上发表他们的意见,组织不仅有天赋,也有义务利用这一点,并从客户群发布的意见中提取可操作的见解。

然而,社交媒体数据是巨大的。非常辽阔。一个中等规模的组织将很难记录、理解、总结和展示他们的客户在网上发布的所有观点、抱怨和赞扬;即使他们雇佣了整个团队来做这件事。当他们可以使用数据科学时,他们为什么要这么做。

什么

我们将尝试在冠状病毒讨论的快照中揭示潜在的主题。为了更好地理解我们将如何实现这一点,让我带你踏上主题建模的历史之旅。请把你的掌声留到最后。

经典作品

想象一下。现在是 2003 年。克里斯蒂亚诺罗纳尔多刚刚为曼联首次亮相,迈克刚刚在《老友记》中向菲比求婚。三位计算机科学家建议在主题建模领域使用一种之前在遗传学领域首创的算法。问题中的算法是潜在的狄利克雷分配,被称为 LDA,因为没有人能发出第二个单词。该方法使用概率方法来基于单词共现将文档分配到主题中。这是一个压倒性的成功,这个模型被羽翼未丰的 NLP 社区广泛采用。

经典的主题建模方法,如 LDA T1 或 T2 LSA T3 已经存在了一段时间。这些是建立在文本数据的文档术语矩阵表示上的,可以以相对较低的成本非常有效地工作。然而,它们确实缺乏捕捉关于我们文本中单词的位置或顺序的任何信息的能力,也缺乏捕捉它们彼此之间有多相似的能力。

让我们得到向量

你眨眨眼——现在已经是 2013 年了,但你还在看电视。在《了不起的盖茨比》中,利奥·迪卡普里奥第一次苦笑着举起了酒杯,麦莉·赛勒斯像一个灾难球一样出现了。布鲁诺·马斯在那里。与此同时,托马斯·米科洛夫(Tomas Mikolov)正在尝试使用浅层神经网络来改进谷歌搜索引擎,并发现他能够将单词映射到 N 维向量空间,该空间可以捕捉单词在数字位置上相对于彼此的意义。一个灯泡突然出现在他的头上,他发布了 word2vec 模型,并随之向世界释放了 word2word 命名法的瘟疫(参见 doc2vec,node2vec,seq2seq,graph2vec…)。

worder 嵌入方法是数字文本表示中的一个主要步骤。这一系列技术将语料库中的单词映射到向量空间,最常用的是使用神经网络(例如 word2vec 或 GloVe)。单词嵌入给上述概率模型带来的一个主要好处是,在训练数据中给定上下文的情况下,它们能够将单词之间的相似性表示为向量空间中的接近度;比如小猫会比木工彼此距离近很多。这种方法已经被广泛使用了很多年,但仍然有局限性,因为它只能将单词映射到一个单一的向量,无法捕捉同一单词在不同上下文中的不同含义。

变压器组装

画面又变得模糊了。当你的视线清晰时,你注意到手机上的日期是 2018 年 10 月 11 日。科罗娜对你来说只不过是一个啤酒品牌。谷歌仍在不知疲倦地努力保持他们作为搜索引擎的地位,这一次是雅各布·德夫林来拯救他们了。他发表了一篇关于使用转换器-编码器深度学习算法进行文本预测任务的论文。他将其命名为“变形金刚的双向编码器表示”,幸运的是,它被缩写为伯特*。效果很好。非常好。* 没有人确定为什么

BERT 不仅在许多下游 NLP 任务中击败了单词嵌入方法,而且对我们来说更重要的是,它可以在不同的上下文中为同一单词指定不同的向量表示。这对于同音异义词来说尤其重要:例如,当我给某人我的地址并且如果我称呼某人时,单词称呼具有完全不同的含义。

这个网站以前已经多次介绍过 BERT,但是如果你还没有遇到过它,我建议你绕道去阅读它。Jay Alammar 的博客提供了一个很好的总结,他致力于用芝麻街的角色来说明模型是令人敬畏的。一定要回来,因为接下来会很有趣。

我们现在已经看到了文本表示已经走了多远(它已经走得更远了),所以让我们来测试一下。

我们将使用发布在冠状病毒爆发主题上的推文样本。然后,我们将使用 BERT 在向量空间中表示它们,使用它们的单词嵌入值的平均值。然后,我们可以假设,如果在向量空间中相似意思的单词彼此更接近,我们可以将附近的 Tweets 分组在一起,以找到共同话题的集群。我们的高级工作流程是:

  1. 收集数据:搜索关于冠状病毒的微博
  2. **预处理数据:**执行通常的文本清理步骤
  3. **嵌入文档:**使用 BERT 找到每条推文的向量表示
  4. **降维:**使用主成分分析来降低向量的大小,同时保持方差
  5. **聚类嵌入:**应用聚类算法来查找具有相同含义的推文组
  6. 评估主题:试着理解主题的内容

所有这些都是为了回答这个问题:人们在 Twitter 上谈论的与冠状病毒有关的话题是什么?

怎么做

在这一节中,我将介绍我的方法,并分享我的一些代码。如果你只对目的地感兴趣,而不是旅程,你可以跳过这一部分。

数据收集和清理

我使用 Twitter 搜索 API 在 3 月 11 日找到了包含“COVID”或“冠状病毒”字样的推文,这让我在全球范围内获得了 17998 条英语推文。

让我们来看一个例子:

@RepKinzinger 我知道你有很多无能需要“克服”,而且你在冠状病毒监测中一直保持着“难以置信的警惕”。但是你愿意解释一下你的政党与你在莫斯科的“朋友”达成了什么样的协议和默许吗?https://t.co/a5dx9skaa5

我们通过一系列预处理步骤运行数据;由于这个话题在其他地方已经讨论过很多次了,我就不再赘述了。我把所有东西都改成小写,去掉超链接、提及、非字母数字字符和换行符,去掉停用词,剩下的用字母表示。上面的文本现在看起来像这样:

“知道很多无能克服令人难以置信的警惕冠状病毒监测会蒂基火炬特朗普主义者关心解释协议默许党结交朋友莫斯科”

文档嵌入

我们将使用 Flair Python 库,这是一个由 Zalando Research 在 PyTorch 上开发的框架,使用预先训练的单词嵌入模型的组合来嵌入我们的推文。

注意:我用 Google Colab 来嵌入推文,大约需要 30 分钟。您的里程可能会有所不同,但如果像我一样,您没有特别强大的机器,我会建议您使用免费的 GPU 访问。

我们将初始化单词嵌入模型:

import torch
!pip install flair  # install Flair on Google Colab
from flair.embeddings import FlairEmbeddings, DocumentPoolEmbeddings, Sentence, BertEmbeddings# initialise embedding classes
flair_embedding_forward = FlairEmbeddings(‘news-forward’)
flair_embedding_backward = FlairEmbeddings(‘news-backward’)
bert_embedding = BertEmbeddings(‘bert-base-uncased’)# combine word embedding models
document_embeddings = DocumentPoolEmbeddings([bert_embedding, flair_embedding_backward, flair_embedding_forward])

这将给我们每个 Tweet 一个大小为(1,7168)的张量,所以我们将初始化一个大小为(17998,7168)的空张量,并用我们的文档向量迭代填充它:

# set up empty tensor
X = torch.empty(size=(len(df.index), 7168)).cuda()# fill tensor with embeddingsi=0
for text in tqdm(df['text_cl']):
    sentence = Sentence(text)
    document_embeddings.embed(sentence)
    embedding = sentence.get_embedding()
    X[i] = embedding
    i += 1

这需要一些时间,所以去喝一杯吧。或许洗一次碗。

我们现在有一个(17998,7168)维的张量,其中填充了每个 Tweet 的嵌入。至此,我们已经完成了 PyTorch,因此我们将从 GPU 中分离张量,并将其转换为 NumPy 数组:

X = X.cpu().detach().numpy()
del(X)
torch.cuda.empty_cache()

主成分分析和聚类

我们希望将这些向量聚类到主题中,我们将从 scikit-learn 调用凝聚聚类来实现这一点。自底向上的层次聚类算法的记忆复杂度为 O(n ) ,所以我们将使用主成分分析来加速这个过程。毕竟我们刚刚看完一个进度条 30 分钟。

顺便说一句,我确实测试了许多聚类算法(K-means、BIRCH、DBSCAN、具有完全/平均相似性的 Agglomerative ),但 Ward 似乎在大多数情况下表现最好。我将此归因于它识别较小边缘簇的能力,并且似乎不会不顾一切地将我的数据点分成相等大小的组,因此它有利于挑选出不一定与主要讨论对应的潜在主题。

让我们将向量的维数减少到长度 768——我选择这个数字有些随意,但是 BERT 本身会产生这个大小的向量,所以它对我们来说应该足够好了,同时还将数据大小减少了大约 80%。

from sklearn.decomposition import PCApca = PCA(n_components=768)
X_red = pca.fit_transform(X)

我们将用 10 个聚类初始化算法,拟合我们的数据,并将聚类标签分配给我们的主数据框架:

from sklearn.cluster import AgglomerativeClusteringN_CLUSTERS = 10# WARD CLUSTER
ward = AgglomerativeClustering(n_clusters=N_CLUSTERS,
                               affinity='euclidean',
                               linkage='ward')pred_ward = ward.fit_predict(X_red)df['topic'] = pred_ward

这会产生以下主题分布:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按主题分类的推文分布

我们可以看到我们选择的聚类算法的好处。主要的话题,比如 0 和 3 被挑选出来,但是我们设法把一些边缘的讨论分开,比如 5 和 8。

我们可以在二维空间中可视化主题群:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以二维形式表示的主题群

热门术语

我们现在已经给每条推文分配了一个主题,但是我们如何理解它们呢?我们将找到每个主题中 TF-IDF 得分最高的单词和短语(单词和双词);也就是说,我们将识别在一个主题中出现很多但在其他主题中不出现很多的术语。为此,我们将在自定义函数中使用 scikit-learnTfidfVectorizer()。因为我们要处理几个大文档(将每个主题视为自己的文档),所以我们将文档频率限制为 50%,确保提取的术语不会出现在总数的一半以上。这一步有助于排除非常常见的词(如冠状病毒),这对识别主题没有太大帮助。

from sklearn.feature_extraction.text import TfidfVectorizerdef get_top_words(documents, top_n):
  '''
  function to get top tf-idf words and phrases
  ''' vectoriser = TfidfVectorizer(ngram_range=(1, 2),
                               max_df=0.5) tfidf_matrix = vectoriser.fit_transform(documents) feature_names = vectoriser.get_feature_names() df_tfidf = pd.DataFrame() for doc in range(len(documents)):
    words = []
    scores = [] feature_index = tfidf_matrix[doc,:].nonzero()[1]
    tfidf_scores = zip(feature_index, [tfidf_matrix[doc, x] for x in feature_index]) for w, s in [(feature_names[i], s) for (i, s) in tfidf_scores]:
      words.append(w)
      scores.append(s) df_temp = pd.DataFrame(data={’word’:words, 'score’:scores})
    df_temp = df_temp.sort_values(’score’,ascending=False).head(top_n)
    df_temp[’topic’] = doc
    df_tfidf = df_tfidf.append(df_temp) return df_tfidf

我们将我们的推文分组到分配给它们的主题中,以形成长文档,然后对它们应用上述函数,以找到每个主题中最重要的 10 个术语:

topic_docs = []
# group text into topic-documents
for topic in range(N_CLUSTERS):
    topic_docs.append(' '.join(df[df['cluster']==topic]['text_cl'].values))# apply function
df_tfidf = get_top_words(topic_docs, 10)

我们将可视化结果:每个图表代表一个主题及其 10 个最重要的术语。条形越长,术语越有代表性:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每个主题中最具代表性的术语

我们可以围绕经济刺激方案(话题 0)、病毒检测(话题 3)和体育(话题 9)找出一些话题。稍后我们将对其他人做更多的调查。

主题紧密度

我们的话题有多好?这是一个重要的问题,因为我们正在对实时数据使用无监督技术(我们没有任何训练集)。我们所能做的就是将它们相互比较。我们假设“好的”主题在向量空间中更紧凑,也就是说,它们的文档向量比坏的更接近。为了评估这一点,我们将查看每个 Twitter 向量在其各自的主题中与主题向量的质心的接近程度。

我们通过对每个主题进行平均来找到向量的质心:

topic_centroids = []for topic in tqdm(range(N_CLUSTERS)):
    X_topic = X_red[df.index[df['cluster']==topic]]
    X_mean = np.mean(X_topic, axis=0)
   topic_centroids.append(X_mean)

然后,我们计算每个 Tweet 向量到各自主题质心的欧几里德距离:

from scipy.spatial.distance import euclideantopic_distances = []for row in tqdm(df.index):
    topic_centroid = topic_centroids[df.iloc[row]['cluster']]
    X_row = X_red[row]
    topic_distance = euclidean(topic_centroid, X_row)
    topic_distances.append(topic_distance)

df['topic_distance'] = topic_distances

我们可以想象到主题质心的距离分布:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

文档向量到各个主题质心的分布

分布越靠近图表左侧,主题越紧凑。题目 3、4、6、7、8 似乎是强有力的竞争者;8 是可悲的蔓延,表明缺乏一致的内容。

主题相似度

我们看了每个主题中的推文有多相似,但我们也可以看这些主题彼此有多相似。我们将在 10 个主题质心之间构建欧几里德距离矩阵,以找到主题平均值之间的距离。平均值越接近,我们期望主题之间的重叠就越多。

from scipy.spatial import distance_matrixdf_dist_matrix = pd.DataFrame(distance_matrix(topic_centroids,
                                              topic_centroids),
                              index=range(N_CLUSTERS),
                              columns=range(N_CLUSTERS))

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

主题质心的距离矩阵

距离矩阵显示了所有主题之间的距离。单元格的颜色越深(数字越小),与其行和列对应的主题越接近。题目 3 和 7 或者 0 和 2 离得挺近的;话题 1 和话题 4 相距甚远;话题 8,家里的害群之马,和其他人加起来离所有人都那么远。

洞察力

感谢那些在前一部分与我一起坚持到底的人——这是一项艰巨的任务,但我们已经发现了一些有用的信息,所以让我们回顾一下。

题目是关于什么的?

顶部的术语为主题提供了一些非常需要的上下文,使我们能够非常合理地猜测每个主题(广泛地)在讨论什么:

  • 话题 0 关键词: 联邦,特朗普总统,税收,刺激方案,阻止,经济刺激,药房,联邦医疗,机构分门别类,告诉联邦 最有可能的大概: 特朗普的冠状病毒刺激方案
  • 话题 1 关键词: 劫持,劫持细胞,冠状病毒劫持,冠状病毒分类,温馨希望,newmusic,温馨,covid19 covid2019,会议取消,分类 covid **最有可能关于:**人们分享关于 COVID 如何“劫持你的细胞”的知识,以及各种活动被取消
  • **话题二关键词:**福西冠状病毒,更糟的川普,年轻不惧,川普旅行,不惧冠状病毒,停杀,旅行禁令,好停,人民意见,不惧
    最有可能的大概: 川普的旅行禁令
  • 话题三关键词: 联邦、检测、疾病、税收、资源、能源、系统、实验室、削弱、倡导 最有可能的关于: 美国冠状病毒检测
  • 话题四关键词: 唐知道,美国意大利,一级防范禁闭可怖,避风港,可怖,着实令人,测试设定,设定冠状病毒,冠状病毒 isn,延迟测试
    最有可能大概: 意大利因疫情爆发而一级防范禁闭
  • 话题 5 关键词: tweet covid,brand tweet,twitter suggest,建议适当,适当的方式,途径 brand,19 covid,19 mattgsouthern,mattgsouthern,加拿大官员 最有可能的大概: Twitter,显然是在给 brands 关于如何发布关于冠状病毒的建议
  • 话题 6 关键词: wanna,na,ya,nasty,bunch,aint,coronavirus ain,tp,warn house,ko 最有可能的大概:这个不明显。我不得不看一些例子,发现这是关于冠状病毒的非新闻相关的一般话语。(例:如果你们这些讨厌的喝醉了的女孩在周六晚上爬遍浴室地板后会洗手,我们可能就不会陷入这种困境了。)那是一条真正的推特。)
  • 话题 7 关键词: 网络安全,pmp,pmp ppm,项目管理,敏捷,machinelearning,ppm 项目管理,项目管理敏捷,敏捷网络安全,网络安全规划 **最有可能关于:**如何在 COVID lockdown 中有效地远程管理一个交付团队!
  • 话题 8 关键词: 家三,值得一试,王牌认真,享受王牌,开始享受,他妈的开始,来他妈的,面对美国,预兆可能,可怕预兆 最有可能:……你猜得和我一样好。我们在上一节已经看到,这是一个弱主题。
  • 话题 9 关键词: 男女,锦标赛,ncaa 男,daniele,daniele rugani,女,球迷冠状病毒,签名请愿,玩球迷,英超 **最有可能关于:**冠状病毒对世界体坛的影响,例如 NCAA,英国 PL 或达妮埃莱·鲁加尼,据报道病毒检测呈阳性的意大利足球运动员。

题目有多好?

  • 关于测试(3)意大利封锁(4)笑话推文(6)远程工作方式(7)世界体育(9) 的主题是最紧凑的,因此我们可以假设它们涵盖了比其他主题更简洁的主题。
  • COVID 测试(3)远程工作方式(7) 密切相关——我的理论是这是由于分别有实验室网络等重叠的技术术语。
  • 特朗普的 COVID 刺激方案(0)他的旅行禁令(2) 也密切相关,原因显而易见。
  • 从语义上来说,病毒的生物工作方式(1) 和意大利封锁(4) 相距最远。

通过从大量真实数据中提取一些连贯的主题,我们使用最先进的语言模型展示了较少采用的主题建模方法的有效性。我们的方法还允许我们评估我们的主题之间的关系,这似乎与我们对它们的解释相一致。我认为这是一次成功。

事后思考

我做错什么了吗?我能做得更好吗?我做得好吗*?*

请随时在 LinkedIn 上联系我;如果你对我的工作感兴趣,我总是很乐意接受挑战或者只是聊聊天。

新冠肺炎失业简报:州、种族和行业

原文:https://towardsdatascience.com/covid-19s-affect-on-unemployment-state-race-and-industry-3116d772d41e?source=collection_archive---------53-----------------------

自 2008 年金融危机以来,新冠肺炎一直是对美国劳动力市场影响最大的国家。

面对快速传播的疾病,大量来自各级政府的错误信息,国家经济收缩,企业暂时或永久关闭。显然,经济的某些部门在应对病毒时受到了不同的打击,本文将从三个横截面国家、种族和行业来探讨【2020 年 1 月至 6 月的就业趋势

该分析的数据来自劳工统计局。你可以在 my github repo 下载数据并查看 python 笔记本。

[## rchardptrsn/COVID-就业-分析

这个笔记本描述了几个查询美国劳工统计局 API 的例子,并把数据整理成一个…

github.com](https://github.com/rchardptrsn/COVID-Employment-Analysis)

州失业率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

链接到 tableau public

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

链接到 Tableau Public

一些州从新冠肺炎疫情爆发后下意识的就业市场崩溃中复苏的速度较慢。内华达州在酒店和休闲行业拥有近 30 万名工人,失业率在 2020 年 4 月达到 30%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

链接到 Tableau Public

人种

不幸的是,劳工统计局只根据黑人、亚洲人和白人来划分每月的失业率。尽管这些类别有限,但很明显,黑人的复苏没有白人强劲。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

链接到 Tableau Public

工业

各行业的就业水平受到社会距离限制和旅游指南的强烈影响。休闲和酒店等行业不要求大多数员工拥有高等学位或证书,因此可以认为它们对需求下降的反应更有弹性。运输和仓储也受到重创,可能是因为旅行限制和贸易放缓。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

链接到 Tableau Public

从数据中可以明显看出,新冠肺炎并没有平等地影响所有经济部门。为了度过这个疫情,我们必须调整我们的生活方式,确保我们把社会的健康和福利放在自己之前。我们不能忘记2020 年上半年因致命病毒而失去工作的数百万人,我们可以支持那些受戴口罩和社会距离影响的人。

新冠肺炎对数据科学领域的影响及我们的对策

原文:https://towardsdatascience.com/covid-19s-effect-on-the-data-science-field-and-what-we-should-do-about-it-53df4dd22b12?source=collection_archive---------75-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎危机中的英雄是医生和护士、急救人员、杂货店工人和其他基本服务提供者,他们在疫情期间得到了前所未有的需求。

虽然更多是在幕后,但另一个群体也在名单上:数据科学家。全球成千上万的科学家正在收集和梳理数据,以更好地了解病毒,跟踪其传播,开发药物,以及分析疫情对经济、供应链和我们生活的其他方面的影响。

当然,早在冠状病毒来袭之前,数据科学就已经有了辉煌的时刻。数据已经变得无处不在,云计算和机器学习等创新正在提供新的机会来挖掘数据以获得可操作的见解,并实现预测性和规范性分析。因此,每个行业都在增加其定量劳动力。

这造成了日益严重的技能短缺。根据科技职业网站 Dice 的一份报告,数据工程师是去年科技行业增长最快的工作,空缺职位数量增长了 50%。领英 2018 年 8 月的一项研究发现,美国短缺超过 15 万人。

随着新冠肺炎进一步提高数据科学的重要性和兴趣,培养新的数据科学家的需求变得更加迫切。这将需要改变-不仅仅是更好的教育和培训计划,还需要重新评估是什么造就了顶尖的数据科学家以及在哪里可以找到他或她。

世界应该有哪些不同的做法?我有三个想法。

1.超越传统的技能组合。

在雇用数据科学家时,大多数组织都寻求拥有应用数学、统计学、计算机科学、工程学或任何其他需要定量分析的学位或经验的人。这很有道理,但我们应该尽可能想象好的数据科学家来自哪里。例如,缺少一个好的学位不应该是一个阻碍。

我有高等学位,但我不是从数据科学家开始的。我的学士和硕士学位是在航空航天,航空和航天工程。

但在我读硕士期间,我被选中参加了一个远离火箭科学的项目:开发新的多通道测谎仪技术,该技术至今仍在使用。在这项需要开发算法和机器学习模型来检测测谎仪测试中的异常的数据密集型工作中,我意识到我找到了自己的激情:数据科学。从那以后我就一直在这个领域工作。

故事的寓意:数据科学家可能不总是来自典型的人才库。任何拥有将数据与见解联系起来的动力和知识的人都非常适合。

2.已经够了:让更多的女性进入这个领域。

虽然工作场所的性别平衡在过去几十年里有了显著改善,但女性在技术领域的比例实际上有所下降。根据国家妇女信息技术中心的数据,该行业的女性人数在 1991 年达到顶峰,占 36 %,此后一直下降。分析洞察在数据科学和其他面向数据的工作中,女性不到三分之一。

我对技术领域的这种性别差距太熟悉了。在大学工程项目的第一年,我是 400 名学生中的 10 名女性之一。我记得我小时候的老师鼓励男孩学习数学和科学,鼓励女孩学习艺术和社会学。在小学时,我是数学奥林匹克的唯一女性参与者。

是时候停止疯狂了。在这个世界需要尽可能多的数据科学家的时候,让我们停止用可能让女性感到不受欢迎的公开行为或隐蔽信息将一半人口从这个领域推开。

3.寻找饥饿和好奇的人。

为了数据科学而数据科学不是很有用。数据科学家可能是技术神童,拥有关于算法、模型和编程的丰富知识,但除非他们有强烈的动力去发现隐藏在数据中的模式,以收集有价值和可操作的见解,并将它们转化为规定性分析以支持决策,否则他们只是在玩工具。

从服务经历数字化转型的行业到研究流行病,最好的数据科学背后都有真正的使命和目的。你需要首先关注手头的问题,然后像数据科学项目一样,将它分解成你可以解决的不同的、可解决的元素。

我曾经在一次求职面试中被问及我对什么充满热情,我谈到了我对历史的毕生热爱——我发现研究过去是多么令人兴奋,历史就像多维度的时间序列数据,就像我们在数据科学中所做的那样,发现可以揭示未来教训的模式。它帮我找到了工作。

我的观点是,对于组织来说,对他们招聘的数据科学家的类型要有思考力和创造力,这很重要,这意味着也要将数据科学视为一门艺术。好奇心很重要。对解决问题的痴迷很重要。这些天生的品质是教不来的。数据科学特定技能可以。

我们生活在一个充满挑战的时代,数据科学从未像现在这样有价值。让我们确保吸引最优秀、最聪明的人到这个领域来……以我们需要的高数量。

错综复杂的联系追踪应用程序正在出现

原文:https://towardsdatascience.com/covid-contact-tracing-8f852354667b?source=collection_archive---------60-----------------------

这是经济复苏所必需的,它很乱,可能已经在你的口袋里了

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

亚马逊远程助手图片,鸣谢:亚马逊

在美国,只有三个州表示有兴趣采用早在三月份宣布的苹果-谷歌联系追踪平台。相比之下,英国放弃了创建定制 COVID 联系人追踪应用程序的计划,而是将使用苹果-谷歌平台。英国的决定逆转之前,初步试验发现政府的中央系统只能检测到 4%的 iPhones。尽管如此,解决方案在冬季之前不会上线,当它发布时,可能仅限于症状报告。这是因为政府的测试和追踪项目负责人还不相信这项技术适合使用。

“在过去的几周里,我们一直在为零售商开发碰撞检测系统……人们走到一起,呆在一起。因此,我们需要找出症结所在,”一家物联网供应商表示

尽管围绕无数接触者追踪和新冠肺炎安全措施缺乏标准化,对隐私的担忧,最终用户采用的缺乏,随着城市放松限制和企业重新开业,私营行业并没有等待万灵药。

据负责机器人和工程的副总裁布拉德·波特发布的公司公告称,亚马逊刚刚推出了一个解决方案,该方案将人工智能和机器学习应用于他们大楼的摄像机镜头,以识别高流量区域,从而改善员工的社交距离。这个名为“距离助手”的解决方案现在已经在他们的几栋建筑中使用,他们计划开源这个软件。

其他雇主正在探索如何利用基于应用的位置数据、运行在 Android 和 iOS 上的消费者移动应用以及物联网(IoT)信标来提高安全性和支持经济复苏。“零售商正在询问我们如何维护更安全、更高效的环境,”Acuity Brands 高级副总裁 Audwin Cash 表示,Acuity Brands 是一家面向零售、机场和工业企业的物联网位置服务提供商。

像 Acuity 这样的解决方案通常用于店内导航:那些为室内顾客提供路线指导的“蓝点寻路”应用程序,或者商店员工从货架上快速挑选产品以进行“点击取货”订单。它们还可以用于提供匿名的总客流量分析,帮助公司了解客户或员工在哪里花费的时间最多(或最少),这有助于改善营销决策。

但是最近,对话发生了变化。

“在过去的几周里,我们一直在为零售商开发碰撞检测系统。这项测试现在使用购物车,但也可能用于员工。人们聚在一起,待在一起。所以,我们需要找出症结所在,”卡什说。

这些夹点可以在热图上以彩色花朵的形式表示,热图是企业用来匿名观察人口密度和遵守社交距离准则的图形仪表盘可视化,或者根据高流量确定应该清理的区域。

亚马逊推出“远程助手”,鸣谢:亚马逊

恢复需要大规模的接触追踪

约翰·霍普金斯彭博公共卫生学院的一份报告概述了缓解美国重返工作和学校的社会距离的要求,更重要的是,推动经济发展。在最优先的事项中,他们的卫生专家表示,美国需要 1)快速诊断测试的便捷途径,2) 免疫识别,以及 3)追踪报告病例的所有接触者的能力,以识别和警告那些可能接触过新冠肺炎的人。

挑战在于如何大规模实现接触追踪。为了支持这一需求,约翰霍普金斯大学估计需要 36 亿美元的紧急资金和 10 万额外的人。

根据国家公共电台的调查,目前的 37,110 名接触者追踪人员仍然远远不能满足这一需求,并且考虑到他们目前的病例数,只有 7 个州和哥伦比亚特区有人员控制疫情。

“想象一下,如果一名员工报告说他们生病了,那么我们就可以确定还有谁和他们一起轮班,”Cash 说。

为了利用技术大规模解决联系人追踪问题,苹果和谷歌宣布建立合作伙伴关系,提出一种去中心化的模式。他们的解决方案利用智能手机上的蓝牙来记录使用同一平台的其他设备,如果它们距离很近的话。如果一个人冠状病毒测试呈阳性,它将提醒任何其他人在 14 天内遇到他们。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由米卡·鲍梅斯特Unsplash 上拍摄

但是苹果-谷歌系统是如此的封闭,以至于卫生官员说该软件将没有多大用处,只有阿拉巴马州、南卡罗来纳州和北达科他州确认使用该技术。其他 16 个州完全排除了联系人追踪应用的开发。

“我认为,如果你问大多数人,‘你相信谷歌会尊重你的隐私吗?’。。。他们不信任谷歌,”共和党参议员比尔·卡西迪说,他是 6 月份公布的监管联系人追踪应用程序的两党提案人。

除了全球官员的怀疑,这种方法还面临着任何移动应用程序的另一个障碍:认知度和采用率。华盛顿邮报-马里兰大学的一项调查发现,一旦苹果-谷歌联系人追踪应用发布,近五分之三的美国人不愿意或无法下载,43%的人普遍怀疑科技公司保护个人隐私的能力。

根据牛津大学的一项研究,这还不够。为了有效阻止疫情,研究人员确定至少 60%的人口需要使用数字接触追踪应用程序。

政府措施无效

然而,一个例外是越南及其 9500 万人口,到目前为止,越南没有因冠状病毒而死亡的,这主要部分归功于全国性的强制接触者追踪计划。他们的严格版计划在印刷品和电视上公开患者的身份,以告知公众受试者以前的目的地,这样,如果公民在同一时间访问过,他们可以联系当地的卫生当局。

如果每个州使用不同的协议开发联系人追踪应用程序,那么对于跨州旅行的公民来说,互操作性就成了一个问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由埃里克·麦克莱恩拍摄

在新加坡,当局推出了首批联系人追踪应用程序之一,接受率仅达到 20%。在挪威,21%的采用率仅略高于此。

在美国,强制性的项目是完全不可能的,而且病人身份的公开会与许多隐私法和健康法规相冲突。但是对于那些通过移动应用程序实施某种形式追踪的州来说,挑战在于一致性。如果每个州使用不同的协议开发联系人追踪应用程序,那么对于跨州旅行的公民来说,互操作性就成了一个问题。

一些政府仓促行事,跌跌撞撞,然后努力却未能赢得公众信任。对北达科他州和南达科他州的 Care19 移动追踪应用程序发布后的分析发现,通过与 Foursquare 共享公民位置和其他个人数据,违反了自己的隐私政策。Foursquare 通过一名发言人表示,他们“没有以任何方式使用这些数据,这些数据很快就会被丢弃”,根据最先发现这一问题的分析师的说法,这一数据泄露事件已于 6 月份在关闭

私营部门对安全和接触者追踪的做法

雇主们不能再等了,正在研究其他方法来实现复苏:最初是在上班前进行体温检查和员工自我调查。

零售业现在有一种甚至是医疗行业都缺乏的能力:每天有数百万人使用的 iOS 和 Android 上的位置感知应用程序可以支持联系追踪。

可穿戴设备制造商 Fitbit 最近发布了一个结合健康指标、症状检查和问卷调查的解决方案。根据 Fitbit health solutions 的网页,他们的 Fitbit Care Ready for Work 项目面向雇主,雇主可以查看仪表盘来监控员工重返工作岗位的准备情况,这有助于为工作场所协议、业务连续性和公司风险状况提供信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由突发发自像素

利用移动应用程序和生物识别设备可以提供比现场温度检查更高级的警告。斯坦福大学基因组学和个性化医学中心主任迈克尔·斯奈德博士在 Fitbit 的公开声明中说:“可穿戴设备非常强大,因为它们可以测量生物特征的细微差别,这些细微差别可能表明常规医生诊所就诊时无法检测到的疾病发作。”。“在测量心率时,即使每分钟心跳增加两次,也可能表明免疫系统有明显反应,这就是为什么可穿戴设备可以成为评估员工准备重返工作时整体健康状况的重要工具,特别是在评估有症状和无症状的新冠肺炎病例时。”

与亚马逊使用摄像机相比,早期的 Acuity 飞行员使用 iOS 或 Android 智能手机检测碰撞和集群,这些智能手机与天花板上的智能照明网络通信。

这引发了新的对话,有可能在工作场所接触到 trace。“找到聚集在商店里的员工是一种可能。我们正在探索性地讨论如何扩展这一场景,“共享现金”。“想象一下,如果一名员工报告他们生病了,然后我们可以确定还有谁和他们一起轮班。”

一种新颖的方法怎么样:位置感知移动应用

雇主们正试图解决社交距离问题,但他们的联系追踪解决方案仍然只通知那些在工作场所的人。准确跟踪办公大楼外的位置和联系仍然是经济发展的一个挑战。此外,随着越来越多的工人转向在家工作,这些解决方案不太可能在工厂、制造设施和配送中心之外产生影响。

企业可以解决采用挑战、大规模匿名追踪,并为经济带来更广泛的影响,因为零售业现在有一种甚至医疗保健行业都缺乏的能力:每天有数百万人使用的 iOS 和 Android 上的位置感知应用程序,这些应用程序可以支持联系追踪。

这些移动应用程序不会用于传输个人身份(PII)或健康信息(PHI),而是仅限于位置数据和匿名设备标记。相比之下,Fitbit 向云端传输的个人数据更多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马库斯·温克勒在 Unsplash 上的照片

担心从手机上共享移动位置数据?你现在就做。零售应用主要用于浏览产品、管理购物清单和订单提货。Kroger iPhone 应用程序在设置页面中解释说,启用位置跟踪“可以实现更流畅、更高效的提货体验和个性化的店内购物。”使用地理围栏和室内定位,他们还通过导航(“寻路”)引导客户找到产品,或通过个性化报价通知客户。

例如,当你走过麦片货架时,玉米片的应用内折扣可能会激活。通过使用与苹果 iOS 或安卓移动设备通信的蓝牙信标或智能照明网络,一些定位系统可以实现高达 4 英寸的定位精度。然后,实时数据被吸收到高级数据模型中,以产生高度个性化和位置相关的报价。许多应用程序还通过 GPS 或 WiFi 使用位置跟踪,并可以在用户同意的情况下在商店内外的后台运行。

那么,如果一个零售商联盟匿名化他们的客户定位数据,并在公共健康危机中使用人工智能,而不是在移动设备上使用该技术来获得位置感知的数字优惠券,会怎么样?想象一下,塔吉特、沃尔玛、克罗格、沃尔格林、CVS 和其他主要零售商通过数据共享合作开展回归商业活动。

零售商拥有基本要素:1)数百万忠实客户,2)苹果和谷歌 Play 应用商店提供的位置感知移动应用程序,3)共享匿名位置数据的许可,以及 4)他们是值得信赖的品牌,每天为数百万人提供杂货和健康需求。

批准了吗?

鉴于零售已经提供了安全指导,扩大了招聘,对基本商品的销售保持开放,并正在进行 COVID 测试以填补公共空白,与科技巨头相比,获得用户对匿名位置数据共享的采用和同意可能并不那么困难。

人们相信沃尔玛、CVS 和沃尔格林每年能为30 亿张处方配药。作为基本商品和服务的提供者,他们中的许多人甚至在隔离检疫之前就已经被消费者依赖来提供食物和健康咨询服务。如果沃尔玛继续在佐治亚州的铺开,它可能会成为你新的值得信赖的慢性和急性医疗保健提供商。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

沃尔玛健康诊所(来源:沃尔玛)

考虑现有的用户群;CVS 拥有 6200 万名忠诚计划会员。沃尔格林在 2019 年超过了5000 万应用安装量,其中有 9000 万忠诚计划会员。在美国零售巨头沃尔玛,每周有近 2 . 65 亿人访问他们的商店,每月有 8605 万用户访问他们的应用。即使主要零售商之间存在客户重叠,这也是应用采用的巨大基础。

与苹果的应用程序或政府主导的场景相反,最终用户可能会被鼓励根据个人偏好和对每个组织的隐私政策的舒适度,在零售合作伙伴级别选择加入(或退出),类似于在 ios 中应用个人设置以通过应用程序进行通知或位置跟踪的方式。

尽管如此,这仍需要对匿名合作伙伴信号进行集中管理,并为用户输入和管理其 COVID 相关测试提供安全界面。

如果不是苹果-谷歌,这就引出了一个问题:谁可能成为商业合作伙伴的集中枢纽,获得大量移动遥测数据。“迄今为止,大多数零售商都避开了顾客数据和任何与 PII 有关的东西。卡什说:“要让这种事情发生,你需要一个可信的第三方来仲裁数据交换。”

那会是谁呢?《华盛顿邮报》和马里兰大学的民意调查对此有所启发。调查受访者表示,在保护联系人追踪应用程序的匿名性方面,大学(56%)和公共卫生机构(57%)的信任度高于科技公司(43%)。

因此,如果零售消费者健康公司与可信的公共卫生机构合作,它们或许能够解决接触者追踪的一个重要需求:匿名收集的位置数据。

隐私第一

仅仅因为我们有能力,并不意味着我们应该不顾一切。要实现这一点,有几个技术、伦理和法律方面的考虑。从 GPS 到蓝牙、WiFi 和可见光通信,存在不同的技术,每种技术都有不同程度的准确性。有些,像 GPS,在室内并不总是一致的。

接下来,不应轻视同意和隐私。大多数应用程序都有条款和条件条款,授予发布者与第三方共享数据的权利。然而,这通常仅限于营销目的或利用诊断数据优化应用体验。

Fitbit 的隐私政策确实包括通知用户,他们的去身份数据可能会被用于研究,例如在一项为期两年的研究中使用的那种数据,该研究确定了使用可穿戴设备对流感样疾病进行实时监测的改进。

“我认为,如果你问大多数人,‘你相信谷歌会尊重你的隐私吗?’。。。他们不信任谷歌。"

立法者想要更进一步。“暴露通知隐私法案”将要求公司开发接触追踪应用程序,与公共卫生官员合作。它还规定收集的数据不得用于商业目的,并允许用户随时删除他们的数据。

最后,这种挑衅只能用以下原则来探讨:解决方案必须首先寻求“不造成伤害”,它必须只用于接触意识的目的,它必须保护用户的权利和隐私,它必须匿名化他们的身份。但是,如果在道德和安全的条件下进行管理,零售商和卫生合作伙伴的联盟可以使用标准化的接触追踪方法加快经济回报。

Covid 死亡预测不断变化是我们的错

原文:https://towardsdatascience.com/covid-coronavirus-forecasts-are-wrong-88f99bf8603e?source=collection_archive---------57-----------------------

这么多缺点,这么少时间

5 月 4 日,华盛顿大学的健康指标和评估研究所 (IHME)更新了用于预测美国 Covid 相关死亡的估计框架。在他们的站点上报告的实质性变化反映了与社会距离政策相关的流动性,修正了报告的病例,以说明增加的检测和驱动因素,如温度、人口密度和人均检测。

他们还将死亡人数上调至 134,475 人。就在 3 天前,这一数字为 72,433。

事实是,美国政府和卫生官员所依赖的 IHME 预测自 3 月以来就像坐过山车一样,只是不明显。

由于 IHME 网站上的预测可视化是动态的,普通访问者很难看到这些随时间的波动。而且,大多数新闻周期只报道最近的 delta,这也无助于问题的解决。由于 IHME 没有提供他们的可视化档案,我使用了他们免费提供的数据制作了下面的预测死亡时间图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据来源:IHME 图片来源:大卫·莱博维茨

以“相同的数字”结束

在 3 月 30 日的新闻发布会上,冠状病毒应对协调员 Deborah Birx 博士提到了 12 个已经接受审查的全球模型。虽然没有分享原因,但他们排除了这些原因,而是“从头”开发了一个新模型,随后了解到来自 IHME 的研究。Birx 博士最终预测了 IHME 的未来,因为他们“最终的数字是一样的”

自那以来,政府和卫生官员一直依赖 IHME 模型进行冠状病毒规划,扩大社会距离指导方针,制定遏制战略,最近还计划在州一级放松就地安置限制,以支持经济复苏。由于 IHME 修改了他们的数据,他们对最好情况的预测在新闻发布会上被重复。

例如,在 5 月 1 日的新闻发布会上,唐纳德·特朗普总统在谈到冠状病毒时说,“希望我们的死亡人数低于 10 万人”,指的是平均预测的上限。就在 4 天前,政府公布的平均死亡人数超过了 70,000 。两周前的 4 月 20 日,这个数字是 60,000 。都是基于 IHME 模型。

虽然对感知的门柱运动可能有合理的担忧,但它转移了更深层次的问题:我们中很少有人(从行政部门,到新闻媒体,到每个社交媒体扶手椅数据科学家)一直在仔细检查足球场本身。

因此,通过省略,大多数新闻报道,新闻简报和死亡预测的盲目推特都可以被解读。

这是怎么回事?

IHME 模型利用来自全球各地的数据,以及假设遵守美国的应对策略(学校关闭、就地安置命令、非必要的商业关闭)来预测峰值医疗需求和预测死亡人数。既然 IHME 提供的学术分析部分由知名慈善家资助,我就用马文·盖的话说,“到底怎么回事?

“IHME 的预测不是基于传播动力学,而是基于一个没有流行病学基础的统计模型。”

有几个因素需要考虑。首先,正如《内科医学年鉴》所言,“IHME 的预测不是基于传播动力学,而是基于没有流行病学基础的统计模型。”他们没有使用流行病学学科,而是选择基于中国武汉的病例和死亡轨迹以及意大利和韩国的指标建立模型。

第二,IHME 使用了过于乐观的预测,以至于模糊了一些相当复杂的假设和限制,其中一些在 3 月底和 4 月初的美国并没有得到一致执行。正如你将在下面的截图中看到的,描述、上下文和可视化格式一直在变化。

最后,我们应该受到责备,因为我们盲目地抓住标题上的 ,而没有仔细检查来源和要求上下文。

为 IHME 说句公道话,spartan projection 页面包含了每款车型变更的公布结果,并提供了更新说明的链接。但我怀疑,对报告的审查与软件更新前的 iOS 许可协议一样严格。像许多申请条款一样,我们只需滚动到底部,点击“同意”,就可以进入下一步了。然而,问题在于所有这些细节和假设,尤其是当目标和背景不断变化的时候。

例如,请注意这张 5 月 1 日 IHME 预测页面的截图。过度宽泛的免责声明“在感染最小化和控制实施之前保持社会距离”显示在文件夹的顶部。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者截图 IHME 新冠肺炎预测(截至 2020 年 5 月 1 日)

但是在 5 月 4 日,修正后的模型预测几乎是几天前预测的两倍,没有任何警示性的假设。他们还选择平滑可视化,而不是之前基于报告滞后的直线图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者截图 IHME 新冠肺炎预测(截至 2020 年 5 月 4 日)

利用中国的应对策略预测美国的结果

在 3 月 27 日发表的第一篇论文中,IHME 概述了对呼吸机需求和医院床位过剩的初步预测,以及超过 81,000 人的死亡预测。当该模型首次推出时,美国许多州尚未实施社交距离政策,那些实施的州也不一致。尽管如此, IHME 利用来自其他国家(主要是中国和意大利)的趋势、预测和死亡人数来预测美国的结果

但每个国家对冠状病毒的反应不同,速度和效果也不同。与美国相反,中国行动迅速:他们有现成的免费检测,建立了 1000 个床位的医院,制定了快速检测方案,在武汉等热点地区停止公共交通,强制隔离,并试图追踪接触者。所有这些举措在病毒在美国爆发时都是不可能的。

截至 5 月 4 日,IHME 似乎终于收到了消息,承认,“越来越清楚的是,新冠肺炎疫情轨迹——以及相应的反应——在世界各地高度可变。”丫的,觉得怎么样?

其次,他们用来预测美国死亡率的国际死亡人数并不完全准确。意大利一直被无辜地低估了死亡人数,因为许多人没有被送往医院或接受检查就死亡了。相比之下,正如美国中央情报局官员在《纽约时报》的一次曝光中所称,小说作品正从中国流出。在信中,他们声称中国一直在大幅少报冠状病毒感染,因为中国的中层官员害怕受到惩罚,一直在感染率、检测和死亡人数上撒谎。

无论是由于疫情战争迷雾中的诚实错误,还是有意的谎言,问题仍然存在:看不见的和未统计的死亡没有被包括在 IHME 直到四月中旬的预报中。

不现实的乐观

尽管这些早期的挑战,IHME 已经受益于时间来提高预测的准确性:他们现在使用约翰霍普金斯大学(JHU)的实际死亡人数,并包括州级社会距离测量的假设。

因此,4 月 17 日的预报带来了一些更新,正如他们宣称的那样,带来了模型的“实质性”改进。这也是他们预测的迄今为止最低的死亡人数(60,308 人)

这遭到了一些质疑。

当时, IHME 模型被福布斯称为“ 不切实际的乐观,而纽约时报认为,与哥伦比亚大学、东北大学和其他机构的基于流行病学的模型相比,“不那么悲观”。

尽管为重新开放策略和每个州可能放松限制的日期提供了非常规范性的指导,IHME 在他们的预测中根本没有应用这些。

4 月 17 日的更新也为各州提供了放松社交距离限制的指导。例如,他们建议纽约、新泽西和康涅狄格最早可以在五月底考虑放宽社交距离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:IHME 2020 年 4 月 17 日估计更新

但是,尽管为重新开放策略提供了非常规范性的指导,以及每个州可能放松限制的日期,IHME 实际上根本没有在他们的预测中应用这些。根据他们的常见问题解答,截至 4 月 17 日,他们的预测“不再考虑社交距离任务的可变性”。

相比之下,宾夕法尼亚大学沃顿商学院(Wharton School of the University of Pennsylvania)开发了一种建模工具来可视化各州重新开放的健康和经济影响,称为冠状病毒政策响应模拟器。他们将该工具描述为使用“流行病学框架和经验估计来模拟放松国家封锁政策的健康和经济影响。”

如果各州开始部分重新开放,沃顿工具预测,除了 115,937 例 Covid 相关死亡的基线外,还有 43,683 例死亡。他们将部分重新开放定义为解除紧急状态声明、在家呆着的命令和学校关闭。

模拟器进一步预测,如果取消所有限制,包括取消除部分重新开放标准之外的商业和餐馆限制,到 6 月 29 日,死亡人数将增加 222,823 人(总数为 338,760 人)。

一些预测者采取了不同的方法来预测信心,以解释 IHME 的乐观情绪。德克萨斯大学奥斯汀分校的一个财团审查了 IHME 模型,目的是使用 GPS 信号模式而不是使用其他国家的趋势来校正它。在他们的研究过程中,他们注意到IHME 模型显示** 越是展望未来就越能增加确定性。换一种方式来说,人们可能会对预测近几英寸的降雨量有更高的信心,而不是预测未来六周的降雨量。**

这可能是东北大学只会提前两周预测死亡人数的原因。相比之下,IHME 声称从开始到 8 月 4 日已经进行了四个月的预测。尽管连日期都不确定。尽管保留那个日期,因为我们稍后将回到它。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

东北大学网站作者截图(2020 年 5 月 2 日)

背景很重要:“低于 10 万英镑”…到什么时候?

想想其他疾病和疾病的预测是如何发布的:疾病预防控制中心估计,在 2017-2018 流感季节期间,美国有 61,000 人死于流感**,并声称每年有 647,000 美国人死于心脏病。它们包括一个时间段。**

但是参考 Covid,通常省略相同的基于持续时间的上下文。在很大程度上,头条新闻和简报只是简单地陈述了总死亡人数。例如,美国新闻&世界报道在 4 月 6 日的一篇文章中吹捧较低的预测,称“新的评估预测大约 81,766 人死亡。”NPR4 月 9 日,以“冠状病毒死亡人数可能更像 6 万人”为标题这两个故事都没有提到那个时期。

回想一下,在 5 月 1 日的新闻发布会上,总统的声明也没有澄清时间,“希望我们的死亡人数低于 10 万,尽管这是一个可怕的数字。”

想想来自 IHME 本身的报道。他们在 4 月 5 日的新闻稿中声称,“IHME 预测死亡人数为 81766 人,范围在 49431 到 136401 人之间。”在这份 780 字的声明中,没有对死亡人数的日期范围或波动进行限制。这是夏末的天气预报吗?12 月 31 日?隔离的终结?

因此,通过省略,大多数新闻报道,新闻简报和死亡预测的盲目推特都可以被解读。

所以,问问你自己这个问题:当你阅读这些报道,或者在 3 月和 4 月的预测中提到的类似报道时,你认为它们是什么意思?疫情持续期间或疫苗研制出来之前的死亡人数可能是可信的答案。另一个合乎逻辑的含义可能是截至 12 月 31 日的一年,或者是一个季节,与类似流感的统计数据保持一致。

但是这些假设都不是真的。

据《IHME》报道,那里的 预测的结束日期,一些新闻媒体已经开始关注这一消息。在 Forbes 文章中,他们称,“根据 IHME 模型,到 2020 年 8 月 4 日疫情将接近尾声”,“到那时,每日死亡率将降至零。”他们使用这个日期大概是因为图表上标有“预计到 2020 年 8 月 4 日”

但更奇怪的是,为期四个月的预测“8 月 4 日”实际上将于 7 月 6 日结束。当你看到我从 IHME 网站上想象出来的这个形象时,请让这一点沉淀一会儿。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者生成的图片来自 IHME 网站(2020 年 5 月 1 日)

动画显示(截至 5 月 1 日,当我在上面抓图时)在美国,我们将在 7 月 6 日达到 72,433 的最大预计死亡人数,然后一直到 8 月 4 日。如果你认为这意味着 7 月 6 日之后不会再有死亡预测,那么你就完全同意 IHME 的观点。

5 月 4 日的更新在此基础上略有改进,取消了 IHME 自 3 月 28 日以来一直使用的平线结果。正如你在下面的截图中看到的,这将 7 月 6 日的预测调整为 130,255 人死亡。或者换句话说,在预测死亡人数(134475)的 96.9%以内。按照这种逻辑,他们假设在从 7 月 6 日到 8 月的近 30 天内,只有 4220 人会因冠状病毒而丧生。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者生成的图片来自 IHME 网站(2020 年 5 月 4 日)

IHME 在他们的论文中详述了他们的逻辑,指出新冠肺炎的死亡率将在五月或六月下降到百万分之 0.3 以下,因此在统计上不再重要。

更简单地说,他们在他们的常见问题中解释说,“假设当前的社会距离措施保持不变,直到感染最小化,遏制战略得到实施(作者注:之前报道过,现在已从预测页面中删除),我们的模型预测,到这个日期在你所在的地方,新冠肺炎的死亡人数将接近于零。”这不仅是一个慷慨的免责声明,它还允许众所周知的目标不断移动。还记得德克萨斯大学研究所提到的关于未来预测确定性的说法吗?

与 IHME 预测的新冠肺炎死亡率相比,CDC 发现流感的死亡率为每 100,000 人口中有 2.0 人死亡。尽管流感的发病率已经超过了整个季节,而且 Covid 的假设是,在它的周期结束时,发病率将会显著下降,但这似乎仍然令人怀疑。对于流感,测试和流感疫苗都可以广泛获得。对于 Covid,我们两者都没有。假设仅仅是社会距离就能在两个月内使这种侵略性病毒的死亡率低于流感,这是值得怀疑的。

其他奇闻

**你在上面的死亡预测虚线图周围看到的阴影带显示了预测范围的上下限。尽管这是合理的,因为预报由于其不精确的性质将包括范围,但有趣的是,在 4 月 27 日,超过 56,000 人死亡,然而 IHME 同一日期预报范围的下限奇怪地位于 56,563。4 月 29 日,平均预测的下限是 59343 人,尽管 JHU 报告的死亡人数超过了 6 万 **。这就像天气预报员预测当天的温度在 45 到 67 度之间,而在他的直播中,外面的温度是 29 度,还下着雪。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据来源:IHME(2020 年 5 月 1 日)

驾驭预测浪潮

有趣的是,一个新的短语不时出现在 IHME 死亡预测中,尽管没有显示在他们的预测页面上。这个术语现在指的不是八月份的死亡人数,而是第一波病毒。

然而,IHME 报告并没有对给出明确的定义,并且没有上下文允许目标也在这里改变。第一波可能包括一系列需要满足的条件,如冠状病毒病例在一段时间内的下降趋势,或传播速度。第一波可能是大多数州重新开门营业的时候。没有定义,它可能是任何东西。

值得注意的是,随着 5 月 4 日最近的模型变化,更新页面的解释,以及投影可视化现在明显缺少单词“wave”或短语“first wave”

第一波确实有可能是 IHME 在三月份定义的任意的四个月窗口(截止于 8 月 4 日)。他们毕竟创造了这个短语。他们不会使用未来滚动期预测(如东北大学的两周展望),而是会继续更新他们对 8 月 4 日或某个任意波动结束条件的预测。所以最后,死亡预测总是准确的。

这就像在足球比赛的最终比分上下赌注,并在每次触地得分和每个球员受伤后更新您的赌注。要是我的经纪人能给我这样的自由就好了。我的预测将是完美的。

(编辑于 5.16.20:更正了指向《纽约时报》文章的超链接)

关于新冠肺炎的 CT 扫描数据集

原文:https://towardsdatascience.com/covid-ct-dataset-a-ct-scan-dataset-about-covid-19-fb391de55ae6?source=collection_archive---------22-----------------------

促进人工智能研究使用 CTs 对抗新冠肺炎病毒

(数据可在https://github.com/UCSD-AI4H/COVID-CT获得)

截至 2020 年 3 月 30 日,冠状病毒疾病 2019(新冠肺炎)已影响到全球 775,306 人,并导致 37,083 人死亡。控制这种疾病传播的一个主要障碍是检测的低效和短缺。目前的测试大多基于逆转录聚合酶链反应(RT-PCR)。需要 4-6 小时才能得到结果,与新冠肺炎的快速传播速度相比,这是一段很长的时间。除了效率低下,RT-聚合酶链式反应测试试剂盒严重短缺。

这促使我们研究替代的检测方式,这可能比 RT-PCR 更快、更便宜、更有效,但与 RT-PCR 一样准确。我们尤其对 CT 扫描感兴趣。已经有几项研究 CT 扫描在筛查和检测新冠肺炎中的有效性的工作,并且结果是有希望的。然而,出于隐私考虑,这些作品中使用的 CT 扫描并不与公众分享。这极大地阻碍了更先进的人工智能方法的研究和发展,以更准确地测试基于 CT 的新冠肺炎。

为了解决这个问题,我们建立了一个 COVID-CT 数据集,其中包含 275 次新冠肺炎阳性的 CT 扫描,并对公众开放源代码,以促进新冠肺炎基于 CT 的检测的 R&D。从 760 份关于新冠肺炎的 medRxiv 和 bioRxiv 预印本中,我们提取报道的 ct 图像,并通过阅读这些图像的标题来手动选择那些包含新冠肺炎临床发现的图像。下图显示了数据集中的一些示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们数据集中的新冠肺炎联系类型示例。

我们在 183 个 COVID ct 和 146 个非 COVID CT 上训练了一个深度学习模型,以预测 CT 图像是否对新冠肺炎呈阳性。我们的模型在 35 台 COVID CT 和 34 台非 COVID CT 上进行了测试,F1 得分为 0.85。结果表明,CT 扫描是有希望的筛查和测试新冠肺炎,但需要更先进的方法来进一步提高准确性。

数据和代码可在 https://github.com/UCSD-AI4H/COVID-CT获得

更多详情请参考https://github . com/UCSD-AI4H/COVID-CT/blob/master/COVID-CT-dataset . pdf

科维德-CXR:一个开源的可解释的深度 CNN 模型,用于预测胸部 X 射线中新冠肺炎的存在

原文:https://towardsdatascience.com/covid-cxr-an-open-source-explainable-deep-cnn-model-for-predicting-the-presence-of-covid-19-in-75a83b26cab5?source=collection_archive---------28-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:解释二元模型对测试集中的一个新冠肺炎例子的预测的例子。有助于(绿色)和反对(红色)新冠肺炎预测的彩色区域。

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

乔维德-CXR

为了对新冠肺炎疫情的全球反应做出贡献,我和 Blake VanBerlo 正在发布一个开源的可解释的机器学习模型【covid-cxr,它成功地从胸部 x 光片中预测了新冠肺炎的存在。这项工作来自加拿大伦敦市的人工智能研究和创新实验室。这是一个原型模型,还不是一个诊断工具。它建立了一个基础,如果有更多的数据和临床专业知识,这种模式可能会对全球抗击新冠肺炎产生重大影响,特别是在世界上的农村地区,x 射线比当前使用 RT-PCR 的检测试剂盒基础设施更容易获得,周转更快。

COVID-CXR 是一种深度卷积神经网络,允许二进制和多类分类。对大约 1000 个新冠肺炎阴性和 76 个新冠肺炎阳性的胸部 x 光片训练二元分类器。我们小心翼翼地加入更多新冠肺炎的负面形象,担心会造成太大的阶级不平衡。给定这个相对较小的训练数据集,我们在测试集上实现了令人鼓舞的模型指标,AUC 为 0.9633,灵敏度或召回率为 0.875。要更深入地了解这个模型,请查看我的同事布莱克的文章。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2:深度 CNN 模型架构

我们已经注意到上周其他一些研究人员也在探索这个问题,但他们的建议有重大缺陷: a) 他们缺乏可解释的人工智能,使模型能够解释其预测。这对于在医疗保健环境中建立临床医生的信任,以及确保该模型不拾取无意义的相关性是必不可少的; b) 它们只是学术探索,其代码的可扩展性有限,因此限制了医疗保健机构快速构建模型并在临床环境中将某些东西投入生产的能力;或者 c) 利用了多个数据集,这些数据集以这样或那样的方式向模型泄露了基本事实,并导致了错误的高模型度量。这个库通过可解释、可扩展和良好的测试减轻了这些问题。我们还试图确保它是模块化的,并有良好的文档记录,以提高临床医生和数据科学家构建和贡献模型的速度。未来几周,我们将继续向模型库添加功能。

COVID-CXR 的未来发展

我们对该模型的后续步骤包括:

  1. 使用资源充足的云计算基础设施进行详尽的模型架构超参数搜索,以找到不受计算机 GPU 限制的最佳模型。
  2. 在放射科医师的帮助下继续改进模型的解释,以进行特征工程和其他模型改进(目前使用局部可解释的模型不可知解释,时间)。
  3. 通过执行医疗从业者与伦敦市之间的数据共享协议,与医疗从业者合作,整合更多数据以支持改进模型指标。

呼吁合作

我们邀请所有数据科学和医疗保健从业者与我们合作。如上所述,这个模型是一个原型,我们需要更多的数据和更多的临床专业知识来扩大这个模型。如果您对合作感兴趣,请通过以下信息联系我们:

马特·罗斯,
人工智能经理,
信息技术服务,
城市经理办公室,
伦敦金融城公司
maross@london.ca

资源:

关于模型的技术文章
我们模型的 GitHub 库

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

Covid Data Science 推出预测和概率引擎

原文:https://towardsdatascience.com/covid-data-science-launches-forecast-engine-88c31c4976d7?source=collection_archive---------53-----------------------

为新冠肺炎建立一个工作预报模式

由于新冠肺炎继续在世界各地造成破坏和疾病,我们决定创建一个工具,将人口与最近的病例结合起来,预测被感染的概率。这一工具现在可供公众和政府机构成员使用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该数据适用于美国所有县、州和许多国家的省。这段视频深入探讨了这一主题,但我们只是用 7 天的时间创建了一个日平均值,然后用总体来计算概率。我们还应用了一些特殊的逻辑规则来帮助我们处理数据馈送中令人头疼的问题,比如空值和国家值在只能上升的时候下降。

我们还开发了一个 ARIMA 模型,在这个模型中,您可以向前移动时间(最多 10 天)来查看病例将如何增加。该模型使用过去 7 天和预计衰变率来尽可能准确地预测病例数。

我们的分析部分有一个每日指数增长图,这非常有利于了解增长何时放缓,但可能至少在未来 7-14 天内还不会显示在每日案例中。我们还有一个图表,可以让你选择任何地点的组合,并根据进入疫情的天数进行比较,这样更容易看到不同国家的反应。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Covid 数据科学可以访问这里

Covid 数据科学由数据科学家、程序员和机器学习专家组成。

用非常简单的逻辑回归检测假新闻

原文:https://towardsdatascience.com/covid-fake-news-detection-with-a-very-simple-logistic-regression-34c63502e33b?source=collection_archive---------18-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:Unsplash

自然语言处理,NLP,Scikit Learn

这一次,我们将使用我不久前收集的数据,创建一个简单的逻辑回归模型来将 COVID 新闻分类为真或假。

这个过程出奇的简单和容易。我们将清理和预处理文本数据,使用 NLTK 库执行特征提取,使用 Scikit-Learn 库构建和部署逻辑回归分类器,并在最后评估模型的准确性。

数据

数据集包含 586 条真新闻和 578 条假新闻,几乎对半分割。因为数据收集偏差,我决定不使用“源”作为特征之一,而是将“标题”和“文本”合并为一个特征“标题 _ 文本”。

fake_news_logreg_start.py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预处理

让我们来看一个标题文字组合的例子:

df['title_text'][50]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

看看上面的标题和文本的例子,它们非常干净,一个简单的文本预处理就可以了。因此,我们将剥离任何 html 标签,标点符号,并使他们小写。

fake _ news _ logreg _ 预处理. py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下面的代码将标记化和词干化技术结合在一起,然后在“title_text”上应用这些技术。

porter = PorterStemmer()def tokenizer_porter(text):
    return [porter.stem(word) for word in text.split()]

TF-IDF

这里,我们将“标题 _ 文本”特征转换成 TF-IDF 向量。

  • 因为我们之前已经将“title_text”转换为小写,所以这里我们设置了lowercase=False
  • 因为我们已经注意到并对“title_text”应用了预处理,所以这里我们设置了preprocessor=None
  • 我们用之前定义的标记化和词干化的组合来覆盖字符串标记化步骤。
  • 设置use_idf=True启用逆文档频率重新加权。
  • 设置smooth_idf=True以避免零分割。

fake_news_logreg_tfidf.py

文献分类的逻辑回归

  • 我们可以使用一个估计器LogisticRegressionCV,而不是手动调整 C 参数。
  • 我们指定交叉验证折叠的数量cv=5来调整这个超参数。
  • 型号的度量是分类的accuracy
  • 通过设置n_jobs=-1,我们将所有的 CPU 内核专用于解决问题。
  • 我们最大化优化算法的迭代次数。
  • 我们使用pickle来保存模型。

false _ news _ log reg _ model . py

模型评估

  • 使用pickle加载我们保存的模型。
  • 使用该模型查看以前从未见过的数据的准确性得分。

fake_news_logreg_eva.py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Jupyter 笔记本可以在 Github 上找到。享受这周剩下的时光。

COVID19 —西班牙和意大利的情况是否特别危急?

原文:https://towardsdatascience.com/covid19-is-the-situation-in-spain-and-italy-particularly-critical-ca869a3d6bda?source=collection_archive---------44-----------------------

COVID19 上的信息图形和统计数据

本文通过一些信息图表和统计数据显示了意大利和西班牙的死亡率比率和严重病例数的异常情况。在这两个国家,与报告的严重病例数量相比,死亡人数过多。这怎么解释?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(数据来源:https://www . world ometers . info,图文: www.stoeckl.ai )

COVID19 病毒的危险已经并仍在被大量谈论和报道。一方面,他们试图从统计数据中得出结论,另一方面,媒体和私人接触中的报道描述了个人的情况和戏剧性。所以每个人都已经熟悉了一些报道,例如,一位意大利医生被指控。但在私人领域,经验的报告也在积累,这与仍在流传的那种“只是另一场流感”的报告相矛盾。因此,以下统计数据不应被用来淡化这种情况。

作为一名统计学家,我想回答一些关于国家间死亡率和重症比例差异的问题。

作为数据源我使用:

https://www.worldometers.info/coronavirus/

许多国家的数据是否是最新的:

  • 病例数、严重病例、当前病例
  • 新病例数
  • 死亡人数和新增死亡人数
  • 康复人数
  • 每百万人口的病例和死亡率

(评价时间:26.3。14:30)

对于有许多病例的国家,下面的柱状图显示了报告为严重病例的百分比。条形图的颜色表示该国迄今为止的病例数,颜色越深,病例越多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(数据来源:https://www . world ometers . info,图文: www.stoeckl.ai )

当然,像法国这样的国家(超过 11%的病例被列为严重)和像德国这样的国家(只有 0.06%)之间的巨大差异是惊人的。

这些差异从何而来?

死亡率差异的问题已经在报刊和文章中得到广泛讨论。媒体文章比较了意大利和韩国的情况。分析的重点是各国年龄结构和患者年龄结构的差异。

一项科学研究的讨论涉及死亡率以及中国和意大利年龄结构的差异。

奥派出版社讨论了许多原因,就像这篇文章一样。典型的奥地利方式是,由于“Ischgl”中的热点和来自那里的传播,奥地利和在奥地利有滑雪游客的国家的低死亡率,可以归因于年轻健康滑雪者的大比例。

瑞士出版社 论述了两个因素,一方面是年龄结构的差异,另一方面是医疗保健制度。

德媒 发挥作用的不仅有年龄结构医疗保健体系还有各国不同的检测方法

正如我的柱状图所示,不仅各国之间的死亡率有很大差异,而且重症病例的比例也有很大差异。这可能与我刚才列举的原因相同。

但是重症比例和死亡率之间应该有明确的联系。如果有很多严重病例,应该会有很多人死亡。看文章开头包括回归线的散点图。

意大利和西班牙的数据不在本报告中所有其他国家的数据之内。与重症病例的比例相比,死亡率太高了。对于所考虑的所有其他国家,这些点或多或少位于一条直线上(线性关系)。

这只能用意大利和西班牙较差的医疗体系来解释吗?或者这是否表明这两个国家的情况非常危急,以至于重病患者无法得到足够的治疗?

最后,来看看一张世界地图上的危重病例比例分布。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(数据来源:https://www . world ometers . info,图文: www.stoeckl.ai )

比例最高的重症病例(橙色)主要出现在欧洲。

COVID19:跟踪生长因子、每日新病例以及在哪里找到它们。(世界、澳大利亚、维多利亚)

原文:https://towardsdatascience.com/covid19-keeping-track-of-r0-and-where-to-find-them-world-australia-victoria-ab822e3da7e0?source=collection_archive---------25-----------------------

TLDR:人们很容易迷失在 COVID19 的噪音中,哪些新闻是真的,哪些是假的,应该关注哪些统计数据。答案:增长因素世卫组织,以及你的政府(如果你信任你的政府的话)。请访问本文末尾的链接。

认知状态:统计学学位?没有。流行病学学位?没有。写这篇文章时,我不够资格,也过于固执己见。(最后一次内容更新:2020 年 3 月 27 日)。(我之所以关注澳大利亚和维多利亚州的数据,是因为我目前在墨尔本工作。虽然我来自印度尼西亚,但我不太相信印尼的数据,无法从中做出任何分析。)

勘误表:为了表明我是多么不合格,我把 R0 误认为生长因子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

要跟踪 COVID19,需要注意哪些统计数据?照片由粘土堤Unsplash 上拍摄。(我真的很怀念总死亡人数只有 6 000 人的那一天)。

什么是生长因子?

生长因子,告诉你情况是变得更糟还是更好。增长因子=1 一般意味着我们已经走了一半,事情会变得更好。你可以停止恐慌,但要保持警惕。然而,增长因子并没有被大量发表,因为当数据真的很嘈杂时,很难推断出 R。我试过

所以,让我们记录每天的新病例。问自己一个问题:它已经达到顶峰还是正在下降?记住,这个数据是有噪音的,所以不要根据几天的时间就妄下结论。我通常会说,我们需要等待一到两个星期才能下定论。

在哪里,怎么做?

对于世界的数据,我相信约翰·霍普斯金。他们并不完美,所以也不要完全相信。这是链接:【https://coronavirus.jhu.edu/map.html】T4

[## 约翰霍普金斯冠状病毒资源中心

约翰霍普金斯大学全球公共卫生、传染病和应急准备方面的专家一直在…

coronavirus.jhu.edu](https://coronavirus.jhu.edu/map.html)

转至右下方,点击如下图所示的“每日增加”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://www.reddit.com/r/uselessredcircle/

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是 2020 年 3 月 27 日的数据。还在涨,不好。(记住,无论今天推出什么样的社交距离政策,其影响都只能在两周内看到。此外,无论这里展示的是什么,都是两周前世界正在做的事情的影响。)

澳大利亚

对于澳洲,我相信卫生部门:https://www . health . gov . au/news/health-alerts/novel-coronavirus-2019-ncov-health-alert/coronavirus-新冠肺炎-current-situation-and-case-numbers

向下滚动一点,你会发现:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每日新例是轴在左边的浅蓝色条形图。

好消息是,截至 2020 年 3 月 27 日上午 6:30,增长因子<1 for 3 days straight. Which means that the bar chart is steadily going down. Definitely too early to celebrate. But if this trends continues, the worse has come to pass. 假设这一趋势持续,峰值约为 2 000 例。因此,估计总数大约是这个数字的两倍,即 4 000 宗。澳洲有 90 000 张病床有 2000 台呼吸机,只有 19%表现出严重或更严重的症状(基于中国数据)。2 000 x 19% = 380 名严重或更严重的患者> 2 000 台可用呼吸机(尽管我们现有的患者已经因为非 COVID19 原因使用呼吸机)。所以看起来这是可以控制的。但是这只有在人们保持社交距离的情况下才是真的!人能做的最愚蠢的事情就是看着数据,把它曲解为事情已经结束,放松自己的社交距离,把之前的所有努力都付诸东流。

(也许在不久的将来(几周),政府可能会稍微放松社会距离,非常精确地控制即将到来的第二波,以可控的方式慢慢建立群体免疫。但是让我们把所有的决定都交给专家吧。)

维多利亚

对于维多利亚,也是该州的卫生部门:https://app.powerbi.com/view?r = eyjrijoiodbmmme 3 nwqtzwnlnc 00 owrkltk 1 njytmjm 2 yty 1 mji 2 nzdjiiiwidci 6 immwzta 2 mdfmlmtbmywmtndq 5 YY 05 yzg 4 lwex MDR jngviowyyocj 9

[## 电源 BI 报告

由 Power BI 支持的报告

app.powerbi.com](https://app.powerbi.com/view?r=eyJrIjoiODBmMmE3NWQtZWNlNC00OWRkLTk1NjYtMjM2YTY1MjI2NzdjIiwidCI6ImMwZTA2MDFmLTBmYWMtNDQ5Yy05Yzg4LWExMDRjNGViOWYyOCJ9) 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每日新例是左边有轴的深蓝色条形图。

真的慢下来了吗?真的很难讲。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

真的慢下来了吗?

有三次,我们的增长因子连续两三天小于 0,但第二天就飙升,达到一个新的高度,比以往任何时候都糟糕。这就是为什么我们必须等待一到两周才能得出任何结论,也不要对澳大利亚的数据过于乐观。

参考文献和致谢

所有图片均基于以下来源(除非另有说明。):

谷歌云平台上意大利案例的新冠肺炎公共数据集

原文:https://towardsdatascience.com/covid19-public-dataset-on-gcp-nlp-knowledge-graph-193e628fa5cb?source=collection_archive---------40-----------------------

在 BigQuery 和 Datastore 上公开提供来自真实患者病例的医疗记录和实体!

当医疗专业人员正在拯救世界的时候,我想到了我们这些数据科学家如何尽我们的一份力量来帮助解决新冠肺炎全球疫情问题(当然,除了呆在家里)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

桑迪·克拉克Unsplash 上拍摄的照片

像每一个自尊的数据科学家一样,在我信任的数据中。就在那时,我开始寻找新冠肺炎数据集,并偶然发现了意大利医学和介入放射学协会的网站。
除了拯救世界,他们还抽出时间定期更新网站,更新他们治疗的新冠肺炎病例的最新医学记录和医学图像的 pdf 文件。太棒了。

希望这个数据集将帮助研究人员和其他贡献者对抗冠状病毒全球疫情。潜在的应用包括但不限于:
-知识图表(例如揭示隐藏的模式……)
-Q&A 系统(例如实时 FAQ)或聊天机器人(例如规模客户服务)
-等等!!

那是旅程开始的地方。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

谷歌云管道架构

到本文结束时,您将得到 2 个数据集 :
1 个。big query 上的表包含意大利语(基本事实)、英语和策划英语的非结构化文本。
2。No-SQL 数据库,包含来自精选英语文本的分类医疗实体。

您将在本报告中找到所有细节,以重现相同的数据集,并做出您想要的更改,从而最大限度地满足您的需求。

一.数据提取

起点是一个带有医疗记录和图像的 pdf 文档。以下是提取数据的步骤:

  1. ISMIR 网站下载 pdf 文件(手动流程)
  2. 将每个案例的页面分开(手动流程)
  3. 使用 Google Cloud Vision API 提取文本— DOCUMENT_TEXT_DETECTION。

从 Vision API 解析 json 输出的函数

二。数据处理

不幸的是,医疗记录是意大利语的。以下是处理原始文本的步骤:

  1. 使用谷歌翻译 API 将意大利语翻译成英语

调用谷歌云翻译 API 的函数—批处理模式

2.管理文本:管理包括使用正则表达式删除文本(例如日期、图片标题…),删除自定义停用词等等…我发现这篇来自 KDnuggets 的文章非常有帮助。

3.从 Scispacy 中提取 UMLS 医疗实体,使用模型*“用更大的词汇量和 60 万字向量对生物医学数据进行训练”*。

函数从文本中提取医疗实体

三。数据存储

  1. 将原创和策划的文本上传到 BigQuery (repo 可以在这里找到)。该表包含 3 种格式的医疗记录的基本事实: raw_it_texteng_raw_txteng_txt (策划版本)。

包含所有提取文本的 FBQ 数据集

以下是查询公共 BigQuery 数据集的代码片段:

查询公共 BQ 数据库的 Python 示例代码

2.将每个病例的 UMLS 医疗实体上传至数据存储库(可在此处找到回购)

包含所有医疗实体的数据存储数据集

四。现在怎么办?

在这次旅程中,我直接从医生的笔记中了解了许多关于 COVID19 的知识。我注意到文本管理还远远不是最佳的。有大量的“垃圾”通过裂缝,并被错误地挑选为医学实体。

有趣的是,我发现“疾病或综合征”这个实体非常有启发性。事实上,它强调了病人表现出的所有症状(也称为共病)。正如所料,你会发现许多与呼吸衰竭症状相关的实体(如双侧间质性肺炎……)。然而,非常有趣的是,我们注意到许多病例也显示了心脏病相关实体(例如心包积液……)。

我也有责任敦促打算使用这个数据集的人在发表早期结论之前注意偏差(样本偏差、社会偏差、确认偏差和其他……)。

改进:

  • 在当前管道中,必须在上传所有感兴趣的文档后手动触发管道(批处理模式)。管道的下一个版本将包括云函数,一旦一个新的文档被放入桶中
    (即将推出…)
  • 使用数据丢失防护(DLP) API 对数据进行去识别。基于医疗机构 ISMIR 公开发布 pdf 的假设,此管道的第一个版本不包括删除 PII 信息的步骤。管道的下一个版本正在开发中,将包含这一特性。
    (即将推出…)
  • 我绝不是自然语言处理方面的专家,相反,我相信,通过更有意义的处理,英语文本的整理可以得到显著改善(如果你有任何建议,请随时贡献)。

就这样结束了!

希望这篇文章戳中你的好奇心!如果你有什么改进的建议,请告诉我。此外,请分享您对 Google Cloud 面临的任何问题的反馈或意见。

我希望听到任何能够利用这个数据集和/或代码的人的意见。对您正在进行的工作发表评论。

COVID19:策划的 7 大在线互动模拟。

原文:https://towardsdatascience.com/covid19-top-7-online-interactive-simulations-curated-fa4282889875?source=collection_archive---------21-----------------------

TLDR:交互式模拟是直观了解复杂系统的好方法。没有比流行病学更复杂的了。这里是我发现的一些最好的新冠肺炎流行病学在线互动模拟。

认知状态:没有流行病学资格,也没有模拟。只是一个偶然的模拟爱好者。这使我不够资格和过于固执己见。请注意,这些模拟只是为了寓教于乐。对现实世界中的任何事情,比如决定金融战略、公共卫生政策,或者诸如此类的事情,都不是。真正的交易要比这复杂得多。

编者注: 走向数据科学 是一份以研究数据科学和机器学习为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我在 Unsplash 上搜索“模拟”时发现了什么。科学高清照片Unsplash

有很多方法可以对个体进行建模(台球 vs 像素),甚至是是否首先对个体进行建模(PDE)。因此,这将按类别分组,没有特定的顺序(实际上,从我认为最直观的理解):

《华盛顿邮报》的#1 台球: 这些模拟显示了如何使冠状病毒的增长曲线变平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

WaPo 的台球模型截图。

华盛顿邮报使用了一个台球模型,其中每个人都是一个完全弹性的 2D 圆,以恒定的速度在一条直线上,生活在一个具有完全弹性的墙壁的矩形中。这是提出球形牛的一个非常好的时机:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

球形奶牛。来源:http://www.cs.cmu.edu/~kmcrane/Projects/ModelRepository/

一个牛奶场的牛奶产量很低,所以农场主写信给当地大学,向学术界寻求帮助。组建了一个由理论物理学家领导的多学科教授小组,并进行了为期两周的密集现场调查。然后,学者们回到大学,笔记本上塞满了数据,写报告的任务就交给了团队领导。此后不久,这位物理学家回到农场,对农民说,“我有解决办法,但它只适用于真空中的球形奶牛”。【http://www.physics.csbsju.edu/stats/WAPP2_cow.html

我不是在取笑阿婆。整个想法是,设计模拟是一门艺术。制作一个完美的世界模拟太难了。你需要在某个地方做一些假设和简化,不要把它做得太简单而失去我们想要模仿的行为。我认为 WaPo 做出了正确的决定。(如果需要更复杂的台球模拟,尽管不是交互式的,请查看最后荣誉奖部分的 3 blue 1 brown)https://www . Washington post . com/graphics/2020/world/corona-simulator/

[## 这些模拟显示了如何使冠状病毒的增长曲线变平

警告健康:此图形需要 JavaScript。请启用 JavaScript 以获得最佳体验。请注意…

www.washingtonpost.com](https://www.washingtonpost.com/graphics/2020/world/corona-simulator/)

#2 台球由 Petr nio Silva:基于代理人的新冠肺炎健康和经济效果的模拟

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

另一个台球模型由Petr nio Silva基于代理人的新冠肺炎健康和经济效应的模拟

Petrô nio Silva 和他的团队制作了另一个台球模型,他们比较了 5 种不同的场景。这同时减少了互动也增加了互动。交互性较差,因为要与之交互,你需要了解 Python。然而,如果你这样做,它更具互动性,因为你可以疯狂地玩它。我也喜欢文章结尾的引用,以下是摘录:

所有的模型都是错的,但有些是有用的。(乔治·博克斯)

(对于更复杂的台球模拟,尽管不是交互式的,请查看最后荣誉奖部分的 3blue1brown)

以下是解释模拟“基于代理人的新冠肺炎健康和经济影响模拟”的文章:https://towards data science . com/Agent-Based-Simulation-of-the-新冠肺炎-健康和经济影响-6aa4ae0ff397

[## 基于主体的新冠肺炎卫生经济效应模拟

我们生活在一个不寻常的时代,人类受到一种微生物的攻击,威胁着我们的…

towardsdatascience.com](/agent-based-simulation-of-covid-19-health-and-economical-effects-6aa4ae0ff397)

而这里是代码:https://colab . research . Google . com/drive/1 xyrq 9 dsq 9 kjuxu 8 MF 6 by-D2 gjvzjquk

凯文·西姆勒在他的博客上写道: 爆发

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

爆发中最终模型截图。

凯文·西姆勒在他的博客上融化的沥青 : 爆发。他没有把人建模成台球,而是把它建模成网格中一个静止的正方形细胞。通过简单地成为邻居(共享边,而不是角落)来模拟具有传染潜力的互动。我会把这个叫做网格/点阵/细胞/像素/光栅/ 元胞自动机 / 康威的生命游戏 / 有限元法。最有趣的是,即使在提出一个完全不同的模型和假设时,它也会得出与台球模型相似的结论。

有很多参数可以使用,但不要太多。而且整篇博文的作用就像一个教程,一个一个的给你介绍参数(读作:游戏力学)。下面是链接:https://meltingasphalt.com/interactive/outbreak/

[## 爆发

可播放的疾病模拟

meltingasphalt.com](https://meltingasphalt.com/interactive/outbreak/)

《华盛顿邮报》报道:像新冠肺炎这样的流行病如何终结(以及如何更快终结)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

六边形网格模拟,通过 WaPo 比较不同的疾病。

与融化的沥青非常相似,互动少得多,但有一个关键的区别,六边形网格。虽然更容易编码,但是使用正方形网格会导致许多问题,比如它如何像菱形(如果你使用 4 个邻居)或正方形(如果你使用 8 个邻居)那样扩散。简而言之,六角形通常更适合模拟,因为它是可以平铺空间的最圆的形状。你可以在这里这里阅读更多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为什么十六进制比正方形好。https://pro . ArcGIS . com/en/pro-app/tool-reference/spatial-statistics/h-whyhexagons . htm

以下是文章链接:https://www . Washington post . com/graphics/2020/health/coronavirus-how-epiderations-spread-and-end/

[## 像新冠肺炎这样的流行病如何终结(以及如何更快终结)

健康和警告:此图形需要 JavaScript。请启用 JavaScript 以获得最佳体验。作为…

www.washingtonpost.com](https://www.washingtonpost.com/graphics/2020/health/coronavirus-how-epidemics-spread-and-end/)

R2D3 的#5 网络:通过模拟理解 COVID19】

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自 r2d3 的第四次模拟截图。

R2D3 是一个优秀的网站。我知道它们,因为我 机器学习并且它拥有可视化决策树和偏差-方差权衡的优秀资源。所以当我看到他们做新冠肺炎模拟,我必须去看看,我没有失望。

这是一个更有趣的模拟,因为网络是流行病学家会使用的实际结构,而不是台球或网格。“网络”的官方术语叫做。但这不是指图表,外行人也称之为 graph。(如果我没看错的话,著名游戏瘟疫公司也使用 graph 作为底层模型)。这里是文章的链接:http://www.r2d3.us/covid-19/

[## 通过模拟了解新冠肺炎

2020 年 3 月 31 日关于 COVID19 的消息铺天盖地。病例激增,防止进一步传播的措施…

www.r2d3.us](http://www.r2d3.us/covid-19/)

Gabriel Goh 的#6 微分方程:流行病计算器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Gabriel Goh 的 SEIR 互动模拟截图。

到目前为止,所有的模拟都可以归入基于代理的模型,在这里我们在个体水平上模拟疾病。但这不是唯一的做事方式。我们可以在亚种群水平上实现。这就是先生(易感、传染、康复)模型正在努力做的事情。在 SIR 中,使用微分方程对亚群体之间的传播进行建模。(要了解更多关于 SIR model 的信息,请查看最后荣誉奖部分的 Numberphile 链接。)

请注意,SIR 是一个合法的成熟的学术水平模型。这里实现的是 SIR 的一个变种,叫做 SEIR(易感、暴露、感染、删除)。下面是链接:http://gabgoh.github.io/COVID/index.html

[## 流行病计算器

编辑描述

gabgoh.github.io](http://gabgoh.github.io/COVID/index.html)

艾莉森·希尔的 7 号微分方程:模拟新冠肺炎传播与医疗保健能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SEIR 模型截图艾莉森·希尔

另一种实现 SEIR 模式为上述第二种意见。(要了解更多关于 SIR model 的信息,请查看最后荣誉奖部分的 Numberphile 链接。)下面是链接:https://alhill.shinyapps.io/COVID19seir/?FB clid = iwar 2 axjt 79 m2 amz xmdy 8 jsieusc 4 I 7 iju 8 av 6 ob 4 dmlziej 2v qgl 7 TT 3 qgxa

[## 模拟新冠肺炎传播与医疗保健能力

我们使用一个基于经典 SEIR 模型的分室流行病学模型来描述疾病的传播和临床传播

alhill.shinyapps.io](https://alhill.shinyapps.io/COVID19seir/?fbclid=IwAR2aXJT79M2AmZxMdy8jsiEuSC4i7ijU8Av6oB4dmlZIeJ2VQgL7Tt3QGxA)

#奖金

因为我在写这个之前没有做详尽的研究。

又一个 SIR 模型感谢 reddit 的/u/好奇-b 通知我:【https://covid19-scenarios.org/】T2

[## 新冠肺炎情景

该工具使用数学模型,根据用户定义的参数模拟各种新冠肺炎结果

covid19-scenarios.org](https://covid19-scenarios.org/)

荣誉奖

这些相关的东西不是交互式的在线模型:

更复杂的台球由 3blue1brown: 模拟一场流行病

正如预期的那样, 3b1b 做出了惊人的模拟,新增了将人口划分为孤立的地理区域、城市中心、使用排斥力模拟社会距离等功能。不幸的是,它不是交互式的。反正下面是链接:https://www . 3 blue 1 brown . com/videos-blog/simulating-an-epidemia

图由 Ndemic 创作:瘟疫公司

这是我的胡乱猜测。但是我认为著名的游戏瘟疫公司使用基于图形的建模,就像上面提到的 R2D3。https://www.ndemiccreations.com/en/22-plague-inc

[## 瘟疫公司- Ndemic 创作公司

瘟疫公司是一个高战略和可怕的现实模拟的独特组合。你能感染世界吗?你的…

www.ndemiccreations.com](https://www.ndemiccreations.com/en/22-plague-inc)

数字爱好者理解 SIR 模型:冠状病毒曲线

其中两个模拟使用了基于 SIR 模型的 SIER 模型,并假设观众对它很熟悉。如果你不是数字迷,有很棒的视频解释这个模型能捕捉什么,不能捕捉什么。

FiveThirtyEight 对 SIER 模型的警告:为什么做一个好的新冠肺炎模型如此之难

后两种模式在另一方面有所不同。他们试图使用真实世界的数字。这有很多问题。这篇文章很好地总结了为什么很难很好地估计插入到这些模型中的实际数字,并且很好地概述了模型可以变得多复杂。以下是链接https://fivethirtyeight . com/features/why-it ’ s so-freaking-hard-a-good-model/

[## 为什么做一个好的新冠肺炎模型如此困难

我们在这里,在疫情的中间,像观赏鱼一样盯着我们起居室的窗户。关于…的问题

fivethirtyeight.com](https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/)

超越模型作者托马斯·普约:锤子与舞蹈

既然你已经内化了流行病的动态,当其他人谈论处理这种情况的策略时,你可以有更好的欣赏。这种策略的一个很好的例子就是这篇文章:https://medium . com/@ tomaspueyo/coronavirus-the-hammer-and-the-dance-be 9337092 b 56

[## 冠状病毒:锤子和舞蹈

如果领导人给我们争取时间,未来 18 个月会是什么样子

medium.com](https://medium.com/@tomaspueyo/coronavirus-the-hammer-and-the-dance-be9337092b56)

超越模型由我们的世界在数据:统计和研究

同样,随着更深入、更直观的理解,数据现在应该更有意义。这里有一个很好的详细的数据分析:https://ourworldindata.org/coronavirus

[## 冠状病毒疾病(新冠肺炎)-统计和研究

注意:为了让你自己了解和理解对公众的风险,我们建议依靠你的政府机构负责…

ourworldindata.org](https://ourworldindata.org/coronavirus)

无耻的自我推销

我也试着给新冠肺炎做模特。我以前的相关帖子:

参考文献和致谢

标题中提到了所有图片的来源。

每个来源的链接可在各自的标题上找到。

感谢 Phillip Luong 向我介绍 SIR model 和上面的一些链接。

COVID19:用 Python 可视化社交距离的影响

原文:https://towardsdatascience.com/covid19-visualising-the-impact-of-social-distancing-in-python-8567c14a3a73?source=collection_archive---------23-----------------------

变更数据

使用 pandas 和 python 中的 matplotlib 可视化,一个人可以对平坦化曲线产生指数级影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

拉平曲线

新冠肺炎接管了世界,并在短短几个月内让整个世界陷入停滞。世界上的总病例将很快达到 50 万,超过 20,000 例死亡已被确认。令人担忧的是,T2 的病例总数图仍在呈指数增长,而且没有放缓的迹象。

通过社交距离拉平曲线似乎是唯一的出路。在过去的几周里,许多国家都被封锁,人们被要求严格呆在家里。所有这些措施不会消灭病毒,但将有助于减缓它的传播,从而减轻卫生保健系统的压力,从而降低死亡率。

但是许多人似乎仍然不理解社交距离的严重性,以及即使是一个人也能产生多大的影响。关键是,如果你是一个健康的个体,病毒可能不会对你产生太大影响,但你可能会将它传播给其他可能受到它不利影响的人。

因此,在这篇简短的帖子中,我将尝试使用 python 来可视化社交距离的效果,以了解每个人在阻止新冠肺炎病毒传播方面可能产生的巨大影响,并有可能挽救成千上万人的生命。

实验

这项实验的目的不是模拟病毒的传播,而是理解社会距离在减少病毒传播方面的影响,并认识到它的重要性。

首先让我们导入要点并定义几个参数。

让我解释一下每个参数:

  • 天数:这只是我们进行模拟的天数
  • 人口:我们模拟城市的人口。
  • SPREAD_FACTOR:是感染者接触的人数。在一个城市里,据说一个普通人一天至少要接触 16 个人。假设只有四分之一的人会被感染,我选择传播因子为 4。需要注意的是,扩散系数取决于许多变量,在现实生活中不会保持不变。
  • 恢复天数:感染者恢复所需的天数。在现实生活中,这也不是一个常数,但 10 是一个很好的平均值。
  • 最初受影响的人数:最初受病毒影响的人数。他们是携带者,把病毒从一个受感染的地区带到一个新的地区,就像我们假设的城市

我们将使用一个数据框架来模拟一个城市,其中每行对应一个公民,并跟踪感染和康复的人。使用 sample 函数可以从数据框中随机选择人。我们将这样做:

  • 创建一个名为 city 的数据框架,其中每一行对应于城市中的一个人。它还包含标记一个人何时被感染和康复的栏。最初随机选择最初受感染的人,使用样本并将他们标记为受感染。也纪念他们的康复日。
  • 运行 for 循环天数来模拟过去的每一天。
  • 查看这一天康复的人数,标记为康复。这些人不会再传播病毒了。
  • 每天统计感染人数,使用 SPREAD_FACTOR 计算当天新感染的人数。所以一天的新增病例数= SPREAD_FACTOR *活跃病例数。
  • 记录活动案例的数量和康复的人数,以便日后可视化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

输出

你可以看到,在大约 10 到 15 天内,整个 10 万人口都受到了影响并得到了恢复。这是假设这座城市能够同时治疗 10 万名患者,并且每个人都以相同的速度康复——10 天。但是你认为这个假设的 10 万人口的城市会有一个每天可以处理 10 万个活跃病例大约一周的医疗保健系统吗?现在在现实中,增长可能不会如此剧烈,但如果我们不采取任何行动,它很容易导致这样的事情。

现在让我们看一下 SPREAD_FACTOR 的不同值的图表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

观察结果:

  • SPREAD_FACTOR = 1(左上):这意味着每个被感染的人都与一个随机的人接触过,这个人如果没有被感染,也已经被感染了。几乎所有的人口都受到了影响。
  • SPREAD_FACTOR = 0.5(左下角):每两个感染者中,每天就有一个新感染者。请注意,这个新人的选择是随机进行的,只有在这个人没有被感染的情况下才会被感染。这里的曲线仍然与第一个案例几乎相同,但总病例数下降了约 20,000 例。
  • SPREAD_FACTOR = 0.25(右上):每 4 个感染者,就有一个人被感染(如果还没有被感染)。或者换句话说,这 4 名感染者中有 1 人接触了新感染的人(其他 3 人在练习社交距离!).这可能是一种所有人都有意识地隔离自己、练习社交距离的状态。从之前的案例来看,仅仅通过将价差系数减半,价差就已经呈指数级下降,曲线也明显变平。这里的保健系统应该能够提供良好的护理,因为在高峰期,只有 40,000 个活跃的病例。
  • SPREAD_FACTOR = 0.2(右下方):在这里,每 5 名感染者中就有一人与新的人接触并传播了感染。另外 4 人被隔离。与上一个案例没有太大的不同,但是曲线明显变平了,活动案例的峰值几乎下降了一半!

在最后两种情况下,你可以观察到一个人对整个病毒传播的影响!由此我们可以得出结论,尽管病毒呈指数传播,但社交距离也呈指数传播,每个孤立的人都会对曲线的平坦化产生指数影响!

注意:我知道这是对真实世界场景的过度简化,但我认为它让我们很好地理解了 SPREAD_FACTOR 和活动案例数之间的关系。此外,指数函数可以很容易地用数学方程模拟,但我认为这更直观,更容易理解。

好吧,现在你知道为什么社交距离如此重要了吧!基本上,你坐在家里就是在拯救生命。

你可以在这个谷歌实验室 找到 的代码。您可以尝试不同的参数值。另外,尝试可视化其他指标,如每日恢复率。您可以尝试在不同的时间间隔减少扩散因子,并观察其效果,而不是在整个模拟过程中保持扩散因子的恒定值。我注意到一旦伤害已经造成,就没有回头路了。

所以练习社交距离,洗洗手,记住,我们都在一起!

参考资料:

[## 冠状病毒病例:

实时统计和冠状病毒新闻,跟踪确诊病例、康复患者和死亡人数,按…

www.worldometers.info](https://www.worldometers.info/coronavirus/) [## 冠状病毒:为什么你必须现在行动

政治家和商业领袖:你应该做什么,什么时候做?

medium.com](https://medium.com/@tomaspueyo/coronavirus-act-today-or-people-will-die-f4d3d9cd99ca) [## 这些模拟显示了如何使冠状病毒的增长曲线变平

警告健康:此图形需要 JavaScript。请启用 JavaScript 以获得最佳体验。请注意…

www.washingtonpost.com](https://www.washingtonpost.com/graphics/2020/world/corona-simulator/)

联系我!

adarsh1021@gmail.com

推特:https://twitter.com/adarsh_menon_

另外,如果你对机器学习感兴趣,可以看看我的 YouTube 频道

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

COVID19 语音助手

原文:https://towardsdatascience.com/covid19-voice-assistant-63c37b1f02f9?source=collection_archive---------58-----------------------

让我们听听这种病毒对我们世界的影响

冠状病毒已经在全球范围内造成了巨大的破坏。数百万人被感染,数千人死亡。疫情仍在上升,因为世界上所有国家都实行了封锁。每个人都有权知道这种病毒是如何影响我们的生活的,因为我们仍在继续与它作战。所以,我写了这篇关于我的项目的文章,用一种声音来表达世界的现状。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

格伦·卡丽在 Unsplash 拍摄的照片

语音助手项目

在这个项目中,您将学习如何使用 Python 构建一个 COVID19 语音助手。该项目主要涵盖了 python 中网页抓取语音辅助多线程的基础知识。

网页抓取

该项目使用了一个名为 的工具。ParseHub 是免费的 web scraper,功能非常强大,并且易于使用。这个工具允许你仅仅通过点击你想从那个网站得到的元素来抓取网页。所以,第一步是下载 ParseHub

我们将从非常著名的统计网站 Worldometers 上搜集定期更新的冠状病毒信息。打开 ParseHub - >开始新项目- >粘贴链接到 worldometers。

单击您想要从页面中抓取的元素,并为它们分配唯一的标签。使用相关工具将页面上的“冠状病毒病例”与其编号联系起来。ParseHub 显然非常高效,它使用人工智能来理解您想要哪些元素。要尝试这种方法,将“美国”与“总病例数”联系起来,列表中的其他国家就会显示出来。太神奇了!这在幕后所做的是为上面链接的内容构建一个 JSON 格式。

完成链接后,点击“获取数据”,这可能需要一段时间。然后确保在下一个屏幕上记下 API 密钥、项目令牌和运行令牌。

语音助手

复制粘贴 Part1.py 中给出的代码,我会带你了解到底发生了什么。

以下几点解释了 Part1.py 文件:

  • 这部分项目的需求是以下 python 包: requestsjsonpyttsx3speecher recognitionre 。因此,pip 安装了所有这些包。
  • 在各自的变量中使用 API 密钥、项目令牌和运行令牌。
  • 数据有以下方法:
  1. get_data() :使用您最近在他们的服务器上运行的项目从 parsehub 获取数据,并将其返回。
  2. get_total_cases() :获取新冠肺炎在全球的总病例数。
  3. get_country_deaths() :获取全球新冠肺炎死亡总人数。
  4. get_country_data() :获取任何特定国家的新冠肺炎病例和死亡人数。
  5. get_list_of_countries() :获取所有国家的列表。
  • speak() 方法初始化 pyttsx3 引擎,说出作为参数传递给它的文本。
  • get_audio() 方法使用 google 的 recognize_google() 方法监听用户通过麦克风输入的语音,并返回输入的文本。
  • 最后,main()函数负责使用正则表达式模式识别输入语音,并将它们分类为世界上的病例和死亡或任何国家的病例和死亡的模式。
  • 匹配的模式调用特定的函数并大声说出数字。

多线程

到目前为止,您的助手只说出您最初获取的数据。保持数据更新是很重要的,因为这个全球疫情仍在进行,当你的助手说数字正在下降时,这将是令人欣慰的。

删除 Part1.py 并将 Part2.py 复制到您的应用程序中。

除了 Part1.py 之外,Part2.py 还有一个额外的函数和一个处理程序。这个函数就是 update() 函数。该函数不从 parsehub 上的最后一次运行中获取数据,而是在 parsehub 服务器上为您的项目初始化一次新的运行。这将需要一段时间,所以请在更新时给它一些时间。

最有趣的部分是减少这个时间。因此,我们使用 python 中的多线程库来利用多线程。通过这样做,我们可以确保语音助手在一个线程上运行,而数据更新在另一个线程上并行进行。

结果

这个项目最有趣的部分是它的结果。

运行 Part2.py 文件,当控制台显示“Listening…”时,说“number of total cases ”,助手将回复全世界的 COVID19 病例数。现在说,“印度总死亡人数”,助手会回复这个数字。

您可以说,“更新”,助手将为您更新这些值,这可能需要一些时间。请耐心等待。

你必须说“停止”才能退出正在运行的应用程序。

😲耶!!!你做到了!你刚刚建立了一个语音助手,只需使用你的声音就可以更新关于冠状病毒的信息。你可以进一步把这个项目发展成惊人的东西。要获得完整的见解,请查看我的 GitHub。

如果你有任何错误,请随时通过我的 LinkedIn 联系我。

希望你喜欢并理解这个项目。

谢谢你。

你住在哪里很重要!—基于 RShiny 和传单的可视化工具

原文:https://towardsdatascience.com/covidminder-where-you-live-matters-rshiny-and-leaflet-based-visualization-tool-168e3857dbf2?source=collection_archive---------38-----------------------

美国各地的 COVID 差异

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

COVIDMINDER

在过去的一个月里,我一直在积极地与我的研究团队合作,探索 COVID 周围的数据,并开发一个可视化工具来了解美国各地的差异。我们最近发布了应用程序 COVIDMINDER 的第一次迭代,其中包括美国各地死亡率、测试病例、糖尿病和医院床位的差异,特别关注纽约。

在本帖中,我们将详细探究各种选项卡,并了解应用程序是如何设计的。此外,应用程序在不断发展,如果您在更晚的时间点阅读本文,您可能会看到更多的功能和选项卡。作为快速参考,这个应用是实时的:https://covidminder.idea.rpi.edu/,你可以继续探索 GitHub 上的代码:https://github.com/TheRensselaerIDEA/COVIDMINDER

这个想法

COVIDMINDER 是一个揭示结果、决定因素和药物的地区差异的应用程序。它探索有关新冠肺炎的数据,并试图提取和传播有关各种因素的信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

差异指数

到目前为止,你一定遇到过一些仪表板,它们的基本概念是显示当前的统计数据、死亡病例数、总阳性计数等。在一个漂亮的界面中。

但是我们想做一些不同的事情。我们希望我们的仪表板不仅仅是直接输出数字。因此,我们决定扩大我们的数据范围,纳入可能与死亡率相关的因素。我们决定不仅包括死亡率,还包括每个州的医院床位、当前测试病例的数量以及糖尿病在全国的传播情况。此外,在这些因素中,我们计算了与该州人口相关的差异指数,以提供更好的可视化能力。

此外,我们决定将纽约纳入我们的分析,因为它不仅是目前最令人担忧的州,而且我也不在纽约,所以我可以亲眼目睹一切。

r-闪亮和传单

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

应用主页

你看到的应用程序是使用 R Shiny 从头设计的,这是一个 R 包,允许你使用 R 代码、HTML、CSS 和 Javascript 开发网站。我们探索了各种设计风格、布局和配色方案,最终选择了我们在图片中看到的那个。图中的颜色与背景形成强烈对比,以便更好地突出它们。

所有的情节(线情节除外),都是用传单包设计的。由于我非常熟悉传单图是如何制作的,我可以说地图设计非常直观,并且使得使用 geo 图非常简单。

情节

地理图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用传单的地理图

对于每个选项卡,我们决定在美国或纽约州的地理地图上绘制数据。各个州/县基于视差指数值进行颜色编码,范围从深蓝色到深红色。正如我前面提到的,我们用传单来产生这些情节。

您可以将鼠标悬停在任何州/县上,查看该地区的更多统计数据。每个悬停信息根据您所在的选项卡和差异指数而变化。

这些图是交互式的,允许你放大和缩小每个图。图例已添加到右下角。

线形图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

纽约测试用例折线图

我们的申请中包含的第二种情节是自 3 月以来发生的纽约 COVID 案件。不出所料,纽约州作为一个整体是最高的。此外,紧随其后的是纽约,它实际上是迄今为止病例最多的县。

您可以通过选择边界框来放大和缩小图像,并更深入地探索绘图。各县的颜色基于下面定义的颜色图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

纽约地区的颜色编码

数学

差异指数用于描述一个州或县的相对位置。我们使用log值来标识索引。例如,为了计算美国各州死亡率的差异指数,我们使用以下公式

index = log(Mortality rate in state/Mean mortality rate in US)

韩国能够使用测试“拉平曲线”,因此,我们将我们的测试案例与韩国的比率进行比较。意大利的医院床位数较高,但仍无法满足所有需求,因此,我们将医院床位数与意大利的最低比率进行比较。

结论

开发这个应用程序让我们了解了很多关于 COVID 的情况,以及我们如何使用 R Shiny 和 Leaflet 等容易获得的工具来生成漂亮的可视化效果,使理解信息变得更加容易。

继续尝试 COVIDMINDER 应用程序,并与我们分享您的想法、想法和建议。

你可以通过网站上的评论表格联系我们,或者通过 LinkedIn 联系我:https://www.linkedin.com/in/bhanotkaran22/

Python 生成器是如何工作的?

原文:https://towardsdatascience.com/cpython-internals-how-do-generators-work-ba1c4405b4bc?source=collection_archive---------12-----------------------

CPython 解释器的内部

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由克里斯里德Unsplash 上拍摄

在本文中,我将试图提供对 Python 生成器的深入理解,以及它们如何从内部操作。它将包括如何为什么。部分将是独立的,你可以随意跳过。事不宜迟,让我们开始我们的旅程。⛵️

什么是发电机?

Python 2.2 开始添加,生成器是可以暂停、恢复和迭代的独特函数。让我们看一个例子:

通过定义包含yield关键字的函数,该函数被标记为生成器。然后,我们按以下顺序运行生成器:

  1. 初始化发生器并将其放入g。此时,我们有了一个尚未运行的新生成器对象。
  2. 通过呼叫next()推进发电机。这导致生成器前进到第一个yield关键字,在途中打印“Hello”。
  3. 再次推进发电机。它打印“Goodbye ”,由于它到达了函数的末尾,它引发了一个StopIteration异常并结束。

为了理解这三个简单的步骤,我们首先需要从 Python 中一个函数如何运行的基础开始。

函数如何工作

运行一个函数包括两个主要步骤:初始化求值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Jukan Tateisi 在 Unsplash 上拍摄的照片

初始化功能

在幕后,CPython 在一个框架对象中运行一个函数。

一个帧对象,有时称为堆栈帧,由以下字段组成:

  • 代码对象 ,包含函数实际编译的代码。
  • 释放堆栈空间 ,称为 value-stack ,用于运行解释器。
  • 执行指针 为当前正在执行的代码行。
  • 其他领域,如局部变量的映射。

所有帧场的列表可以在代码中看到,而更短的列表可以在文档中看到。

当我们初始化一个函数时,一个帧被创建。在伪代码中:

f = Frame()

我们传递给函数的参数然后在框架内被赋值为:

f.f_locals["arg1"] = arg1
f.f_locals["arg2"] = arg2

帧的执行点被设置为函数中的第一行代码:

f.lasti = 0  # Last Instruction
f.lineno = 0 # Function line number on file

此时,我们的函数开始运行。

运行功能

几乎整个 Python 解释器可以概括为一个 C 级函数:pye val _ eval frameex

这个函数就是解释器循环。由 3k 行代码组成,它的工作是评估一个帧,或者换句话说,运行它。Python 中的每个函数,解释器运行的每个字节码或操作码,都要经过那个函数。

在“PyEval”期间,Python 对帧的唯一值栈进行操作。这条信息以后会很重要。

总之,当你输入一个函数,并运行它,解释器创建一个帧,并进入解释器循环。

一个叫做 PythonTutor 的网站有一个非常好的关于这种机制的交互例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PythonTutor 的例子截图

发电机如何工作

与函数非常相似,运行一个生成器包括初始化步骤和评估步骤。

初始化发电机

在这一步,我们正在创建生成器对象。生成器对象由帧对象代码对象组成。如果你想知道,是的,框架对象中也包含代码对象。在伪代码中:

g = Generator()
f = Frame() # Initialized as before
g.gi_frame = f
g.gi_code = f.f_code = Code()  # The compiled function

此时,我们的发电机g已经准备好运行。

推进(运行)发电机

每次我们调用next(g)时,都会使用同一个pye val _ eval frameex帧进行求值

不同的是,在运行生成器时,我们可以到达yield关键字,此时帧评估停止,生成器“暂停”。

保存帧中的指针,标记我们当前的堆栈位置,以便准确地知道停止时发生器的状态。

重要的是要记住,与函数不同,当求值停止时框架不会被破坏,因为它仍然连接到生成器对象。这将允许我们稍后加载它。

PyEval 返回,我们的调用函数恢复。

再次推进发电机

当我们再次推进发生器时,帧从gi_frame加载,PyEval 在相同的帧上再次被调用。它检查我们停止的地方,转到我们的执行指针,并使用存储在帧中的值堆栈。

因为我们使用的是同一个堆栈,而且这个框架也包含了所有的局部变量,我们可以从完全相同的地方继续,就好像函数从来没有停止过一样。

当我们到达生成器或返回语句的末尾时,StopIteration 被抛出,该帧被删除。gi_frame 然后将设置为None

发电机特征

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

米克·豪普特在 Unsplash 上拍摄的照片

现在我们已经知道了生成器内部是如何暂停和恢复的,让我们深入了解一些使生成器真正不同凡响的特性。

产生价值

生成器可以产生值,允许它们被迭代并以一种懒惰的方式返回结果。例如:

在内部,产生值非常类似于获得函数的结果。当 PyEval 到达操作码YIELD_VALUE时,弹出栈顶值并返回。很简单,不是吗?

从发电机返回

生成器可以使用return关键字返回一个结果:

如您所见,return 语句设置了StopIteration异常。异常可以有参数,这里,发送给StopIteration异常的第一个参数是返回值。

可以通过捕获异常并获取其第一个参数来检索返回值:

与发电机通信

我们还可以使用[.send()](https://docs.python.org/3/reference/expressions.html#generator.send)[.throw()](https://docs.python.org/3/reference/expressions.html#generator.throw)与发电机通信:

如您所见,我们使用.send()向生成器发送数字,它们是yield关键字的返回值。

在内部,.send()的工作方式是将值放在生成器堆栈的顶部。然后它评估帧,弹出栈顶值,把它放入我们的局部变量。

类似地,.throw()通过向 PyEval 发送一个[throwflag](https://github.com/python/cpython/blob/25104949a5a60ff86c10691e184ce2ecb500159b/Python/ceval.c#L1315)来说明发生了异常。然后,它正常处理异常。如果生成器没有捕捉到它,异常就会像普通函数一样向外传播。

嵌套生成器

可以使用关键字yield from嵌套生成器(或"委托"):

正如你所看到的,使用yield from创建了一种在最里面的发生器之间通信的方式,一直到外面。

在内部,它通过使用生成器对象的gi_yieldfrom字段来工作。它指向内部发生器,当你使用.send()时它会一直进去。

当内部生成器返回时,它沿着链向上,并相应地设置yield from的返回值。

结论

在本文中,我对 CPython 生成器实现的内部工作方式提供了一些见解。虽然这篇文章不是初学者的材料,但它只是触及了这个主题的表面,要理解解释器是如何工作的还有很多。完整的实现当然是开源的,欢迎大家随意探索。享受😉

地理空间分析破解选址难题(上)

原文:https://towardsdatascience.com/crack-site-selection-puzzle-by-geospatial-analysis-part-1-684ecabf8df7?source=collection_archive---------31-----------------------

基于开源工具和数据的端到端地理空间应用

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1 槟城所有类型建筑的局部视图

选址是咨询行业的一个热门话题。在这篇博客中,我将介绍一个由开源 OpenStreetMap 数据集和 QGIS 支持的新颖解决方案。希望本案例研究能给从事选址相关项目的分析师和顾问带来一些新的思路。

问题陈述

假设我们有一个客户,他是一家连锁超市。他们计划在一个新城市开设零售店,比如马来西亚的槟城。为了实现利润最大化,他们需要决定要建多少分店以及应该建在哪里。如果我们试图从预测建模的角度开发解决方案,这将成为一个复杂的问题。利润似乎是一个合适的预测目标变量。然而,确定要使用的特性和编译特性集需要付出巨大的努力。

我提出的策略可以用一句话来概括:“找出客户密度较高、竞争对手较少的地点”。有了这个想法,这个问题可以通过以下三个步骤来解决。
1。模拟客户在整个城市的地理分布。
2。获取城市中潜在竞争对手的地理位置,包括任何其他连锁超市和杂货店。
3。根据不同地区的供需缺口,提出网点的位置。

本博客将重点介绍第一部分:客户分布模拟。

  • 输入数据:槟榔屿市建筑物的 OpenStreetMap 形状文件,按地区分布的估计槟榔屿人口。
  • 使用的工具:Python 3、QGIS(量子地理信息系统)3.4

数据源

让我们先来看看我们将要处理的数据。OpenStreetMap (OSM)是一个合作项目,旨在创建一个开源的可编辑世界地图。数据集包含各种类型的基础设施的形状文件,例如目标区域中的建筑物、道路、铁路。数据集每隔几小时更新一次。为了获得槟城的 OSM 数据集,我从 OSM 网站下载了马来西亚、新加坡和文莱的 shape 文件包。有几个 Python 库可以用来用处理形状文件。shp 后缀:菲奥娜PyShp身材匀称GeoPandas 等。在这项工作中,PyShp 用于将 shapefile 读入 dataframe。

osm_preprocessor.py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2 形状文件读取为熊猫数据帧

我想强调的一个有趣的特性是坐标,它以顺时针方向给出了建筑物顶点的纬度和经度。它可以用来估计建筑物的具体位置以及它们的占地面积。

另一个正在使用的数据是由槟榔屿研究所提供的按地区分布的估计槟榔屿人口。

估计 _ 槟城 _ 人口 _ 按 _ 地区 _2018.csv

地理上,槟榔屿市被槟榔屿海峡分为槟榔屿岛和槟榔屿。槟榔屿的五个区可以在下面的地图中看到。

[## Penang.jpg 的行政区划

来自维基共享,自由媒体仓库

commons.wikimedia.org](https://commons.wikimedia.org/wiki/File:Districts_of_Penang.jpg)

模拟方法和假设

在我们深入实施之前,这里我们有一个方法的概述。可以在以下步骤中模拟客户分布。

  1. 估计所有住宅建筑的中心地理编码和建筑面积(Python)。
  2. 将槟城分割成 1km x 1km 的网格,分别标注属于哪个区(QGIS)。
  3. 根据建筑物的中心地理编码将住宅建筑分配到网格中,并计算网格总面积(Python)。
  4. 根据面积将地区人口分配到网格中(Python)。

该解决方案在以下假设下是有意义的。

  • 超市的目标顾客是槟榔屿的全体居民。
  • 所有的住宅建筑可以分为两种类型:公寓和平房。
  • 对于每个地区,公寓的居住密度是一致的。更具体地说,居住密度是指每 建筑面积人口。
  • 平房的居住密度在整个城市是一致的:每 100 平方米 5 个人。

第三个假设表明所有公寓共用相同数量的楼层。引入它是为了简化问题,因为 OSM 数据集中缺少建筑物高度信息。

实施演练

占地面积计算

将形状文件读入 dataframe 后,我们需要选择槟城住宅建筑的条目。这可以通过根据建筑物类型和建筑物的中心地理编码过滤数据帧来实现。中心地理编码是通过取建筑物所有顶点的纬度和经度的平均值来计算的。槟城的边界以下列地理编码范围宣布。

  • 纬度:5.1175–5.5929
  • 经度:100.1691–100.5569

槟城 _ 住宅 _ 建筑. py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3 槟榔屿住宅建筑的数据框架

可以根据建筑物顶点的地理编码来估计建筑物的占地面积。Mapbox 提供了一个 API 来计算 geojson 多边形或多重多边形的面积,可以在这里应用。

calc_floor_area.py

导出的数据如下所示。

Penang _ residential _ buildings . CSV

基于网格的城市离散化

该项目的最终目标是提出城市中超市网点的位置。因此,我们将创建网格,并针对各个网格分析需求和供应。插座的位置将以网格的形式提出。QGIS 是一个开源的桌面地理信息系统应用程序。它用于此目的,因为它提供了各种地图操作和可视化功能。将 OSM 形状文件导入 QGIS,并使用创建网格功能创建网格。

Vector -> Research Tools -> Create Grid

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4 创建 QGIS 的格网功能

上图对话框中的网格范围用于定义网格覆盖的区域。我们可以选择“使用画布范围”选项来手动拖动选择一个覆盖槟城的矩形区域。生成的网格层如下图所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5 网格层的局部视图

为了分配建筑物和计算网格上的人口,我们可以将网格的边界信息从 QGIS 导出到文本文件和形状文件中。网格的 4 个边界在左、上、右和下列中产生,其遵循 EPSG:3857 ,一种由诸如谷歌和 OSM 的网络服务推广的球面墨卡托投影坐标系。在下一步中,它将被转换为正常的纬度、经度。列是手动添加的,用来标记网格的父区。

Penang _ grid _ epsg 3857 _ WGS 84 . CSV

建筑物到网格的分配

在这一步,我们将根据建筑物的中心地理编码和网格的边界,将住宅建筑分配到网格中。在分配发生之前,建筑物和网格的坐标系统是同步的。

allocate _ buildings _ to _ grids . py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6 分配了网格的建筑物的数据框架

将地区人口分布到网格中

这是模拟的最后一步。我们将计算每个网格的总建筑面积,并根据网格的总建筑面积将地区人口分配到网格中。

公寓和平房的建筑面积需要分别计算,因为它们适用于不同的人口密度。

calc _ grid _ floor _ area . py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7 网格总占地面积的数据框架

然后,我们可以汇总各区的建筑面积,并估计不同区的人口密度。假设平房的统一人口密度为 5 人/ 100 米。

calc _ district _ pop _ density . py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 8 不同地区的人口数据框架

现在让我们根据网格占地面积计算网格人口,我们就完成了!

calc _ grid _ population . py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 9 网格群体的数据框架

我们可以将网格人口导出到 shape 文件,并在 QGIS 上生成人口分布热图。

generate _ grid _ population _ shape . py

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 10 槟榔屿市人口分布的局部视图

在图 10 中,网格数量随着色温的增加而增加(从无色、黄色、橙色到红色)。可以观察到,槟榔屿的人口主要集中在槟榔屿海峡沿岸,形成一个 X 形。

结束了

  • 我们已经经历了一种模拟城市人口分布的新方法。该解决方案是使用开源工具和 OSM 数据集开发的。
  • 由于假设居民密度一致,预计会有一些误差。此外,OSM 数据本身可能不是 100%正确和最新的。

谢谢你的阅读。代码库可以在 GitHub 上获得。请在媒体上关注我,了解我未来的博客。我欢迎反馈和建设性的批评,可以通过 LinkedIn 联系到我。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值