数据有不同的形状和大小
让我们来谈谈表格、树和图形
表格 —数据的表格化表示,可能是最古老的数据存储方式。也是最简单的。我们定义了行和列,其中一列代表一个属性,一行代表一个由属性组合而成的条目。
CSV 是表格数据的简单表示。下面你可以看到一个代表我最亲近的家人的 CSV:
Maxim,June 12,Berlin
Efim,November 24,Essen
Margarita,August 20,Bochum
Issai,May 9,Bochum
每行代表一个家庭成员,家庭成员由以下属性表示:
- 名字
- 生日
- 城市
这些属性很好地代表了一个人,但是它们没有说明这些人之间的关系。如果我们添加另外三个属性来建立它们之间的关系会怎么样:
- 父亲
- 母亲
- 同科
在这种情况下,CSV 可能如下所示:
Maxim,June 12,Berlin,3,2,1
Efim,November 24,Essen,3,2,0
Margarita,August 20,Bochum,,,
Issai,May 9,Bochum,,,
这些关系被描述为行的索引(索引从 0 开始)。
所以马克西姆的父亲是伊萨伊,马克西姆的母亲是玛格丽塔,马克西姆的兄弟姐妹是埃菲姆。在第二行,我们看到 Maxim 是 Efims 的兄弟姐妹(这并不奇怪),他们有相同的父母。Margarita 和 Issai 没有提到父亲、母亲和兄弟姐妹,不是因为他们没有,而是因为这些人没有列在这个数据集中。
如果马克西姆有多个兄弟姐妹会怎么样?
在 CSV 和一般表格数据表示的情况下,这是非常不幸的。然而,我们有两个选择:
- 为值数组创建自定义语法。例如,使用
+
字符分隔多个行索引1+10+12
。 - 有第二个表,表示关系的邻接矩阵。对于 CSV 格式,每个文件只能有一个表,所以我们需要创建另一个文件。
我们了解到,表格数据表示适用于一对一和多对一的关系,但是如果我们需要一对多的关系,就会变得棘手。
树呢?
树中的节点(如果它不是叶子)与其子节点有一对多的关系。让我们试着用 XML 来表示相同的数据:
<person name="Maxim" birthday="June 12" city="Berlin">
<father>
<person name="Issai" birthday="May 9" city="Bochum"/>
</father>
<mother>
<person name="Margarita" birthday="August 20" city="Bochum"/>
</mother>
<siblings>
<person name="Efim" birthday="November 24" city="Essen">
<!-- 😔 we have to repeat father and mother now -->
<father>
<person name="Issai" birthday="May 9" city="Bochum"/>
</father>
<mother>
<person name="Margarita" birthday="August 20" city="Bochum"/>
</mother>
<siblings>
<!-- 😨 OMG we have a cycle, abort!!! -->
</siblings>
</person>
</siblings>
</person>
一棵树必须有一个根元素。在我们的第一次尝试中,我们改变了数据集的语义,并决定将其表示为 Maxim 的“家谱”。然而,这也强调了我们的数据对于这种表示来说太复杂了。当我们添加 Efim 作为兄弟姐妹时,我们必须复制 Issai 和 Margarita。然后我们意识到 Efim 和 Maxim 建立了一个参考循环。这使得纯粹的层次化表示成为不可能。
好,让我们尝试使用带有显式引用的 XML:
<people>
<person id="0" name="Maxim" birthday="June 12" city="Berlin">
<father ref="3"/>
<mother ref="2"/>
<sibling ref="1">
<!-- could have another sibling tag here
<sibling ref="123">
-->
</person>
<person id="1" name="Efim" birthday="November 24" city="Essen">
<father ref="3"/>
<mother ref="2"/>
<sibling ref="0">
</person>
<person id="2" name="Margarita" birthday="August 20" city="Bochum"/>
<person id="3" name="Issai" birthday="May 9" city="Bochum"/>
</people>
现在我们可以在一个person
节点中拥有多个sibling
节点。然而,与 CSV 相比,我们有一个小缺点。CSV 中的引用是行的索引。在 XML 中,一个节点可能会根据解析器和 XML producer 的实现来改变它的索引,因此有必要在每个 person 节点上有一个显式的id
属性,在father
mother
sibling
节点上有一个ref
属性,它们反映了 person 的 id。当我们写数据时,这不是一个很大的不便,但当我们读数据时,这是一个更大的不便。为了遵循参考,用户将不得不建立某种类型的查找表,其中可以通过id
找到一个人。
JSON 能帮我们解决这个问题吗?
JSON 也是一个树形结构,但是如果 XML 是非常同构的——我们只能通过元素和内容来描述数据。JSON 是异构的——我们有数组、对象、字符串、数字、布尔文字和null
供我们使用。在 JSON 中,我们可以如下表示相同的数据集:
[
{
"name":"Maxim",
"birthday":"June 12",
"city":"Berlin",
"father":3,
"mother":2,
"siblings":[1]
},{
"name":"Efim",
"birthday":"November 24",
"city":"Essen",
"father":3,
"mother":2,
"siblings":[0]
},{
"name":"Margarita",
"birthday":"August 20",
"city":"Bochum"
},{
"name":"Issai",
"birthday":"May 9",
"city":"Bochum"
}
]
我们说根元素是一个数组。它有三个子对象,其中siblings
property 是一个人员索引数组。数组中的元素有一个稳定的索引,所以我们不需要显式的id
属性。我们还避免构建显式的查找表,因为数组可以通过索引来访问。
有些事我们还没谈过。
CSV、XML 和 JSON 都是基于文本的格式。为了处理数据集并遵循引用,我们需要解析数据集并将其转换成某种内存模型。如果我们有一个大的数据集,这可能会变得非常不方便。
文本与二进制
当我们从文本表示切换到二进制表示时,我们可以选择/构建一种允许随机值访问的格式。在这种情况下,引用可以由我们所引用条目的偏移量来表示。
偏移量可以是绝对的,也可以是相对的。绝对偏移量对于读、写和验证操作来说更简单。一个相对偏移量,可以帮助你减少二进制文件的大小,用户可以将多个缓冲区合并到一个文件中。如果你有兴趣,可以看看下面这篇文章:flatbufferswift是如何解决这种技术的:
[## 使用 JSON 时,性能并不是唯一损失的东西
这个来自 RSAnimate 的短片告诉我们,我不可能在 100 篇文章中做到这一点。
medium.com](https://medium.com/@icex33/performance-is-not-the-only-thing-you-lose-while-using-json-d7fc788c3056)
感谢您抽出宝贵的时间,如果您喜欢这篇文章,请鼓掌。
良好的数据和机器学习
深度学习已经成为一种锤子,可以钉死几乎任何机器学习(ML)问题。
深度学习正在解决许多其他大多数 ML 算法无法解决的问题。但是很多 ML 领域的人认为,只要你把足够多的层和神经元叠加起来,它就能解决任何问题。
出于几个原因,这样想很容易。像 Keras 和 TensorFlow 这样的框架很容易获得。亚马逊 AWS 和 GCP 提供廉价的计算能力。ML 社区是非常开放和支持的。
如今,任何人都可以参加一些在线课程或阅读一些论文。然后,他们可以创建一个卷积神经网络(CNN)来识别手写数字。然后自称为 ML 工程师。
甚至我也犯了同样的错误,而且我用很少的钱和一台不到 500 美元的笔记本电脑做到了这一点。
但是人们忘记了机器学习最重要的两个部分:数学和数据。
毕竟,机器学习是数据驱动的人工智能,你的模型只会像你拥有的数据一样好或一样坏。
一般来说,你不能有一个汽车图像的数据集,并期望用它来分类猫和狗。不能使用线性回归在没有线性相关性的数据集上训练模型。
在本文中,我将重点介绍数据和数据相关性。您的数据应该驱动您选择 ML 算法。你的选择不应该取决于一个算法有多先进,而是取决于你的数据集。
那么数据有多重要呢?
数据的重要性怎么强调都不为过。这里有一个例子。
能源分解使用 ML 来查找您家中可能有的电气设备的类型。它使用仪表数据、天气、位置等特征。
当我在做这个项目的时候,我的神经网络不能预测电气设备。无论我建立了一个多宽多深的网络,我都很难获得 55%以上的准确率。
我花了很长时间才意识到这不是我的模型的问题,而是我的数据的问题。
为了做这个项目,我使用了我在互联网上找到的数据集。这些数据既没有正确标注,也不是好数据。有一些非常不稳定的功率值与同时期的天气数据不一致。
所有这一切意味着,无论我的模型有多好,它都不可能完成它的工作,因为数据本身就是坏的!
什么是好数据?
很难回答这样的问题。我学会了不使用数据,除非它来自一个可证实的来源。
一个可验证的来源可以是像 Kaggle 或 KDNuggets 这样的开放数据源。此外,来自一个公司或国家的开源数据集。你也可以使用研究人员在工作中使用过的数据集。
有时获得正确的数据可能是项目中最困难的部分。如果你正在尝试做一些新的事情,这一点尤其正确。
对于我的大多数 ML 项目,我必须从博士学者和研究人员那里获得数据。不要犹豫向专家要数据!
即使有了验证过的数据,还是要检验一下好不好。可视化在这方面很方便。
可视化和数据
数据可视化让您看到数据的样子。您可以查看特征是否与输出相对应。它还可以帮助您找到您所拥有的数据相关性。
像 NumPy,Pandas 和 Matplotlib 这样的软件包非常适合可视化。
例如,下图显示了两个家庭在 24 小时内的用电量。
第一幅图中曲线的上升和下降显示了早晚用电量的增加。您还可以看到夜间用电量减少。
Image 1: A good Electricity Power Consumption Graph
第二幅图像具有不稳定的曲线和“嘈杂的”或不规则的数据。
Image 2: Irregular Electricity Power Consumption Data
如果我在训练一个模型来预测用电量,我会使用第一张图片的数据。
数据可视化有助于您了解您使用的数据是否有助于您的目的。
数据关联
在这篇文章的前面,我提到过你不能使用线性回归来建模一个非线性数据集。
反之亦然。如果你有一个线性相关的数据集,你需要一个简单的模型,如线性回归。再好的 CNN 也会给你一个很差的结果。
数据关联是一组数据可能对应于另一组数据的方式。在 ML 中,考虑您的要素如何与您的输出相对应。
例如,下图显示了大脑大小与身体大小的数据集。请注意,随着身体尺寸的增加,大脑尺寸也在增加。这就是所谓的线性相关。在线性相关的简单定义中,数据遵循一条直线。
Brain Weight Vs. Body Weight
并非所有数据都是线性相关的。下图显示了冰淇淋销售额与温度的关系曲线。它有一个倒 U 形图。为什么?
这可能意味着如果天气够热,人们可能不想离开家去买冰淇淋。或者有其他原因。所以使用线性回归对这个数据集没有意义。
Ice Cream Sales vs. Temperature
如果有两个以上的特征,就很难弄清楚数据是如何关联的。数据可视化有助于发现各个要素如何与输出相关联。
过滤数据
并非所有数据都与您的项目相关。
一个很好的例子就是卡格尔泰坦尼克号比赛。Kaggle 是一个由各级数据科学家组成的在线社区。他们举办持续的比赛,以帮助学习和实践数据科学。
在卡格尔泰坦尼克号比赛中,你被要求分析哪些人可能幸存。这个挑战有很多特点。您还可以通过组合现有的功能来创建许多功能。
你可以看到性别与生存的相关性,以及年龄与生存的相关性。从这些图像中可以明显看出,性别和年龄在决定谁可能在泰坦尼克号上幸存的过程中扮演了非常重要的角色。
可视化也可以帮助你过滤掉无用的特征。例如,登船港口和生存之间没有关联。在这种情况下,我们不考虑它。
开始计算
观想是伟大的。但是,如果你是一个更喜欢看数字和统计数据的人,那么有其他方法可以找出数据之间的关系。
皮尔逊相关系数帮助你找出两个量之间的关系。它给出了两个变量之间关联强度的度量。皮尔逊相关系数的值可以在-1 到+1 之间。
1 表示它们高度相关,0 表示不相关。-1 表示负相关。就当是反比例吧。
t 检验是对两个值之间的相关性进行的相关系数检验。
其他流行的相关系数包括
- 斯皮尔曼等级顺序相关
- 皮尔逊等级相关。
所有这些系数都有优点和缺点。知道何时使用它们很重要。
注意,如果你有一个大的数据集,如果你得到一个小的系数,比如说 0.4,那么它不一定是坏的。数据集可能具有很大的统计显著相关性。
还要注意,相关性可能并不意味着因果关系。
因为两个变量相关,并不意味着一个直接导致了另一个。
泰坦尼克号上的人没有死,因为他们是 28 岁的男性。更确切地说,他们中的许多人死亡是因为官员们“首先拯救妇女和儿童”。
当数据集包含许多要素时,数据相关性的重要性会产生影响。人们很容易认为,更多的特征将有助于模型做出更好的预测。但这是不正确的。
如果您尝试在一组没有相关性或相关性很小的特征上训练模型,将会得到不准确的结果。
在 MNIST 手写数字的人的年龄可能是一个特征。但这无助于做出更好的预测。
处理多维数据集时,过滤掉不相关的要素非常重要。相反,最好使用较少的高度相关的特征来训练模型。
具有更多要素或更高维度的数据集是一个新问题。如今,数据收集和存储从未如此简单。通常,许多数据集的要素具有相似的信息。这在系统中起到了噪声的作用,并增加了复杂性。
一些特征也几乎没有变化。如果您的输出有很大的方差,那么您认为方差较小的要素会改善您的模型吗?不要!为了计算出数据集中每个特征的重要性,我们使用等级相关。
秩相关
等级相关是一种比较哪些特征与输出相关的技术。
最大似然法中一种流行的等级相关方法是主成分分析。这是一种在高维数据中寻找模式的技术。基本上,它“将高维数据简化为低维数据。”你可以在这里阅读更多相关信息。
随着维度的减少,数据可视化也变得更加容易。
寻找数据相关性的其他强大工具是随机森林和决策树。他们通过找出每个特性的统计用法来工作。这使得找出最重要的特性变得更加容易。
怎么搞清楚用哪个算法?
数据关联和可视化可以帮助你决定使用哪种 ML 算法。
再看一下大脑与身体大小的数据。神经网络和线性回归都能够拟合该数据。但是,与神经网络相比,线性回归计算成本更低,训练速度更快。
如果您的数据没有线性相关性,您可以考虑使用多项式回归、支持向量机或随机森林。
但是,在大型数据集上,训练这些神经网络在计算上可能比训练小型神经网络更昂贵。
当处理图像识别问题时,使用卷积神经网络(CNN)总是更好。但是,NLP 和时间序列问题可以通过递归神经网络和 LSTMs(长短期记忆)更好地建模。
选择算法也要看你做的是回归还是分类。
神经网络在分类任务方面令人惊叹,但在回归方面则不然。简单的 SVM 可能表现更好。
那都是乡亲们!
如果你喜欢这篇文章,请跟我来,给我一个掌声…或者两个…或者 40 个。如果你没有,那么我希望听到你的反馈!
你可以在推特上关注我( @csoham358 )也可以在这里阅读我的其他文章
来源:
这张大脑尺寸和身体尺寸的对比图来自 Siraj Raval 关于从头开始实现线性回归的教程。
泰坦尼克图来源于 Ahmed Besbes 关于如何在 Kaggle 泰坦尼克号挑战赛中获得 0.8134 分的博客。
其他图表摘自 mathsisfun.com 一篇关于数据相关性的文章
数据好奇 02.05.2017:上周的数据故事、资源和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 4 周(上周的帖子是这里是)。
每个星期,我都会把在网上找到的大量与数据相关的很酷的东西剪辑、保存并加入书签。以下是 4 月 24 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的读物
上周,我在 Medium 上发现了一篇非常有趣的关于数据“探索”的文章。作为一名教授,阿达尔坚持一句口头禅:“没有人是被付钱去探索的,他们是被付钱去发现的。”《T4》的整篇文章很值得一读,但这里有一句很好的引言来总结它:
在构建工具的背景下,探索的范围太广了。我们需要能够决定探索何时终止。
这份来自政府研究所的数据分析文章让我们看看英国政府拒绝的信息公开请求的数量是如何增长的。
这份推特分析包括完全由带地理标签的推特制作的英国火车路线图。
(上周我没怎么看书……你能看出我异常忙吗?).
引起我注意的数据
这里有一个很酷的方法来结合数据和新的社交媒体功能:作为 Twitter 时刻的注释地图。这一系列来自彭博的关于法国第一轮选举结果的地图是以快速、易懂的方式讲述一个故事的好方法。
我喜欢这份数据中互动和滚动的使用,即关于发放旅游签证的国家之间不平等的数据。
遗憾的是,Fourish 的优秀员工无法参加本周在伦敦举行的黑客大会。但是他们发送了一张当晚推特的可视化图片。多么体贴。
Screenshot: Flourish
全球调查性新闻网络的大抄袭图有太多值得喜欢的地方,我不知道从哪里开始。映射和连接网络图以显示业务关系的组合非常出色。界面很直观。描述该地图的推文将其解释为犯罪分子利用匿名公司、【像俄罗斯娃娃】来隐藏资产。多好的台词。
牛津大学的马特·罗瑟在推特上发布了一张漂亮的图表,展示了感知与现实的对比。要点:小心描述你的发现。
数据集和其他资源
我喜欢关注欧盟统计局的新闻发布,寻找有趣的数据集。这里有一个引起了我的注意:在欧盟国家获得公民身份的人数连续第三年下降,2015 年约为 84 万人。自 2010 年以来,一个欧盟国家已经有 500 万人获得了成员国资格。
美国国家公园管理局发布了大量关于国家公园游客的数据。FiveThirtyEight 的这篇文章是在公共政府数据中寻找好故事的一个很好的例子。
Chart from FiveThirtyEight’s piece “The National Parks Have Never Been More Popular”
200 多个美国城市举行了科学游行。这是人群规模的数据正在等待绘制地图。
有人在 data.world 上发布了一个从 1990 年到 2016 年的 NBA 薪资数据集。
哈利波特迷们注意了:现在有了一个来自这位受人爱戴的作者和推特狂热分子 J.K .罗琳的推特和转发数据集。
说到推特数据集,这是唐纳德·特朗普每条推特的一个。Data.world 目前正在为此数据集举办一场 data viz 比赛。
这个数据集着眼于主要行业和初创公司的增长率对比。
对于那些对绘制#GE2017 感兴趣的人,Alasdair Rae 发布了一个英国选区的大规模 shapefile。
还有一个谷歌文档,是关于有用的英国政治数据集的。你觉得合适的话,再加进去。
本着众包的精神,我找到了一个名为SpreadShare.co的网站,让你探索社区策划的电子表格。有用吗?有可能。数据呆子的梦想?大概吧。
上周就这样了。你看到我错过的东西了吗?或者你只是想给我一个数字点头?给我发微博或者在下面留言。下周会有更多的数据。
数据好奇 02.10.2017:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 22 周(上周的帖子是这里是)。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 9 月 25 日那周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
只需要 BBC 世界的 9 张图表就能让我了解朝鲜这个陌生的国家,比任何新闻报道都要多。
上周,Tableau 的狂热分子对新的空间制图功能感到疯狂。
我想起了来自的 Nathan Yau 的这篇关于无用数据比较的伟大文章。当你向下滚动时,看看你是否能猜出为什么每个结论都是错误的。
苹果和橘子的情况下,比较是没有意义的。比较事物是我们的天性。什么更好…
flowingdata.com](https://flowingdata.com/2017/08/15/useless-points-of-comparison)
CARTO 整理了一份 40 个辉煌开放数据项目的清单,为 2018 年的智慧城市做准备(h/t Alastair Otter )。
想成为数据科学家?这篇文章告诉你如何像一个人一样思考:
我们都读过其中的妙语——数据科学家是最性感的工作,但这种工作并不多,而且薪水也…
cyborgus.com](https://cyborgus.com/2017/03/13/think-like-data-scientist/?utm_source=hootsuite&utm_medium=social&utm_content=170927&utm_campaign=social_media_post)
Alberto Cairo 写了一篇关于报纸花了多少篇幅报道美国飓风图片的总结文章。
Deborah Mesquita 写了一个有用的分步指南,介绍如何使用 D3 构建类似甘特图的图表。
这里有很好的分析:你真的对特朗普先生没有好处吗?真的吗?
我在 infogr8 的同事不要脸的插一句:我们完成了一个案例研究,关于我们如何为 CompTIA 建立一个数据驱动的交互式仪表板网站,以探索科技行业的趋势。点击这里查看互动,点击这里阅读我们为什么要做。
数据集和其他资源
劳工部对美国 966 种职业的知识和技能类型进行了量化。在他们的网站上下载数据。
这里有一个从 Crunchbase 构建的数据库,显示关于创业公司、投资和收购的信息。
留着以后用:这个 Jupyter 笔记本小抄。
数据可视化
上周,这张全球人口的动画柱状图在 Twitter 上引起了我的注意:
giorgia lupi 从她手机发送的所有通知中创建了一个数据 viz。
优步绘制了一名 UberEXEC 司机的平均工作日。
周日,发生了拉斯维加斯大规模枪击事件的新闻。这个故事是巨大的。因此,虽然我保存了上周的许多其他数据可视化,但其余的都是关于这一悲惨历史事件的报道。
NYT 突然出现在我的订阅中,提醒我他们的互动显示了枪支政策专家防止大规模枪击的建议。
Vox 在数据主导的视频中一针见血:18 个图表中的美国枪支问题。
我们来统计一下人均枪数。美国是暗红色的。
人物 1:“枪支在美国是个问题。太多了。”人 2:“枪不杀人,人杀人。”人 1:“但是……
Axios 正在这个可滚动的互动中跟踪所有与大规模枪击事件有关的死亡事件。
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。下周回到✌.
如果你欣赏这个每周综述,给它几个👏️️ 或者与你的朋友分享。我也很想看看你最近在做什么,所以 保持联系 。
数据好奇 02.11.2017:上周的数据故事、数据集和可视化综述
欢迎来到我的关于我在网上注意到的数据驱动事物的综述。这是第 24 周(上周的帖子是这里是)。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。这是过去两周引起我注意的事情。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
我很喜欢在 NYT 阅读这篇关于 Franco Moretti 在文学批评中使用大数据的长篇文章。他的建议得到了评论家的认可:我们知道如何阅读文本……现在让我们学习如何不去阅读它们。“他用文本分析来分析几个世纪以来的文学作品的方法非常迷人。
这是一个引起激烈回答的问题。数字人文学科被指责为盲目崇拜科学,充当…
www.nytimes.com](https://www.nytimes.com/2017/10/30/arts/franco-moretti-stanford-literary-lab-big-data.html?nytmobile=0)
因为是万圣节,这里有一个让你毛骨悚然的:我发现这个来自设计机构 Impero 的互动地图是一个及时而聪明的万圣节地图。
还因为万圣节(而且对定义数据术语超级有用!):
Paul Bradshaw 为您的收件箱提供了9 多份涵盖数据和数据的新闻简报。
还记得我在之前的综述中发布的优步游戏吗?如果你喜欢它,你应该看看这篇来自英国《金融时报》团队的博客,看看他们为什么要做这个。
该领域的 7 种数据可视化人员,由 Elijah Meeks 和 Susie Lu 为您带来。
均值≠中位数。反之亦然。这就是为什么记者需要知道如何以及何时使用它们:
哇,这个 Python 图表库对于任何想用 Python 绘制数据的人来说都是一个惊人的资源。每个图表都有使用 matplotlib、pandas 和 numpy 创建的代码。
Christian Laesser 写了他如何想象谷歌搜索对德国大选的兴趣。
Wahl 2Q17 是由数据可视化自由职业者 Moritz Stefaner、Dominikus Baur 和 Christian Laesser 共同完成的…
medium.com](https://medium.com/@laesser/behind-the-scenes-how-we-came-up-with-our-visualizations-of-google-search-interest-around-the-a864c3add0e9)
Twitter 的标题说明了一切。如果你曾经在新闻机构工作过,并且必须做数据工作,请阅读以下内容:
数据集和其他资源
在这里尝试一种新的共享数据集的格式。让我们试一试:
- 通过潜入这些数据集,探索深水地平线石油泄漏造成的环境破坏
- 从 1563 年到 1736 年,苏格兰有近 4000 人被指控实施巫术,分析起来令人毛骨悚然
- 通过研究人员 Michael A. Johansson 的 Github repo 中的数据来跟踪波多黎各的复苏
就是这样。短小精悍。
数据可视化
给你一个非常奇妙的线形图来开始。虽然我喜欢这里用颜色作为变量的方式。
没有足够的 RT 按钮让我点击这条推文。所以。没错。
英国国家统计局正在加入“你画它”的潮流,推出一个经典的猜年龄线图。
多么惊人的显示财富不平等的图表。
这篇关于巴西政府在烧烤上花费多少的调查文章的数据简直令人震惊。
Just look at that fire dot plot
这是一个真正令人惊讶/着迷的动画仪表盘。就像沙滩上的波浪。
这是一种非常酷的融合数据和艺术的方式。我喜欢这种让数据变得有形的概念,把波浪变成真正的木头让人们去感受。
相关还是因果关系?
这是过去两周的记录。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发推特或者在下面留言。下周回到✌.
如果你欣赏这个每周综述,给它几个👏️️ 或者与你的朋友分享。我也很想知道你最近在忙些什么,所以 保持联系 。
数据好奇 03.07.2017:上周的数据故事、数据集和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 12 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 6 月 19 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
从皮尤研究中心的一些有趣的数据驱动的研究开始本周的综述。
千禧一代已经正式超过婴儿潮一代,成为美国最大的一代。
皮尤研究中心(Pew Research Center)还公布了一项关于其他国家对美国未来信心的调查结果。除了俄罗斯,所有国家的信心都下降了。巧合吗?大概不会。
英国《金融时报》的另一个图表医生专栏是关于技术在现代数据中的作用。
Shelly Palmer 为为什么数据素养会让你“几乎”不可战胜写了一个令人信服的论点。我倾向于同意,但那可能只是偏见。你是法官。
布丁的另一个漂亮的数据分析和可视化:【1966 年至 2016 年每年票房前 200 的电影的时间表。
我上周在媒体上发现了这篇名为可视化对科学的影响是什么?。这将我最喜欢的两个主题联系在一起,虽然这篇文章很短,但它开始触及为什么可视化数据可以成为如此强大的解释工具。
第六届数据新闻奖颁奖揭晓,12 个国际项目获得荣誉。点击阅读媒体上的相关内容。
谷歌的数据编辑西蒙·罗杰斯上周宣布,新版本的数据新闻手册将于今年晚些时候推出。在官方网站可以找到这本广受欢迎的指南续集的更新。
NYT 的《结果》栏目上周发布了另一份出色的数据分析:
麻省理工学院计算机科学和人工智能实验室的研究人员发布了一项名为“如何实现更好的可视化”的研究结果。研究人员使用眼球追踪分析来衡量什么类型的可视化效果能最好地传达信息。TL;DR 研究的主要发现:
-最强的视觉效果使用简洁的描述性标题
-使用图像/图形提高用户的信息回忆能力
-重复是关键:在文本、图表、注释等中展示关键要点
如果你有时间,你真的应该读一读整个学术研究。
NYT 团队最近在气候变化方面做了一些开创性的工作,最近这篇关于气候变暖如何影响南部各州的文章特别有见地。
Tableau 的 Rachel Costa 在 Fast Company 上写了一篇关于如何在数据可视化中有效使用颜色的文章。
Periscopic 是一个数据可视化和信息设计工作室,制作一些令人惊叹的作品。他们绝对是一个值得关注的群体,上周他们的两名员工发布了关于使用大型数据集以及如何可视化它们的文章。
数据集和其他资源
我还没有机会亲自探索 Enigma Public ,但它看起来是一个值得关注的有趣的数据项目。Enigma Public 是一个“建立在世界上最广泛的公共数据基础上的免费搜索和发现平台。”另外,特别感谢安迪·迪金森(媒体工厂公报)和索菲·沃恩斯(公平警告)的数据简讯,感谢他们本周的数据摘要,没有这些,我永远也不会找到这个网站。
如果你对房价感兴趣,全国房地产经纪人协会公布了美国 500 个最大城市的月度数据
体育数据:印度顶级联赛发布大量板球数据。data.world 上的一位好心用户从他们的 SQL Server 中提取了一些数据,并制作了一个示例 SQL 查询列表以获取更多数据。
芬太尼是最近席卷美国新闻报道的致命阿片类药物。这里有一个数据集,其中有 2011 年至 2017 年新泽西州药房的所有芬太尼配药。
传染病监测图谱可以让你绘制并下载炭疽、寨卡等世界疾病的历史。这个网站有一些非常大的 shapefiles,所以如果你的电脑有点慢的话要小心处理。
这是国税局注册的所有联邦免税非营利组织的数据库。
你听说过国会的推特吗?这是一个 github repo,收集并发布国会议员的每日推文档案。每天都可以作为 JSON 文件下载。相关:特朗普推特档案库已经有超过 30,000 条推特可供搜索和下载。
如果你喜欢数据,认为谷歌搜索很有趣,你应该在 Twitter 上关注西蒙·罗杰斯(Simon Rogers)。上周,他有益地提醒他的追随者,他们的 Google Trends 项目的所有数据都可以在他们的 Github 页面上找到。
最后,一个关于大脚怪目击的数据集。不,不是玩笑。是的,大脚野外研究人员组织是真实存在的。
数据可视化
这张来自 Vox 的图片简单得惊人,但却很有效。无尽的滚动图形有它的位置,这当然是一个如何使用它的好例子。
如果你读了我之前提到的关于世界如何看待美国的皮尤研究,下面的图表不会让你感到惊讶。话说回来,即使你知道它要来了,它仍然在视觉上引人注目。
风能是一个非常好的东西,我们正在更好地最大限度地发挥其潜力。我真的很喜欢用涡轮来制作这张路透社的图表。
这似乎是一个非常酷的可视化应用程序:
《每日电讯报》描绘了英国的宽带速度。结果显然是不确定的。
在纽约地铁系统的数据分析中,使用了来自 NYT 的最小数据,即。
路透社图形团队深入解释了朝鲜最近的导弹发射。
关于朝鲜,我喜欢英国《金融时报》的这些旋转的 D3 地球仪。
这是一张迷人而有见地的数据 gif 图:Android 和 Mac 用户似乎更有可能投票给克林顿。Windows 和 iOS 更倾向于特朗普。
这是一个非常好的、清晰的例子,使用带注释的折线图来显示随时间的变化。信不信由你,健康政策确实有效。
数据中的异常值非常重要。下面的图表说明了原因。
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。我也很想看看你最近在忙些什么。
如果你喜欢这个每周综述,拍上一张 ❤️️ 或者和你的朋友分享。下周会有更多的数据。
数据好奇 05.06.2017:上周的数据故事、数据集和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 8 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 5 月 29 日这一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
美国退出了巴黎气候协议,NYT 对此有很多话要说。这篇数据分析文章展示了美国是历史上最大的碳污染者,比整个欧盟加起来还多(包括英国)。
随着周四英国大选的临近,我有机会参加了由当地统计局主办的数据黑客日。他们由高质量的记者和统计学家组成的团队编制了一份独一无二的英国选民人口统计和权力数据集。故事在 6 月 6 日之前是被禁止的,但请留意来自他们账户的一些深度数据驱动的新闻。
Trinity Mirror 为英国大选重新推出了“寻找我的座位”互动,以便选民可以了解更多关于他们投票选区的信息。你可以在这里测试工具并在这里阅读它是如何被创建的。
网站 Maps4News 采访了《金融时报》互动设计编辑史蒂文伯纳德,并发表了一篇关于《金融时报》编辑部生活的博客文章。由于英国《金融时报》在图形方面做了一些出色的工作,这将是一个很好的数据阅读材料,即人们希望了解图形团队如何在新闻编辑室与记者互动。
这是英国《金融时报》关于英国将如何需要重新谈判至少 759 项欠英国退出欧盟的条约的精彩数据分析。
布丁又成功了,这次性别平衡登上了 NYT 畅销书排行榜。
英国《金融时报》的约翰·伯恩-默多克发表了他在一次关于数据鸿沟的#数字论坛上的全部幻灯片。它有一些非常有趣的想法,关于统计数据如何将社会分为富人和穷人,以及我们作为数据人可以做些什么来弥合这一差距。
这里有一篇很好的文章,就如何使用 Twitter 作为数据源给出了一些建议。
那些喜欢使用 Python 和 pandas 讨论数据的人会发现这篇文章很有帮助:使用 Python Pandas 和 data.world 的 5 种有用的数据讨论技巧。
一些值得一试的工具:
还有人试用过谷歌新闻实验室的新的数据 Gif 生成器吗?还不知道如何感觉它,但我想它可以派上用场的快速 viz-fix。
这里有一个可爱/古怪的工具用于生成中世纪风格的地图。
说到地图,Alastair Otter 为记者们出版了一份很好的 10+地图工具综述。
全球调查性新闻网络发布了一个展示全球经济关系的可视化工具。
数据集和其他资源
上周,Buzzfeed 数据中心的团队分享了一个庞大的联邦工资记录数据集。这些是通过 FOI 的请求获得的,包括过去 40 年数百万员工的数据。这是一个大问题:冒险潜入。
Buzzfeed 还与 After School 合作,调查高中生对社交媒体上假新闻的认识。这里是完整数据集。
显然,谷歌有自己特殊的数据搜索引擎。看起来他们没有给它太多的关注,因为它的造型看起来像是在 2000 年代末最后一次更新。但是当只想返回与数据/数据集相关的主题的结果时,它仍然是一个方便的工具。
如果你关注 Twitter 上的任何数据,你可能已经看到了#改头换面星期一的标签。这个标签是由 Tableau 作为“社会数据实验”开始的。他们每周都会发布一个数据集,其中包含一篇文章的链接,以供参考/参考。尽管这一点都不新鲜,但它提醒了我,无论你是否使用 Tableau,这个页面对于寻找练习数据集来说都是一个多么好的资源。点击这里,浏览所有过去的数据集。
我找到了一个网站,上面的地图显示了今年以来美国发生的所有抗议活动。每个抗议都有地点、参加人数和事件名称。你可以在这里下载数据和查看地图。
挖掘政府游说支出已经成为我最喜欢的挖掘故事的方法之一。每个季度,国会都被要求披露所有发生的游说活动,包括游说了哪些机构,涵盖了哪些主题,以及游说者获得了多少收入。你可以在这里下载众议院和参议院的数据集。
波士顿大学公共卫生学院的研究人员汇编了一个数据集,其中包括 1991 年至 2016 年美国各州存在或不存在的 133 种不同类型的枪支法律。下载/查看数据。
数据可视化
来自《我们的世界》的 Max Roser 在数据中创建了一个自 1400 年以来每年全球冲突死亡人数的综合图表。这张图表是密集而有影响力的,它有一个写上去的伴随着它在这里。
我真的很喜欢这幅由 Nadieh Bremer 绘制的“呼吸”世界植被图。没有多少数据可视化让我感到着迷,但这一个肯定做到了。
NYT 发表了一份对每个学生的大学经费的全面数据分析。这张各州资金减少的图表引起了我的注意。我喜欢他们用阿拉斯加作为传说,因为它真正充分利用了空间。
本周一,Tableau 举办了一场关于全球互联网使用情况的#改头换面活动:
这个自 2000 年以来每一个难民运动的大画面令人印象深刻。
一个关于 K-Pop 乐队的场景?是的,请。遗憾的是,大部分文字都不是英文的,所以我不能通读,但是设计很棒。
本周,我让一位读者寄来了他过去的一个 viz 项目。来看看:11 年卫星发射的仪表盘。他还写了一篇中型博客文章描述他是如何着手设计仪表板的。我喜欢看到那些认为这篇综述有帮助/有趣的人的工作,这让我思考:你们还对我隐瞒了什么?有一些你最近创建的数据或有趣的数据集吗?如果你给我发个链接,我会很高兴的。
Created by Iulian Gulea. Full dashboard here.
这是一个关于全世界斋月禁食的信息丰富、设计良好的注释气泡图。与世界其他地方相比,赫尔辛基的斋戒时间特别长。
特朗普宣布美国将退出巴黎气候协议后,出版商蜂拥而至,提供有影响力的数据,即关于影响的数据。这是 FiveThirtyEight 的一个很棒的折线图 gif,显示了这个问题在美国已经变得多么党派化。
Vox 用这张图表指出,2016 年关于气候变化的广播新闻报道尤其糟糕。
特别是 NYT 在声明发布后,在推特上掀起了一场数据风暴,即图表和图形。2016 年是有记录以来最热的一年。
他们还绘制了特朗普给 4 个高风险城市留下的气候遗产。
这张 gif 图很好地快速传达了美国退出巴黎协定的利害关系。
上周就这样了。你看到我错过的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。我也很想看看你最近在忙些什么。下周会有更多的数据。
数据好奇 07.08.2017:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 16 周(上周的帖子是这里是)。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 7 月 31 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
上周,当我在网上搜索有趣和创新的数据驱动的东西时,我确信我是在正确的领域。我发现了大量精彩的内容、可视化、故事和学术见解与大家分享——所以让我们开始吧。
来自全球数据新闻调查的第一份见解于上周发布。我带走了一些关键的东西:受过新闻教育的数据记者正在慢慢地向数据分析和数据科学领域转移,但没有经过正式的培训。或许顺序应该颠倒一下?数据科学→记者。
Grouped bar chart showing level of formal training in survey respondents by topic. Full post here.
美联社的数据编辑 Troy Thibodeaux 向全球调查新闻网讲述了为什么数据技能对每个记者都至关重要。
在贾斯汀·加特林在最后一场 100 米比赛中击败尤塞恩·博尔特的消息传出后,约翰·伯恩-默多克在推特上发布了一张他在 2015 年制作的图表,显示加特林与他的竞争对手相比是一个有趣的异数。你可以在这里阅读他对世界上跑得最快的人的完整分析。
显然,“收缩通货膨胀”是一个由政府机构创造的术语。《国际商业时报》通过这项数据调查揭示出,许多食品的体积正在慢慢缩小,但价格并没有变得更便宜。
Paul Bradshaw 写了一篇关于数据新闻业第二个十年的 10 条原则的文章。这些指导方针受到了比尔·科瓦奇和汤姆·罗森斯蒂尔 2007 年出版的《新闻要素》一书的启发。这是 10 项原则的预览图。
Bradshaw 最近也写了一篇关于下一波数据新闻的文章。这篇博文回顾了计算机辅助报道(CAR)时代数据新闻的早期。展望未来,布拉德肖看到了在新闻编辑室使用“机器人新闻”、增强新闻和计算思维的潜力。
我真的很喜欢这篇关于“数据”如何变成一个超负荷术语的博文。这可能是真的,尤其是在内容营销和创意机构的世界里。关键要点:数据不是一个时髦词。不管它被用于什么目的,我们总是需要考虑诸如来源、应用、治疗和敏感性之类的事情。
布丁公布了《办公室》系列每一句台词的文本分析:《办公室》对话五图。
如果你在推特上,你可能会看到谷歌多样性备忘录上流传的愤怒。关于为什么关于计算/软件“男女能力的差异部分是由于生理原因”的备忘录完全是胡说八道,有很多好的回答,但这是我最喜欢的(不仅仅因为它使用了数据)。记得阿达·洛芙莱斯吗?
上周,我通过电子邮件收到了一些故事,其中使用了一些令人印象深刻的数据可视化。来自《印度斯坦时报》的这篇关于印度死刑判决的文章,以基于幻灯片的叙事故事的巧妙运用开始。我喜欢华夫饼图表与上面彩色文字的对应方式。真的是把故事放在开场号的背景下。
我想起了上周斯坦福大学研究人员爱德华·西格尔和杰弗里·赫尔发表的具有里程碑意义的学术论文《叙事可视化:用数据讲故事》。如果你以前没有读过,我强烈建议你读一读。上面的《印度斯坦时报》文章使用了他们的一种技术(单帧互动),文章引用了其他不同方式的例子,以战略性的方式可视化数据。
Nadieh Bremer 写了一篇关于如何使用她全新的 D3.js 插件创建织机图表的博文。
这是一个很好的关于在 Tableau 和 QGIS 中结合 shapefiles 进行映射的教程:
如果你正在寻找如何使用 Python 找到故事的灵感,我强烈推荐以这篇中型文章为例:我如何使用 Python 在我的利基网站上发表了一篇好文章。这篇文章解释了作者如何编写 Python 脚本来访问 Yummly API 并分析他们所有的思慕雪配方,以找到思慕雪最常见的成分。
这里有一个极好的(如果不是令人沮丧的话)例子,说明框架调查问题如何产生非常不同的回答。
数据集和其他资源
在一项独立的研究中,data.world 的营销总监 Ian Greenleigh 发表了一篇文章,声称“如果 78%的美国成年人能够轻松地访问在线新闻背后的数据,他们就会更加信任在线新闻”。你可以在 data.world 这里亲自探索他的分析背后的数据。
该数据集列出了从 1925 年到 2015 年被美国逮捕、驱逐或遣返的所有移民。值得思考的问题:执行力度增加了/减少了吗?这个数量是否考虑到人口规模而标准化了?等等。
乌特勒支数据学院创建了一个数据伦理决策援助(DEDA)工具来帮助记者、数据分析师和政策制定者认识数据项目中的伦理问题。用户可以填写 PDF 或交互式问卷,以便采取系统的方法筛选数据中的伦理问题。
西雅图公共图书馆允许你查看自 2005 年以来每一个实体项目的每一次结账。警告:数据集包含超过 9000 万行,但您也可以通过查询或使用其 API 来访问它。
上周我发现了网站lobby facts . eu(h/t Jeremy Singer-Vine),并在脑海中将其标记为开始调查的绝佳地点。该网站从欧洲议会获取公共数据,并通过公共 API 提供。还可以找到游说会议的数据(相关站点: IntegrityWatch.eu 有关注这些会议的数据)。
还记得 2014 年马来西亚航空公司 MH370 飞机失踪的新闻吗?澳大利亚政府刚刚发布了他们雄心勃勃的海底测绘勘探的第一批数据,试图找到遗骸。该数据包含 278,000 平方公里的海底地形。
8 月 4 日是国际啤酒日。打开冰镇啤酒,投入到这个精酿啤酒数据集里,来一个迟到的庆祝吧。
Filipe Hoffa 分析了 30 亿条 reddit 评论,找出了网上被提及最多的 Reddit 用户。你可以阅读他是如何做到的,并通过查看他的博文在 BigQuery 上查询数据集。
数据可视化
还记得过去两周所有的日食可视化吗?在这一点上似乎有点过头了。嗯,也许不完全是…你还没有看到#日落地图。
很自然地,推特很快加入了这个笑话。以下是我最喜欢的一些恶搞日食地图:
数据并不总是实时的选举地图和政治报道。NYT 上周发表了一篇关于伦敦新 Crossrail 计划的长篇文章,其中有一个有趣的手机地图选择:
垂直翻转东/西运行的 Crossrail 允许 NYT 仍然可以在移动屏幕上使用注释。但这一选择似乎在 Twitter 制图和数据 viz bubble 之间引发了一点争议。
自然,令人迷惑的地图的例子接踵而至:
我的观点是:NYT 地图翻转绝对是正确的选择。我们应该挑战观众重新思考地图,即使这需要一些方向性的重新思考。
当我们在地图上的时候,我上周发现了这张漂亮的注释地图,是一个难民从也门到奥地利的地图。
Axios 制作了一个很棒的交互式流程图,显示了美国各州之间的商品出口。
本周最佳数据奖授予: Antti Lipponen 和他的温度异常动画图表。
BBC 图表显示桑基图仍然是显示选民如何在两次选举之间改变其政党忠诚度的最佳选择。
《卫报》将旋转散点图引入他们的数据,即上周在关于乌塞恩博尔特的互动数据分析。这里的注释非常清晰,我认为在这种情况下旋转散点图实际上会使图表的含义更容易理解。
英国《金融时报》通过在这张经济泡沫垂直线图上添加引言,再次拓展了图表注释的界限(我认为这是非常成功的)。
“Despacito”无处不在。我是说,到处都是*。*
另一个值得一提的数据 viz Twitter 讨论是由卫报美国数据编辑 Mona Chalabi 发起的这个帖子。完整的讨论值得一看,以了解为什么这些图表是可怕的,但重点包括莫娜揭穿研究,这些研究使用难以置信的小样本量和扭曲统计数据,以支持意识形态/种族偏见。一些人认为统计和数据可视化本质上是真实的,因为它们基于数字。这些图表证明,这是一种危险的不准确的思考方式。
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发推特或者在下面留言。
如果你喜欢这个每周综述,拍上一张 ❤️️ 或者与你的朋友分享。我也很想知道你最近在忙些什么,所以请联系我。下周会有更多的数据。
数据好奇 08.05.2017:上周的数据故事、数据集和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 4 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会把在网上找到的大量与数据相关的很酷的东西剪辑、保存并加入书签。以下是 5 月 1 日这一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的读物
上周法国大选有很多好消息分析。但是我也阅读了一些保存的关于数据最佳实践的链接,推荐了一些非常有用的工具。
在阅读了 Lisa Ross 的“我从使用 24 种工具重新创建一个图表中学到了什么”之后,我开始感觉到更多的工具不可知论。有这么多的选择来创建伟大的数据,没有一个工具可以统治他们。
哦好,另一个唐纳德·特朗普的推特分析!但是这一个从其他人中脱颖而出。《每日电讯报》研究了如何通过分析唐纳德·特朗普的推文来告诉我们他在推特世界之外做了什么,比如他什么时候醒来,什么时候看福克斯和朋友,以及总统可能会变得不那么愤怒(或者至少希望被人这样看)。
说到社交媒体数据分析,数字取证研究实验室的这篇文章深入探讨了 alt-right 在周末的#MacronLeaks 努力。
数据可视化应该总是讲述一个故事吗?简短回答:是也不是。但也许更多的是?这是对数据行业正在进行的辩论的有趣介绍。
我真的很喜欢尼曼实验室关于布丁的这篇文章,布丁是流行文化数据,即测谎仪的编辑部门。它很好地解释了网站的模式,洞察了它是如何盈利的。
播客听众可能会喜欢这个关于的对话,“开放数据应该有多开放?”由牛津大学播客主办。
你有没有想过为什么 data viz 的设计师如此痴迷于圈子?坦白说:我没有,直到我从《连线》杂志上读到这篇文章,描述了数据设计师曼纽尔·利马的新书(现在是我 Goodreads 上不断增长的必读书目)。
这篇文章描述了一个名为 EXIT 的新艺术展览,它用数据展示了气候变化的影响。在艺术中使用数据的真正有趣的方式,以艺术表达的形式而不是新闻报道的形式。
数据集和其他资源
650 data 是为即将到来的英国大选推出的一个新项目。他们为他们正在做的所有事情创建了一个 Github repo,其中包括一些用于轮询的优秀数据资源。
全球调查新闻网络上周在推特上发布了一个便捷的数据资源,列出了 520 个开放数据门户。
我之前在 Good Reads 部分提到了 Pudding,但是你知道吗,这个 data viz powerhouse 保存了他们所有积压的想法、数据集和资源的公共 Google 文档。检查。它。出去。
喝啤酒的人可能会喜欢这个美国啤酒厂生产的啤酒罐、小桶和税收的综合数据。
在非数据集相关的新闻中,Tableau 刚刚宣布了数据新闻项目的新的和更新的课程。博文此处。
数据可视化
天哪,上周在我的订阅上出现了惊人数量的数据。
彭博绘制了一幅精美的地图,展示了英国退出欧盟如何给吉尼斯世界纪录的出口制造问题。
阿什利·柯克(Ashley Kirk)发表了一个出色的例子,利用特朗普执政前 100 天的注释垂直时间线。
我喜欢英国《金融时报》约翰伯恩-默多克(john Burn-Murdoch)的这种高亮条形图风格。它清楚地显示了随时间和数量的变化。
这个由 Michael Mixon 撰写的关于 EPA 削减的交互数据将带注释的 Tableau 图表与 reveal.js 框架结合在一起。嵌入式 Tableau 图表素有挑剔的名声,但我认为 Mixon 在这里找到了一个成功的组合。用箭头键滚动故事是一件轻而易举的事,图表的交互性是一个很好的补充,同时不会妨碍故事。
我喜欢在这张 38 度的图表中使用空心圆圈和实心圆点,这是按发电厂类型划分的电力成本。它看起来比有时过于学术化的框框图要干净得多。
我真的很喜欢这个 gif 数据,即来自 FiveThirtyEight 的数据,它显示了共和党人和民主党人是如何看待不同群体受到歧视的。最能说明问题的是:许多共和党人认为基督徒受到了歧视,绝大多数民主党人并不这样认为。
来自英国《金融时报》的这份 vis gif 数据展示了一种让用户一步步了解图表故事的绝妙方式。通过改变整个 gif 的注释,一个标准的折线图不仅仅显示数量随时间的变化。它成为一个详细的时间线,而不占用传统时间线所需的空间。
Maarten Lambrechts 在今年即将到来的欧洲电视大赛上为谷歌新闻实验室创建了一个数据 vis。你可以在这里查看他的博客文章“制作:欧洲搜索歌曲大赛”。
这张来自 NYT 制图公司的地图很好地利用了颜色来显示运输路线。我也喜欢地图的圆形视图,以创建一个类似地球的效果。
几乎有太多的法国选举可视化可供选择,但这里有几个引起了我的注意。
华尔街日报的这篇分析显示了勒庞如何在高失业率地区获得更多支持。整篇文章的地图和图表真的很犀利,很好理解。
英国《金融时报》数据团队的创造性产出继续给我留下深刻印象。这份对法国大选的隔夜分析充斥着圆滑的数据,即。我最喜欢的是:显示预期寿命和马克龙选票份额之间相关性的散点图。
直到在英国《金融时报》上看到汉娜·墨菲(Hannah Murphy)的动画时间线,我才意识到马克龙的掌权速度有多快。将它转换成 gif 格式用于社交分享,使得这些数据具有超强的可读性和丰富的信息。
上周就这样了。你看到我错过的东西了吗?或者你只是想给我一个数字点头?给我发微博或者在下面留言。下周会有更多的数据。
数据好奇 10.07.2017:上周的数据故事、数据集和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 13 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 6 月 19 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
公平的警告:本周将会很短暂。不是因为缺少数据,而是因为没有空闲时间来收集这些数据。让我们开始吧!
保罗·布拉德肖在《电视邮报》上发表了他的《数据新闻》的后续文章,在广播、音频和播客上发表了数据新闻。如果你正在寻找听力材料,他有一些很好的建议。
这篇题为已婚人士拥有更多的性生活的文章是利用数据分析对抗社会刻板印象的一个很好的例子。文化叙事:结婚后你的性生活会下降。数据叙事:已婚者性生活更多。
我很喜欢阅读卫报数据新闻团队关于他们如何使用数据驱动的新闻方法报道 2017 年英国大选的幕后报道。
这份关于二氧化碳排放的碳简要报告中有一些非常丰富的数据和可视化。
Eva Constantaras 非常友好地分享了她最新的数据新闻演示笔记:
布丁猫王深入研究了美国鲸鱼和海豚圈养的数据。
自英国在酒吧引入禁烟令以来,已经过去 10 年了。英国广播公司发布了显示影响的 10 张图表来纪念这一里程碑。
数据集和其他资源
本周我不太关注数据集,但我正在创建一个我每周都会找到的数据集的中央数据库。我会计划在每次发布新的数据时更新它。敬请关注。
现在,看看这个数据库,追踪美国帮派相关的谋杀案。
如果您使用 R 语言,您可能会发现本教程对于数据探索和可视化非常有用。
这是特朗普政府所有白宫官员的数据集。
如果你在 Tableau 工作,请查看安迪·克里贝尔(Andy Kriebel)过去几周的周三锻炼。象限图是一个很好的清单。
最后,大狗比小狗聪明吗?分析这个数据集来找出答案。
数据可视化
我喜欢在英国《金融时报》对格伦费尔大厦的数据分析中使用带注释的图表。
莫娜·沙拉比祝你 7 月 4 日快乐。没有 __,美国就不是美国了。
凯文·奎利是我的数据,即这条推文的本周英雄。" 44 张地图,比你手机上的任何时候都好看."
这里很好地使用了南丁格尔的玫瑰来显示自 1990 年以来互联网使用的增加。
看起来英国下议院图书馆正在进入预算可视化领域。桑基和泡泡图的有趣组合。
这是一个非常酷的方式来可视化世界各地的白昼时间。我认为地图的呈现是显示这些数据的直观方式,但是让用户点击到达那里感觉像是增加了一点不必要的工作,特别是因为 Tableau 似乎需要很长时间来响应用户的点击。
这张动画地图显示了伊拉克军队如何蚕食 ISIS 的大本营摩苏尔。
这是从上周开始的(我知道它比平时短,但更多即将到来!).你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。我也很想看看你最近在忙些什么。
如果你喜欢这个每周综述,在上面拍一张 ❤️️ 或者与你的朋友分享。下周会有更多的数据。
数据好奇 12.06.2017:上周的数据故事、数据集和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 9 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 6 月 5 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
随着上周英国大选的临近,我的推特上充斥着大量政治分析和数据。当然,这不是坏事,但值得免责声明:本周有很多与英国选举相关的内容。但我向你保证,他们仍然很出色。
对于那些不熟悉英国政治格局的人来说,卫报的互动文章特里萨·梅的赌博是如何失败的?是一个很好的分析工具。密集的数据和带注释的微观可视化使其易于消化,同时仍能传达选举中的利害关系。
另一个好结果综述:BBC 的 2017 年选举:地图和图表中的结果。
关于 NYT 那篇文章英国如何投票,我有很多很多好话要说,但我更希望你自己判断。
约翰·伯恩-默多克是大选期间在推特上关注的关键人物之一。他在选举后的几个小时内制作的大量图表和分析既惊人又有见地。你可以在英国如何在 7 个图表中投票中阅读他对《金融时报》的完整分析。
话虽如此,他的一些散点图确实引发了关于因果关系/相关性融合的健康辩论。例如,这张图表显示,人的健康越差,他们就越有可能投票给保守党:
From John Burn-Murdoch at the FT.
这是《纽约客》上关于华盛顿大学提供的一门名为“大数据时代呼唤废话”的新课程的有趣简介。除了作为大学课程的一个好名字之外,这篇文章还提醒我如何处理数据,它涉及的远不止是实际的数字:数据从何而来?谁获得了数据?为什么?这些问题可能和数字本身一样重要,有时甚至更重要。
这里有一些关于如何使用 VLOOKUP 在 Excel 中面试数据的小技巧。
如果您在东欧地区,有一个值得一试的#opendata 和#ddj 机会:
如果你用数据来充实 UX,你可能会喜欢这个关于 UX 的阴阳和数据的中帖。此外,这篇文章有一些有用的设计技巧,可以在处理复杂的大数据集时牢记 UX。
上周,全球调查性新闻网络的工作人员强调了数据记者应该掌握的一些关键技能。
如果您正在寻找在线注册的最佳数据即课程,您可能想看看这张令人印象深刻的互联网上每门数据可视化课程的综合图以帮助您在注册前做出决定。
这篇关于 9 个更好的数据可视化技巧的文章从该领域的领导者那里得到了一些很好的建议。
更多的数据即学习资源值得关注:Shirley Wu(来自《数据素描】)正在教授一门在线课程,有人报名参加了这门课程,并为了每个人的利益写了第一课。
工具更新消息:流行的易用图表程序 Datawrapper 现在支持散点图。
2017 年数据新闻大会上有一些很好的收获,Marianna Bouchart 很好地将它们发布在 Medium 上:如何衡量数据新闻的成功以及 2017 年数据新闻大会上专家的其他建议。
这条为记者提出的规则将被写进我的黄金规则手册《如何不被数字欺骗》(这是一个工作标题)。
Data.world 发布了一个新的 SPARQL 教程,作为使用查询语言的介绍。作为额外的奖励,练习数据集是《权力的游戏》中的角色(在这里下载)。
这是一项有趣的研究,根据媒体出版商的报道,研究了脸书喜欢和分享之间的关联。如果你想分析福克斯新闻频道脸书帖子中的关系,你也可以在这里下载你自己的数据。
数据集和其他资源
我喜欢新闻编辑室开放他们的数据,Quartz 的团队刚刚发现了一个数据金矿:数据编辑 Chris Groskopf 宣布了 Quartz 可靠数据目录。这是一个很好的电子表格,可以作为书签来查找最近的可靠数据集。
彭博在 Github 上有一个数据集,记录了川普成为总统之前乘坐的所有航班。你可以通过阅读彭博的文章来了解如何分析这些数据,或者你可以在这里下载数据并亲自尝试一下。
美国劳工部必须公布已报告的严重工伤(住院、截肢、失明等)数据。听起来有点病态,但是如果你感兴趣,你可以在这里下载电子表格。
这里有一个由 Google Research 基于 Reddit 对话制作的有趣的数据集:“粗糙话语”,或者是一个对在线讨论进行理解和分类的数据集。
英国选举的官方结果数据将会很慢出来,但是你可以从BBC 的页面抓取一些政党结果来开始分析。
上周所有的选举地图也让我想起了这个便利的资源:一个英国所有选区的大形状文件。
数据可视化
有一些关于选举的东西对新闻编辑室的数据和图形单元施加了某种魔咒。似乎在每次重大选举之前、期间和之后,viz 的数据输出都会激增,英国将军当然也不例外。上周充满了令人难以置信的视觉效果。
我爱一个好的网络图分析,你呢?这张照片展示了英国现任议员的追随者关系。
我真的很喜欢这次卫报关于英国大选结果的互动。点击“播放”按钮,你就可以看到选票滚滚而来,就像选举之夜一样,还可以看到关于哪些席位最不重要的注释。《卫报》开始关注一种非常好的视觉风格,他们也偏爱十六进制图表。
2017 年当选的女议员比以往任何时候都多。
Yelp 的数据科学编辑 Carl Bialik 非常明智地指出,当一张地图根据座位的影响而不是地理区域进行加权时,视觉效果会形成鲜明的对比。
英国《金融时报》制作了一些精美的动画 gif,展示选举之夜是如何展开的。
Stefano Ceccon 制作了一个有趣的动画 viz,展示了在过去的四次选举中,英国政治是如何变得越来越两极化的。
除了对地图有好处之外,选举也是桑基图的好机会。典型的例子:
现在到一些非选举即。
我发现这个全球军火交易的地图混搭真的很有趣。
这是一个精心设计的交互式地图,结合了一些有品位的注释和工具提示中图表的使用,以更深入地挖掘数据。不过警告:文本是德语的(如果你想阅读注释,谷歌翻译做得不错)。
这是另一张美丽的网络图。
来自政治的关于欧盟死亡原因的互动提出了一些关于恐怖的有趣问题。这一视觉效果令人震惊,但也引发了一些担忧:以这种方式比较不同领域的死亡原因(即癌症与恐怖主义)公平吗?
Vox 对媒体如何报道某些事件做了一些有趣的分析。我认为这张图表提出了一些有趣的问题:
作为一个在美国中西部生活了大半辈子的人,下面这张地图并没有让我感到惊讶。但对世界上的其他人来说,这是令人震惊的。
大多数熟悉数据可视化的人都知道,人类用设计来描述数字已经有很长时间了(想想弗洛伦斯·南丁格尔的玫瑰图)。但是你知道吗,一个数字动画数据 viz 早在 1965 年就被制作出来了。
上周就这样了。随着上周产生的大量数据驱动的故事、分析和可视化,我很肯定我可能错过了一些顶级的工作。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。我也很想看看你最近在忙些什么。
如果你欣赏这份每周综述,就在上面画一颗心,或者与你的朋友分享。下周会有更多的数据。
数据好奇 13.09.2017:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 19 周(上周的帖子是这里是)。
在短暂的假期后,我又回来发布我最喜欢的数据了。原谅周三发布延迟!周一早上回来,下周例行周记(承诺)。由于我保存了过去两周的链接,这篇综述可能会比平常更有力。还有这么多飓风地图。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 8 月 21 日那周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。我下周休假,所以下一次数据好奇将在 9 月 11 日回来。请在媒体上关注我的最新消息。我也是推特上的。让我们开始吧。
好的阅读、分析和教程
Alastair Rae 在推特上发布了一些关于如何以有趣的方式教授统计学的不错的课程材料。
同样,我喜欢这个数据,也就是由 Nathan Yau 发布的漫画。
在过去的两周里,出现了很多值得收藏的好资源。我最喜欢的是来自 NYT 的公告:这个图表是怎么回事?
这是一篇来自 Alberto Cairo 的关于引用单一数据点时上下文的重要性的精彩博客。我也喜欢他指出布莱巴特在报道 DACA 时故意忽略了这一点。
布丁制作了一篇关于开车去美国堕胎诊所的时间的令人难以置信的视觉文章这篇文章中的数据可视化简直令人震惊,尤其是显示怀孕不同阶段最近诊所的动画 gif 地图。您可以在安全地点项目查看布丁用于创建地图的数据。
如果你想学习一门用于数据分析的编码语言,我强烈建议你从阅读这篇来自 Peter Gleeson : 的非常全面的概述开始,你应该学习哪种语言用于数据科学?
我发现这非常有趣,不太长,关于在新闻和数据中使用术语“讲故事”的 tweet 线程。一方面,数据可视化思想领袖 Alberto Cairo 反对在数据中使用“讲故事”。但是最近数据驱动视频《影子和平》的创作者尼尔·哈洛兰说他支持使用这个词。两个像样的论点…你觉得呢?
哇,NYT 的这个互动数据真是太棒了。你解决它:你能保持在世界碳预算之内吗允许用户估计从现在到 2100 年世界主要国家和地区的碳排放量。用户输入、改变滚动可视化和不同颜色的投影折线图的组合是一个非常有效的组合。
这是我在 Medium 上为任何使用 Seaborn 和 Python 创建数据可视化的人找到的一张不错的备忘单。
奈特实验室(Knight Lab)开发了一款名为 Storyline 的新工具,它允许你构建一个带注释的交互式折线图,风格类似于英国《金融时报》制作的折线图(但具有交互性)。看看这个:
过去两周的新闻中有如此多的飓风地图和视觉报道,我不得不阻止自己把它们都保存下来。以下是我最喜欢的两篇文章:
FiveThirtyEight 发表了一些非常好的视觉分析,分析了飓风哈维与美国以前的飓风相比的情况。这张华夫饼/条形图组合是我最喜欢的,它显示了近年来代价高昂的灾难似乎变得越来越常见。
在我看来,NYT 绘制了最漂亮的飓风路径图。这种互动功能在捕捉飓风强度方面做得很好。
NYT 还制作了一个视频,展示了 40 多个工业场所是如何因哈维飓风而释放有害污染物的。
哦,天哪……根据《哈佛商业评论》,只有 3%的公司的数据库达到了最低可接受的 97%正确数据记录的范围。这项研究分析了 75 名高管的调查结果。看起来不太好,西装男。
我们从大量数据中得知,人们喜欢地图(即使它们并不总是你数据的最佳选择)。Carto 发表了一篇博客,介绍了企业在数字战略中使用地图的三种方式。这里有一个来自 CityLab 的关于网络流量的很好的证明:
“例如,致力于讲述世界城市故事的大西洋媒体公司(Atlantic Media company)的子公司 CityLab 发现,平均而言,他们的地图页面上每月 220 万独立访客的参与度和分享量高于任何其他类型的帖子。”
ESRI 的约翰·纳尔逊写了一篇令人印象深刻的全美房屋抵押贷款价格数据分析这篇文章的中心视觉效果是一张 choropleth 图,显示了每个地区的抵押贷款中位数与收入中位数的比率。地图使用了一些很好的滚动说明来解释每个地区最好和最差的地方。这篇文章是使用 ESRI 的故事地图级联模板创建的,数据取自 ArcGis 住房负担指数。
这里有一篇来自当地统计局的很棒的博客文章,解释了他们如何将当地记者与国家数据联系起来,以披露一些关于英国受污染农场的大新闻。这是一个鼓舞人心的故事(也是一个值得关注的伟大媒体组织),展示了协作和数据的力量。
最后,这是一个关于如何使用 Python 来定位和跟踪特定比特币地址进行调查的精彩教程。你也可以检索地址,搜索这些账户的暗网提及。
数据集和其他资源
这周我有很多很棒的数据集要和你们分享。
比如这个数据世界的盗版攻击数据集:
这里有一个需要重新审视的及时数据集:大洪水事件的全球主动存档。记录可以追溯到 1985 年,你可以下载 Excel、XML、HTML 和地理空间文件(h/t Jeremy Singer-Vine )。
作为互联网档案馆新项目电视新闻档案馆的一部分,该公司创造了一个新工具: Face-O-Matic 。该软件通过电视新闻片段来分析特朗普和美国参众两院各领导人的屏幕时间。这些数据可以通过电视新闻档案免费下载。
显然,优步刚刚发布了来自全球超过 20 亿次旅行的匿名数据。那是很多的 Ubering。用户需要一个优步账户来访问数据,但这可能值得一看。
另一个值得一看的有新闻价值的数据集:这个关于那些受 DACA 影响的人住在哪里的数据库。
这是 2015 年印度发生的所有犯罪的数据集(与 2014 年相比)。
寻找更多的数据来源?Tableau 发布了一篇关于你现在需要的 5 个数据源的博客(提示:其中一些出现在这篇综述中)。
数据可视化
本周没有那么多数据值得炫耀,因为我尽了最大努力(但大部分都失败了)在度假时远离 Twitter。此外,大多数最好的东西都可以在这篇综述的文章部分找到。但这是我喜欢的其他东西。
皮尤研究中心证实了大多数人已经知道的事情,但是是以一种很好的视觉方式。
我喜欢在坡度图之间使用阴影来显示泰国的贫富差距。
对于一种显示风暴路径不确定性的方法来说,这是一个多么好的名字:涂抹。
欢乐情节再次来袭!Axios 绘制了自 1987 年以来大西洋上的每一次风暴。
在与风暴无关的情况下,现在有明确的证据表明,NYT 周五和周六的填字游戏客观上比其他日子更难。
这张互动地图向你展示了100 美元能让你在美国的每个城市(地区)走多远。
汪汪。太多了。上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。回到下一个 week✌.
如果你欣赏这个每周综述,给它几个👏️️ 或者与你的朋友分享。我也很想知道你最近在忙些什么,所以请联系我。
数据好奇 14.08.2017:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 17 周(上周的帖子是这里是)。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 8 月 7 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。让我们开始吧。
好的阅读、分析和教程
我发现这个教程和创建 Joyplots 的介绍非常有帮助。作为一种图表类型,Joyplot 有时更具艺术性,而非描述性。但是丹尼尔·普雷格为使用 Joyplots 作为一种显示随时间变化的方式提出了一个令人信服的论点,同时也包括了适当的背景。(旁白:要了解一点历史,请看这篇《科学美国人》的文章,它讲述了 Joy Division 的 pulsar 专辑封面背后的科学的历史。)
如果你还没有看过影子和平,抽出 15 分钟来看看吧。这个互动视频使用数据分析和研究来解释假设的核战争会对人类造成什么影响。既恐怖又迷人。但所有这些都是精心制作的。
Screenshot from The Shadow Peace video.
如果你以前读过这篇综述,你会知道我是布丁杂志的忠实粉丝。上周,我非常高兴地看到了伊利亚·宾德曼关于如何制作毒品的新文章。他的博客文章是即将推出的系列文章的第一部分,重点是用数据讲述视觉故事。请关注这个系列的其他部分(如果你不关注,我当然会支持你)。
现在是英国的假日旺季,所以自然地,BBC 创造了一个交互式的航班延误计算器来估计机场的等待时间。在互动的下面是一些漂亮的数据,即平均延迟时间(看起来不太好 EasyJet)。
路透社的图形团队制作了一个关于委内瑞拉发生的经济危机的漂亮的解说。 Vladimir’s Venezuela 使用折线图/条形图、华夫饼图、小倍数图和地图来显示石油出口价格下跌如何削弱了该国,并使俄罗斯扫入并抓住了机会。顺便说一句,虽然我通常不喜欢深色背景的外观,但我认为黑色背景+黄色数据 viz 非常适合这件作品。
数据可视化工程师 Elijah Meeks 写了一篇关于冲积图和它们的不满的有见地的媒体文章。这篇文章讨论了系统可视化形式的兴起,比如 data viz 社区中流行的 Sankey 图。虽然桑基图是显示流量的明智选择,但它在很大程度上不允许循环反馈,这限制了它们准确描述网络流量的能力。
另外,我强调了 Elijah 文章中的这一部分,因为尽管是题外话,我觉得它适用于数据可视化中一个更大的问题。基本上:阅读图表时不要要求用户做太多的工作(大多数情况下)。
您会注意到,这个实现没有利用颜色来编码类别或数量。这是一个基于图的复杂性和我不想用太多的频道淹没用户的愿望的决定。当你展示的图表的大小和位置与读者期望的典型数据点不一致时,你已经在要求大量的投资了。
这里有一个很好的入门教程,关于如何用 Python 创建和可视化决策树。
这份彭博数据分析显示,伦敦几乎没有房屋出售。
Interactive module allows you to compare house prices in London boroughs.
Mapbox 发布了一个 WebGL 库来创建风模式模拟。我不知道它是如何工作的,但是演示地图确实令人着迷。
数据集和其他资源
记者亚历克斯·拉夫林根据她对音频制作人收入的调查制作了一份数据分析。你可以在她打开的谷歌电子表格中查看数据。
这里有一个数据集,里面有成吨的网飞电影和电视剧供你玩。这些数据绝非详尽无遗,但它可以作为一个很好的测试数据集来理解评级分布如何在网飞发挥作用。
美国农业部国家营养数据库是最全面的食物数据来源。你可以在数据库中查询食物描述、营养数据、食物类别等等。
英国海洋数据中心拥有 1915 年至 2016 年英国所有沿海洪水事件的数据库。该数据库包含每个事件的日期、地区和严重程度(h/t Jeremy Singer-Vine )。我感觉到了一些映射潜力…
Data.world 已经启动了一个新的数据项目,旨在识别包含食物沙漠的社区。目标是将来自 usaspending.gov 的数据与其他数据集结合起来,揭示新的见解。有趣的地理数据+美好的事业!顺便说一句,即将推出的美国消费网站的测试版看起来将是一个巨大的改进。
数据可视化
你看到这张图表了吗?我是说,*你看过吗?!*触目惊心。NYT 用一张简单的图表展示了我们破碎的经济。
这是同一个 NYT 图表,但是绘制成了 gif 折线图。
贝纳特·阿瑞吉用 Airbnb 的客人评分作为坐标,制作了一堆城市地图。
有没有注意到年历看起来和华夫饼干图表有多么奇怪的相似?自特朗普总统任期开始以来,多年日历堆叠=华夫饼图表新闻发布会对比(白色表示没有举行新闻发布会)。
我真的很喜欢 NYT 那篇文章中的这张图表组合图一个保守的电视巨头如何摆脱监管。气泡图可以很好地显示位置,但是很难区分气泡大小之间的更好的细节来进行比较。通过将之前/之后的气泡图与堆叠条形图相结合,查看者可以在一个图形中了解地理数据和一段时间内的累积数据。
《卫报》上周在 Instagram 上发布了这张科技领域男性员工的图形后,引起了一些波澜。虽然这是一个有争议的设计选择,但至少它让人们开始谈论(h/t 索菲·沃恩斯)。
我喜欢这个形象化的画面,它用一个标志性的班克斯形象展示了处于贫困危险中的儿童。量化数据与艺术形式的完美结合。
还记得上周的 WaPo 首页数据吗?网络故事更好,有大量的数据和视频。
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。
如果你喜欢这个每周综述,在上面拍一张 ❤️️ 或者与你的朋友分享。我也很想知道你最近在忙些什么,所以请联系我。下周会有更多的数据。
数据好奇 15.05.2017:上周的数据故事、数据集和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 5 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会把在网上找到的大量与数据相关的很酷的东西剪辑、保存并加入书签。以下是 5 月 8 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的读物
这周我找到了很多有用的文章,从很酷的操作指南到更多关于数据和数据可视化的理论文章。
约翰·纳尔逊在 LinkedIn 上发布了一个教程,展示如何在 Excel 中创建一个大块的单元格图。这是一个超级简单的方法,也是一种很酷的预览经纬度数据的方式。如果你喜欢复古电子游戏和像素化也很酷。
Screenshot from John Nelson’s LinkedIn post.
这里有一篇来自开放数据研究所的文章,其中提出了一些很好的建议,建议在即将到来的英国大选的宣言中关注哪些与数据相关的政策。
美国人口普查局的领导人刚刚辞职,该分支机构正面临巨额资金削减。局里有麻烦了?和人口普查经费的损失怎么会损害社会公正?
你是否曾经想检查或使用你在网上发现的一个很酷的互动背后的数据?Paul Bradshaw 发布了一篇博客,向用户展示如何使用浏览器检查器(在我看来,在 Chrome 浏览器中效果最好)来找到互动内容背后的数据。本周,他还宣布了伯明翰城市大学一个新的数据新闻专业的 T2 硕士学位
Max Harlow 在伦敦 Journocoders Meetup 上就如何使用 RegEx 搜索、转换和清理你的数据给出了详尽的指导。对于那些不熟悉正则表达式,并且正在寻找清理和搜索大量文本文件的方法的人来说,这尤其有用。
自从上周发现布丁后,我对他们的“视觉散文”的质量感到惊讶例句:这篇关于美国最佳啤酒城市的滚动文章给人留下了深刻的印象。这是我最喜欢的部分:在揭示了啤酒的最佳城市之后,他们给了用户调整一些排名的选项,以查看它如何改变数据。我认为这是与观众建立信任并展示计算可视化背后的过程的一个很好的方式,特别是当声称知道任何事情的“最好”时。
Try out manipulating the data for yourself here.
布丁还发布了一份关于 pup 音乐的惊人数据分析,题为“流行歌词越来越重复了吗?”。剧透:他们绝对是。但是他们计算的方法是使用数据分析和算法的一个很好的例子(也是很好的 scrollytelling )。
我很欣赏这篇捍卫饼状图的中帖。我认为作者在这里提出了一些很好的观点:在数据 vis 世界中,我们都喜欢讨厌饼图,但有时这有点像在体育课上找那些不能像大孩子一样运动的书呆子的麻烦。简要总结:“饼图是讲述简单故事的简单生物。”有时候这就是你所需要的。现在仍然不可否认有一些非常糟糕的饼状图,但有时简单也可能是好的。
围绕这篇大胆的中型文章有一些讨论:“静态可视化不存在”。我理解作者的观点,我也同意静态的视觉化图像在你阅读时仍然有一种与生俱来的运动感。但是从实践的角度来看,当考虑如何最好地利用数据进行设计时,静态和交互仍然是一个真正的区别。
对于那些希望用数据构建交互的人来说,丹·斯坎隆为为什么使用 D3 和 React 而不是任何其他组合提供了一个很好的论据。
说到 d3,谷歌的 UX 工程师伊恩·约翰逊发布了一篇名为“D3 . js 的搭便车指南”的中型文章,给那些想了解更多 D3 的人。这是一种更容易进入 d3 API 文档的方式,可以让你思考 d3 比例、D3 形状、D3 选择等等。
《经济学人》的数据新闻部举办了一场 Reddit AMA 会议。浏览对《经济学人》如何在新闻报道中使用数据的一些有趣回答。该团队使用 Python 和 R 进行数据分析,使用 Adobe Illustrator 进行静态图表分析,使用 D3 进行交互。
最后,一个 Spotify play 能给你买多少扁豆?居然有人发现了。感谢/theydithmathsubred dit(也许是有趣的数据板?)我们都更清楚 Spotify 上的一部剧值多少钱。
数据集和其他资源
政治本周发布了一份所有未经授权访问白宫的公共数据库,引起了一些轰动。
透明国际发布了他们最近的清廉指数数据集。可以在 data.world 上查询数据集,英国排名第十。你也可以看看每个国家在历史上的排名。
来自调查报道中心的出版物和播客 Reveal 发布了一个数据集,被描述为“公开可用的最详细的边界围栏地图”。每个部分包括围栏的类型和建造时间。
ProPublica 和《消费者报告》(Consumer Reports)最近开发了一款应用,可以按美国的邮政编码显示各家公司的汽车保险保费。他们在分析中发现,在少数族裔社区,一些保险公司收取的保费比白人社区高出 30%。你可以在这里下载完整的数据集并查看代码。
Instacart】发布了一个数据集,其中有来自 20 万匿名用户的 300 万个在线订单。哇哦。是时候想象网上购物了。
网购爱好者(以及通常喜欢挖苦人的人)会喜欢这个讽刺亚马逊评论的数据集。
欧盟统计局发布的新数据显示,2016 年宣布为孤身未成年人的寻求庇护者人数比 2015 年下降了约三分之一。2016 年,6.3 万名寻求庇护者在欧盟申请国际保护。新闻发布有按原产国划分的原始数据集。要查看数据,可以尝试用类似 Tabula 的工具快速抓取 PDF。
你看过伦敦数据仓库的英国退出欧盟仪表板了吗?我上周偶然发现了它,尽管处于测试模式(据称),它仍然很容易使用。建议的改进:在每个图表下面包含一个按钮,用于下载可视化数据的 csv 文件(因为开放数据!).
数据可视化
上周出现了许多地图。我不知道为什么,但我也不抱怨。
这张来自 NYT 的动画地图在大规模 WannaCry 勒索软件被发现后不久就在 Twitter 上流传开来。除了时尚和简单之外,我认为使用定时拍摄通过展示这种计算机勒索病毒传播的速度,产生了非常强烈的影响。
看看这张出现在巴拿马报纸上的所有公司的互动 ESRI 地图。
以前从来没有一条推文完美地总结了美国选举地图的问题。明智地映射朋友。明智地绘制地图。
你见过这个世界贫困钟吗?你应该这样做。他们还在开发一个开放数据 API。
哇,这个情感互动图谱是探索人类五种普遍情感的一种非常酷的方式。
比尔·盖茨在推特上为这个数据大声欢呼,因为它有效地可视化了全球贫困的减少。
我非常喜欢这个展示非洲大象如何消失的互动作品。大象普查显示,在 18 个非洲国家,稀树草原大象的数量在 7 年内下降了 30%。
那些未能参加 2017 年 Viz 大会的人可以观看下面的视频。
上周就这样了。你看到我错过的东西了吗?或者你只是想给我一个数字点头?给我发微博或者在下面留言。下周会有更多的数据。
数据好奇 16.10.2017:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 23 周(上周的帖子是这里是)。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 10 月 2 日那一周吸引我眼球的内容(还有那之后的一周…错过了上周的帖子!).在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。请在媒体上关注我的最新消息。我也是推特上的。
作者说明
我最近一直在思考这个亲爱的综述,并想知道它可能会走向何方:只是时事通讯?还是中等,但是一个月一次?两者兼而有之?陪审团仍在商议,但现在我要说的是:某种变化可能会到来,它将有利于的质量而不是数量。
少即是多。极简主义现在很酷。你明白了。
但闲聊已经够多了。让我们认真对待你真正关心的事情。
好的阅读、分析和教程
第一篇要提到的文章,顶级的:来自 FT 互动团队的优步游戏。👏 👏 👏
如果你还没玩过,现在就玩吧。
我认为这是一个非常有趣的数据项目:人们如何凭记忆画出标志性的标志。星巴克是最搞笑的。最有趣的一点是:尽管所有画画的人都有同样的自信,但年轻人在细节上更准确。
哇,这篇来自《华盛顿邮报》的关于波多黎各挥之不去的黑暗的文章真的很有冲击力。使用深色背景和浅色图表也是一个很好的视觉效果。围绕美丽的数据即故事。
我喜欢《洛杉矶时报》要求读者重写第二修正案的简单互动。随着美国枪支辩论的持续进行,看不到结束的迹象,这是一个聪明而简单的方法来鼓励读者参与到网站上的一篇文章中。另外,第二修正案只有 145 个字符——方便地接近一条推文的长度。
关于枪支暴力的话题,NYT 制作了一个令人惊叹的互动作品,将数据可视化与半自动步枪开火的真实音频相结合。点击这个链接,按下图表上的播放键,你会惊奇地发现以前没有人想到这样做。
Screenshot of the audio chart mentioned above
如果你是韦斯·安德森电影和使用大量数据的视觉论文格式的粉丝,请请帮你自己一个忙,沉迷于这部美丽的机器学习作品,在韦斯·安德森电影中挑选视觉主题。你也可以从的人们那里了解到它是如何制作的。
Screenshot of full piece by Yannick Assogba
虽然我自己还没有机会这样做,但我期待着跟随 Giorgia Lupi 的教程学习如何制作自己的数据自拍。
到目前为止,我们已经熟悉了 charticle 格式:关于this你需要知道的 8 个图表。但是你听说过“宪章”吗?大概不会。即便如此,我还是决定喜欢它。抱歉英语。
数据集和其他资源
自 20 世纪 80 年代以来,美国环境保护署(u . s . Environmental Protection Agency)一直利用遍布全国的监测站发布空气质量数据。点击下载年度数据。
媒体云是一个非常酷的项目,来自麻省理工和哈佛。它在数以千计的新闻来源中爬行,以在故事和句子层面找到关键词和主题。你可以使用他们的仪表板进行更高级的搜索和查看数据。
你以前听说过私有公共空间吗?《卫报城市》刚刚发表了一篇关于遍布伦敦的“伪公共空间”的精彩文章。基本上就是大公司买下公共土地。您可以在此查看私有公共空间数据(在 shapefiles 中)。
如果你还没有读过布丁的最新视觉文章,该文章分析了美国生活中的性别偏见,你现在应该读一读。你也应该在这个方便的谷歌电子表格查看作者发布的原始数据。
NFL 现在是一个两极分化的话题。你知道美国政治中还有什么两极分化的话题吗?大多数事情。
Scrape the data from the NYT piece here if you want it
最近,野火在加利福尼亚迅速蔓延。如果你对这类自然灾害的历史感兴趣,请查看该数据集(最新发布于 2017 年 5 月)显示了自 1984 年以来每年的烧伤严重程度和范围。
卡内基·梅隆大学正在汇编一个人类运动数据集。该数据库包含握手、喝水、大笑、跳舞等动作的视频。听起来像是一个出色的机器学习项目的开始(如果你喜欢那种东西的话)。
这里有一个有趣的数据集:脸书因参与 2016 年选举操纵而删除的五个账户中的 3000 个帖子。准备进入假新闻的兔子洞(真正的假新闻,不是那种假新闻)。
data.world 上有人开始组织一个数据项目,由在网站上发布“有数据支持的新闻”的人组成。可能是一个有趣的资源,可以找到一些你在网上找到的故事背后的原始数据。
数据可视化
本周只分享几个图表,但它们都以自己独特的方式真正引人注目。
《华盛顿邮报》用一个(有点)方框图来解释不公正的选区划分,这是一个创新。
我喜欢这种比较两个百分比的图表风格。如此简单,却又如此有效。
这张图表绝对令人震惊。不是那种美丽的,令人敬畏的方式。有点不知所措。
前面提到的波多黎各的精彩摘录:
这里没什么好看的…等等,十月发生了什么?🙄
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。brb✌.
如果你欣赏这个每周综述,给它几个👏️️ 或者与你的朋友分享。我也很想知道你最近在忙些什么,所以请联系。
数据好奇 17.07.2017:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 14 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 6 月 19 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
《美国国家科学院院刊》的科学家发表了一项研究,内容是道德愤怒的推特用户如何在很大程度上保持在他们的政治社交媒体泡沫中。Quartz 发布了他们的分析摘要以及结果的网络图。
上周有消息称一座巨大的冰山从南极冰架上脱落。《卫报》制作了一些精彩的带注释的图表来展示裂缝的进展。我还发现这个展示冰山大小的动画视频很有冲击力。
我发现了这张很棒的 gif 图,它展示了汇总统计数据并不总是能告诉你更多关于全局的信息。你可以在这里阅读关于它的简短博客文章。
上周我发现了一个新的图表库,叫做 FactGraphs。它目前在 Kickstarter 上,主要面向新闻编辑室和学术研究人员。界面看起来很有趣,但不确定我对这个设计的感觉如何。
BrightTalk 将于 7 月 19 日举办一场免费网络研讨会,内容涉及如何将可视化应用于金融数据。
这篇来自华盛顿邮报的关于美国日食的文章有一些令人兴奋的旋转地球仪的图片。
布丁上周制作了一篇关于海豚的视觉散文。人鱼童话和 Flipper by the Numbers 分析是 scrollytelling 的一个很好的例子。再加上作者介绍了一个我没见过的功能:海豚视频和 gif 在栏目工具提示里。
安迪·基尔克认为说到实践数据,你应该像记者一样思考。我非常同意他的观点(虽然我可能有点偏颇)。他的简短博客解释了这一基本原理,但它真正归结为好奇心。处理数据就是问正确的问题。
如果你开始使用 R 进行分析和可视化,这篇文章有一些不错的入门包可以帮助你。
需要刮一些 pdf 做数据?我们都经历过。pdf 是每个数据人员的眼中钉,但幸运的是有一些方便的工具来解决这个问题。我自己喜欢 Tabula ,但是这本从 pdf 中提取数据的初学者指南也有很多其他的好选择。
安迪·迪金森(Andy Dickinson)查看了今年 2016 年数据新闻奖开放数据类别的入围作品,以了解它们到底有多“开放”。他的中篇文章指出,这些作品中有一些根本没有完全开放。让数据开放不仅意味着让它可用;这也意味着使它容易和简单的访问。
数据集和其他资源
Data.world 刚刚发布了一个名为 Data Projects 的新功能,它允许您为多个数据集和有关数据的见解提供一个中央工作空间。这也是与其他对数据分析感兴趣的人合作的一种非常酷的方式。在这里阅读如何使用它。
这里有两个你可以参与的数据项目的例子:
如果迈克尔·菲尔普斯和鲨鱼赛跑,谁会赢?在今年的鲨鱼周期间,加入 data.world 上的这个数据项目,帮助找到答案。
UFO&大脚怪目击事件之间有关联吗?分析大脚怪目击数据找出答案。
这是 FiveThirtyEight 在剖析特朗普最狂热追随者的文章中使用的数据集。代码和数据显示,你可以通过各种特朗普相关的子主题上留下的评论来开始连接用户角色之间的点。
FiveThirtyEight 还保留了一个 Github repo ,其中包含数据驱动故事背后的所有数据集和代码。这是一座金矿。
这篇来自世界银行的博客文章展示了如何有效地使用健康、营养和人口数据门户来发现新的人口统计数据。如果你使用大量的世界卫生数据,这是一个很好的数据门户。
我发现这个来自我们世界的关于我们认为我们在医疗保健上花了多少钱和我们实际上花了多少钱的数据的可视化很有意思。你可以下载图表底部的数据。
数据可视化
从南极洲脱离的拉森 C 冰架抢尽了上周惊人数据的风头。
这是我最喜欢的一个:一个将拉森 C 号冰山放在地图上任何地方的互动程序。它还可以个性化数据(试着把它拖到你的祖国,你会大吃一惊)。
这里有一个有用的 3d 块,用于在点状图中显示方向。
这个互动可视化深入挖掘了数据 viz 社区:一个网络图 viz 来自播客数据故事的 100 集。数据故事由 Enrico Bertini 和 Moritz Stefaner 主持。你可能已经猜到了,他们经常谈论数据。
我非常喜欢这张关于合作伙伴一起和分开做什么活动的信息图。最高和最低值是可预测的(夫妻经常一起吃饭,但很少一起工作)。但是中间的一些条形显示了更多的洞察力。
你看过 Mona Chalabi 精彩的手绘数据可视化吗?你应该。我爱他们。它们简单、有效且容易记忆,就像所有伟大的数据可视化一样。
说到手绘图表,来自《泰晤士报》的 Peter Yeung 已经开始做他自己的版本了。但是他所有的图表都涉及某种食物,而不是所有的东西都是手绘的。留意#FOOD4THOUGHT 在他的 Twitter/Instagram 上的反馈。
当然,如果没有温布尔登的可视化,这个星期是不完整的。我期待在接下来的一周会出现更多,但现在享受这一点,即展示费德勒和西里奇的统治地位(这是在他赢得比赛之前)。
有人之前看过德佩切剧情吗?这需要一分钟来完全理解,但一旦你学会如何阅读它,我认为它实际上很酷。
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。我也很想看看你最近在忙些什么。
如果你喜欢这个每周综述,在上面拍一张 ❤️️ 或者与你的朋友分享。下周会有更多的数据。
数据好奇 19.06.2017:上周的数据故事、数据集和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 10 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 6 月 12 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
本周的《数据好奇》比之前的版本略短,因为我一直忙于我实际上得到报酬的工作。但仍有一些未加工的钻石有待发现。让我们开始吧。
我非常喜欢石英的数据分析。通过筛选谷歌的大规模快速,抽奖!数据集,他们已经确定了来自世界各地的人们画圆的不同方式,以及这可能会对他们说些什么。有趣和出色的数据使用。
唐纳德·特朗普会让欧洲再次变得自由吗?FiveThirtyEight fame 的 Nate Silver 用投票和选举数据做了一个有说服力的案例。
如果你想展示你的数据肌肉,或者想找到一种实用的方法来应用你的技能,看看 data.world 上的“招聘贡献者”标签。所有带有这种标签的项目都在寻找某种志愿者的投入,由于将数据技能应用到现实生活中的项目总是一件好事,这似乎是一种双赢。
本周,我想起了在进行数据分析时,调查的微妙艺术。Zapier 有一个很好的解释者告诉我们如何最准确地为数据分析写调查问题,以及如何将它可视化。
测谎小组在《大西洋月刊》上发表了他们的另一篇美丽的 scrollytelling 文章。这篇文章对美国来说尤其及时,因为它分析了医疗费用的分布。
NYT 在上周的这篇文章中使用了一些类似的技术:营救移民的努力导致了致命的、意想不到的后果。除了精彩的图片,这个故事擅长以批判和历史的眼光看待我们这个时代的一个定义性故事。
下面推文的标题说明了一切。这项数据分析是高峰-非政治-FiveThirtyEight,并显示了如何使用数据来理解为什么人们喜欢他们所做的事情。
谷歌的慈善部门发布了美国私刑的互动地图。互动网站是一个美丽而令人心痛的方式来讲述一个需要被记住的故事。你也可以在这里阅读它是如何制作的。
保罗·布拉德肖刚刚更新了他的电子书《为记者刮痧》。第二版现在可以在网上获得,涵盖了从使用 API、格式化 JSON 对象到用 Python 抓取网页的所有内容。
这是《印度斯坦时报》数据新闻团队关于为新观众制作互动故事的一个有趣的问题。
我认为这是一个关于在地图上使用注释的非常好的小技巧。传说很乏味,所以尽可能用注解来指出故事。
数据集和其他资源
免费课程提醒!数据记者的 Python:分析政治中的金钱。
上周,英国大选的全部结果开始更新。英国《金融时报》公布了他们 2015 年和 2017 年选举结果的完整数据集。
议会也公布了官方结果和一些总结分析。
上周我发现了 Oyez 数据库,这是一个雷区。Oyez 是一个多媒体档案,记录了自 1955 年以来最高法院的所有音频记录。这也是 WNYC 播客更完美成为可能的原因(如果你对法庭案件很感兴趣,你应该听听:你会喜欢的)。
Vox Media 在 2017 年 3 月 21 日之前发布了一个关于 Vox.com 的所有文章的数据集。
企业主调查每五年进行一次,包括对美国企业和企业主的经济和人口特征的全面考察。点击查看 2012 年的最新数据。
我发现 Resistomap interactive 既迷人又可怕。仪表板风格的互动显示了人类微生物群中哪些药物已经变得越来越耐药。你可以在这里下载数据。
这是洛杉矶所有 191 家公开经营大麻生意的电子表格。
数据可视化
上周令人好奇的数据是大量的政治数据。本周,我想更多地平衡一下,但首先,这里有一些来自英国《金融时报》的非常好看的选举地图。
好了,大选正式结束了。
宗教和政治:感恩节餐桌上臭名昭著的禁飞区。但是这些 NYT 的数据以及对宗教领袖政治倾向的分析将会引发一些有趣的争论。
不过,数据可视化并不总是与政治/宗教的悲观情绪有关。也可以很时髦。比如这个:
特朗普反对鳄鱼是我最喜欢的图表。
我发现这张关于我们一生中与谁共度时光的图表非常有趣,但也有点悲伤。出于某种原因,一旦你成年,和朋友在一起的时间似乎就没有了。
哇,这个来自选民研究小组的报告真的出来了。举个例子,副标题是:关于美国身份的辩论如何影响了选举,以及这对特朗普总统任期意味着什么。结果非常值得一读,并且有一些很好的可视化(尽管更多的是从学术角度)。这是我最喜欢的:成为美国人标准的重要性。呀…看看那些棕褐色的小点落在哪里。
Voter Study Group: Race, Religion and Immigration in 2016
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。我也很想看看你最近在忙些什么。
如果你欣赏这份每周综述,就在上面画一颗心,或者与你的朋友分享。下周会有更多的数据。
数据好奇 2017 年 9 月 20 日:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 20 周(上周的帖子是这里是)。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 9 月 13 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。请在媒体上关注我的最新消息。我也是推特上的。本周有点短暂而甜蜜,但让我们尽情享受吧。
好的阅读、分析和教程
读完这篇关于数据科学的十大谬误的帖子,我笑了。不是因为他们很可笑(他们实际上是正确的),而是因为我遇到了他们。所以。很多。时代周刊。我最喜欢的列表:我将下载的数据将是一致的(lol,耶对)。
偶尔被提醒一下基本知识是有好处的。这里有 7 个你应该永远避免的致命统计错误:
寻找一个使用 Python 和 Selenium 进行 web 抓取的简单入口?看看这篇关于如何抓取谷歌搜索结果的中型文章。
为你的书呆子朋友寻找圣诞礼物的想法?已排序。
这是一篇关于绿色和平组织如何利用 CARTO 通过数据可视化对抗石油巨头的精彩文章。你知道最大的一次泄漏持续了 17 个小时,并向卡拉马祖河倾倒了 100 万加仑原油吗?
Paul Bradshaw 写了一篇的评论来回应 Alberto Cairo 上周有争议的推文,称“讲故事”应该被禁止出现在数据新闻中。虽然 Cairo 的不满主要是针对该术语的语义,但我同意 Bradshaw 的观点:尽管该术语已经变得不完美,但我们需要通过讲故事来洞察数据。仅仅因为这个术语被一些人曲解,并不意味着我们应该完全抛弃它。我们应该做得更好。
本周最令人印象深刻的综合互动故事是弗雷德里卡·弗拉加潘的作品线后的故事。美丽的数据,即惊人的动画和对细节的关注。这里有一个 gif 预览图作为引子:
谷歌新闻实验室刚刚发布了一份关于 2017 年数据新闻状况的新报告。点击阅读博文点击下载 PDF 报告。
这是一篇来自 Storybench 的非常有趣的文章,讲述了新闻图表如何可视化今年的飓风。
数据集和其他资源
阳光基金会分析了美国超过 21,000 个开放数据门户网站,根据数据查看和下载量对最感兴趣的领域进行评分。他们发现,警察和犯罪构成了最受欢迎的开放数据集,其次是交通和紧急电话。点击阅读其余结果。
CAFOs 是坏消息。对动物和人类来说。探索由人道联盟编辑的美国 CAFOs 数据集,发现有助于改善农场动物和农产品生活的见解。
你是 xkcd 漫画的粉丝吗?您知道您可以使用 JSON 接口自动获取它们吗?没错。你可以。
民主基金选民小组发表了一份 2016 年选民选择和态度的报告。您可以在页面查看完整的调查数据。
数据可视化
美国地质勘探局发布了一份惊人的延时数据,即显示飓风“艾尔玛”路径和降雨量的动画。
哦。这张来自 NYT 专栏的图表显示了白人福音派基督徒对川普总统违法行为的宽容程度。
看看这篇匿名的西印度群岛之旅的视觉日志。这是 1815 年的。数据是旧的。真的老了。
很对你是马腾·兰布莱茨,很对。我也喜欢金融时报的这张图表。仅仅因为你有地理数据并不意味着你应该绘制地图。让数据决定你的图表类型。
NYT 绘制了袭击墨西哥城的 7.1 级地震迄今造成的损失。
英国《金融时报》的大卫·布拉德在推特上对德国 AfD 的传播做了一些很好的网络图表。
我认为这是卫报数据团队关于英国债务的一次非常好的互动。输入你的邮政编码可以让你看到你所在地区的人均消费信贷是多少。这可能会让你感觉更好或更差,所以使用时要自担风险。
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。下周回到✌.
如果你欣赏这个每周综述,给它几个👏️️ 或者与你的朋友分享。我也很想看看你最近在做什么,所以 保持联系 。
数据好奇 2017 年回顾:去年我最喜欢的数据故事、数据集和可视化
又见面了。我从漫长的圣诞假期中回来了,并准备好拥抱 2018 年必须提供的最好的数据驱动的故事。
但首先,回顾一下。
八个月前,我开始每周发布我最喜欢的图表、交互式数据可视化、数据新闻、古怪的数据集和数据分析工具。起初,这只是对我而言:我喜欢每周寻找故事(主要通过 Twitter),它是激励我从事工作的一个很好的参考点。
快进到 2018 年,我发现至少有 2000 人和我一样喜欢在网上发现新的数据。所以,对于那些和我一起乘坐 Medium 的人,我想说几件事:真诚的感谢你们,抱歉过了这么久,我没有忘记你们,新年快乐!2018 年将会是美好的一年。
好了,手续结束了。现在说点好的。去年,我(在很大程度上)坚持每周发布我在网上找到的最好的数据。“数据好奇”2018 年的计划仍在进行中:但作为去年的一个很好的结尾,我想拿出一些在过去几期“数据好奇”中展示的最好的作品。2017 年最好的。你知道该怎么做。
最佳读物
让我们直接进入正题。
NYT 通过问“你能在地图上找到朝鲜吗?”向世界展示了美国人在世界地理方面有多糟糕。更有趣的是,他们把这个数据和那些更喜欢外交而不是其他东西的调查数据放在一起。似乎更好的地理技能=更倾向于外交(但我们先不要跳到因果关系上)。
[## 如果美国人能在地图上找到朝鲜,他们更可能倾向于外交手段
朝鲜在哪里?以下是来自 1746 名成年人的猜测: (用韩语阅读。)只有 36%的人答对了。这是…
www.nytimes.com](https://www.nytimes.com/interactive/2017/05/14/upshot/if-americans-can-find-north-korea-on-a-map-theyre-more-likely-to-prefer-diplomacy.html)
Full piece here
你如何画一个圆?仍然是 2017 年我最喜欢的互动故事之一。从好奇心开始的一个很好的例子(画一个圈能说明一个人的文化吗?)然后众包数据去发现。
[## 你如何画一个圆?我们分析了 100,000 幅画来展示文化是如何塑造我们的本能的
让我们做一个快速练习。你准备好了吗?在下面的方框里画一个圆。别想太多!你是从…开始的吗
qz.com](https://qz.com/994486/the-way-you-draw-circles-says-a-lot-about-you/)
FiveThirtyEight 发表了一篇关于美国人死亡 25 年的漂亮分析。病态,但很美。
我们的地图显示了自 1980 年以来美国各县主要死因的估计死亡率。
projects.fivethirtyeight.com](https://projects.fivethirtyeight.com/mortality-rates-united-states/)
NYT 图形团队的一些令人印象深刻的地图。
随着美国在未来几十年面临全球变暖,并不是所有的州都会受到同样的影响。缅因州可能…
www.nytimes.com](https://www.nytimes.com/interactive/2017/06/29/climate/southern-states-worse-climate-effects.html)
增强非现实能否解决移动可视化?多米克似乎是这么认为的。这篇关于 AR 如何取悦更多个性化数据的中型帖子有一些非常令人兴奋的想法。
自从第一代 iPhone 问世以来,移动设备上的数据可视化似乎很有前途:非常强大的便携式…
hackernoon.com](https://hackernoon.com/can-augmented-reality-solve-mobile-visualization-f06c008f8f84)
布丁今年发表了大量惊人的作品。但这一个似乎比其他的更让我着迷:分析电影剧本,寻找电影中的性别刻板印象。
2016 年 4 月,我们按性别分解电影对白。这篇文章提出了一种不平衡的现象,即男性提供了更多的…
布丁,酷](https://pudding.cool/2017/08/screen-direction)
我最喜欢的年度气候变化互动作品是“你解决它:你能保持在世界碳预算之内吗?”在 NYT 旁边。该软件允许用户估计从现在到 2100 年世界主要国家和地区的碳排放量。用户输入、改变滚动可视化和不同颜色的投影线图的组合是一个非常有效的组合。
注:模拟程序显示了 2100 年不同情景下的二氧化碳排放量预测:不变:各国采取…
www.nytimes.com](https://www.nytimes.com/interactive/2017/08/29/opinion/climate-change-carbon-budget.html?mtrref=undefined&login=google)
《线后的故事》在很多方面都是开创性的,但尤其是它通过编织六个不同难民的旅程来讲述故事。
有点奇怪,但我仍然很喜欢这个项目。利用机器学习,他计算了英国议员的平均脸型。
英国议会数字服务最近发布了一份由摄影师拍摄的议员官方肖像档案…
medium.com](https://medium.com/@puntofisso/i-calculated-the-average-face-of-a-uk-member-of-parliament-and-heres-what-i-found-37f31b72b5d9)
2017 年将永远被人们记住,因为在 2016 年大选后,每个出版商都轮流发表“媒体搞错了”的专栏文章。FiveThirtyEight 的内特·西尔弗(Nate Silver)的这段话让我觉得是从统计学角度来看最合理的分析。
这是一系列评论 2016 年大选新闻报道的第 11 篇也是最后一篇文章,探索如何…
fivethirtyeight.com](https://fivethirtyeight.com/features/the-media-has-a-probability-problem/)
韦斯·安德森的对话+电影摄影+机器学习=这是一个不可思议的滚动故事,涵盖了安德森四部顶级电影的视觉主题。一些我最喜欢的东西的组合。
[## 机器视觉
说真的,看看这个故事。clome.info](http://clome.info/work/machine-visions/)
最好的数据集/工具
这是新的一年,但这并不意味着你不能找到一些 2017 年的伟大数据集来玩。以下是一些最好的开始:
布丁的故事电子表格(大部分时间包含每个故事的数据集)。
Tableau 的人用他们的数据集做了类似的事情,这些数据集来自#改头换面星期一挑战:
[## 数据集|改造星期一
3 1 月 16 日唐纳德·特朗普在选举期间转发的 294 个账户数据来源:特朗普推特档案注:请…
www.makeovermonday.co.uk](http://www.makeovermonday.co.uk/data/)
Instacart 发布了一个数据集,其中包含来自 20 万匿名用户的 300 万个在线订单。
[## Instacart
Instacart 一小时杂货配送
www.instacart.com](https://www.instacart.com/datasets/grocery-shopping-2017)
这是联合国世界粮食计划署的全球粮食价格数据集。
全球食品价格数据库拥有 76 个国家和一些地区的食品价格数据(如豆类、大米、鱼和糖)
data.humdata.org](https://data.humdata.org/dataset/wfp-food-prices)
每个季度,国会都被要求披露所有发生的游说活动,包括游说了哪些机构,涵盖了哪些主题,以及游说者获得了多少收入。你可以在这里下载众议院和参议院的数据集。
[## 大厅公开搜索
默认情况下,搜索结果显示在搜索按钮下方的网格中,并按房屋 id 以升序排序…
disclosures.house.gov](http://disclosures.house.gov/ld/ldsearch.aspx)
未来你的工作自动化的可能性有多大?702 个 SOC(标准职业分类)工作的数据集,它们自动化的可能性,以及每个州的工作数量可以提供一些线索。
像我之前的数据集一样,这个数据集列出了 702 个 SOC 工作,它们自动化的可能性,以及每个工作的数量…
数据世界](https://data.world/wnedds/occupations-by-state-and-likelihood-of-automation)
佛罗里达监狱犯人纹身的公共数据库。
回顾关于累犯率、佛罗里达监狱服刑时间、暴力职业罪犯、死囚区的最新统计数据…
www.dc.state.fl.us](http://www.dc.state.fl.us/pub/obis_request.html)
宣言项目已经为来自世界各地的数千份政治宣言的中央数据库编码。数据跨度从 1945 年到 2015 年,包括 1000 多个政党,覆盖 50 多个国家。
编辑描述
宣言-项目. wzb.eu](https://manifesto-project.wzb.eu/)
大脚怪目击数据集。不,不是玩笑。
[## 大脚怪目击-由 timothyrenner 提供的数据集
来自大脚怪野外研究者组织(BFRO)的全文和地理编码目击报告。
数据世界](https://data.world/timothyrenner/bfro-sightings-data)
在美国,超过 19,000 家餐馆和企业提供包含“taco”或“burrito”的菜单项
[## 美国出售墨西哥卷饼和墨西哥玉米卷的餐馆-由 datafiniti 提供的数据集
在美国,超过 19,000 家餐馆和企业提供包含“taco”或“burrito”的菜单项
数据世界](https://data.world/datafiniti/restaurants-burritos-and-tacos)
自 2005 年以来西雅图公共图书馆借出的所有实物记录。
编辑描述
data.seattle.gov](https://data.seattle.gov/dataset/Checkouts-by-Title-Physical-Items-/3h5r-qv5w)
一个致力于围绕 Airbnb 可能对住房市场造成的潜在危害“为辩论添加数据”的网站。
Airbnb 内部是一套独立的工具和开放的数据,允许你探索 Airbnb 在城市中是如何使用的…
insideairbnb.com](http://insideairbnb.com/)
Face-O-Matic 是一款通过电视新闻片段抓取的软件,用于分析特朗普和美国参众两院各领导人的屏幕时间(所有数据均可下载)。
[## Face-o-Matic 数据显示特朗普占据主导地位-福克斯关注佩洛西;MSNBC 以麦康奈尔为特色
去年夏天,电视有线新闻节目每十分钟就会在屏幕上出现唐纳德·特朗普总统的脸…
blog.archive.org](https://blog.archive.org/2017/09/06/face-o-matic-data-show-trump-dominates/)
媒体云是麻省理工和哈佛的一个非常酷的项目。它在数以千计的新闻来源中爬行,以在故事和句子层面找到关键词和主题。
[## 欢迎来到媒体云
一个研究媒体生态系统的开源平台。
mediacloud.org](https://mediacloud.org/)
最好的数据可视化
图表、图形、地图、网络:2017 年我最喜欢的数据图形。
这个来自 NPR,因为它马上引出了一个问题:美国在 T2 那边做什么?
英国《金融时报》一张精彩的 gif 图,讲述了土耳其政变的故事。
世界贫困时钟无疑是 2017 年我最喜欢的实时数据工具之一。
使用数据探索情绪。
Explore full interactive from Ekmans
我喜欢布丁上的这个滚动步骤图婴儿出生时间(故事数据可在此下载)。
另一个伟大的 gif 图表:一个完整的故事,在一个图表中。
2017 教会了我们很多东西,但重要的一条是这个:我们。需要。敬。正常化。Choropleth。地图。
来自英国《金融时报》的旋转 D3 球。
这是一个非常棒的互动:用户可以将拉森 C 号冰山放在地图上的任何地方,以透视它的大小。
组合图!必须爱他们!地图+坡度图(第 1 页,共 3 页)。
垂直折线图+报价(第 2 页,共 3 页)。
条形图+气泡图(第 3 页,共 3 页)。
本年度最具影响力的气候变化图表之一:
布丁在他们关于美国微型啤酒厂的文章中使用了旋转散点图后,卫报做了他们自己的拍摄,我很喜欢。
你还记得 2017 年的日食吗?你还记得 Twitter 上弹出的所有关于日食路径的精彩恶搞地图吗?
你还记得特朗普和 NFL 之间的那件疯狂的事吗?没错。那真的发生了。
我认为我选择的最美的图表设计是这篇关于巴西政府在联邦烧烤上花费多少的调查文章。在条形图中结合火热的视觉效果和火焰是天才之举。
就是这样!但实际上,我只触及了表面。如果你还在寻找更多的灵感,可以点击一下我以前出版的《数据好奇》。2017 年是有趣的一年(有时)。为 2018 年更多的数据故事、数据集和数据可视化干杯。
如果你欣赏这个综述,给它几个👏️️ 或者与你的朋友分享。我也很想知道你最近在忙些什么,所以请联系我。
数据好奇 21.08.2017:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 18 周(上周的帖子是这里是)。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 8 月 14 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。让我们开始吧。
好的阅读、分析和教程
这份数据分析报告对纽约市的所有树木进行了非常智能的绘制。作者将数据标准化,以调整每个人口普查区域的大小,从而解释人口密度。你可以在纽约树木网站下载自己的数据。
Josh Devlin 写了一篇关于如何使用 pandas 分析和清理大型数据集的教程。这是他的博客文章,讲述了如何做到这一点,并将数据帧的占用空间减少 90%。
这是一篇非常酷的关于如何像 NYT 互动新闻开发者一样设置你的电脑的文章。莎拉·西蒙。
Quartz 创建了一个及时的新闻互动,允许用户输入邮政编码来找到附近所有的邦联纪念碑。
这张来自 NPR 的图表显示了对歧视的看法如何与反对川普的投票密切相关,这很有意思。这些数字来自公共宗教研究所的研究。我的意思是,尽管这并不意味着任何因果关系,但这条趋势线非常有趣。
作为我最终论文研究的一部分,我已经阅读了不少关于数据在新闻业中的作用的学术文章。这篇名为“新闻和新闻教育中的数据和统计状况:问题和争论”的论文现在塞满了我黄色的亮点和笔记。对于任何对算术教育在成为基于数据的索赔的聪明/计算消费者中的作用感兴趣的人来说,这是一本必读的书。
本教程是一个很好的关于使用 SQL 命令的介绍,特别是对于那些经常使用 Google Sheets 的人。
如果您没有将以下页面加入书签,您应该。这是用于数据分析和可视化的最有用的#ddj 工具的中心资源。
CARTO 写了一篇有趣的博文,概述了他们在联合国与 200 名地理空间专家就实现可持续发展目标举行的会议。他们的建议包括使用新数据,进行新的数据分析和接触新的受众(很多“新”东西)。
如上所示,数据可以成为造福世界的强大工具。但上周表明,不幸的是,它也可以用来针对弱势群体。《卫报》的报道最近披露,英国内政部获得了一份由大伦敦当局根据无家可归者的国籍绘制的地图。内政部随后利用这些信息将欧盟公民驱逐出境。撇开政治不谈,这种由社会工作者收集的敏感信息是为了获得支持,而不是政府的大规模驱逐。
Mapbox 的团队发布了一篇有用的文章,介绍了如何为您的数据选择正确的地图可视化以及原因。作者涵盖了四种主要的地图类型(点密度,choropleth,hexbin 和 heatmap),包括一些使用每种地图的好情况。
增强现实能否解决移动可视化? 多米尼库斯·鲍尔似乎也这么认为。他关于 AR 如何产生更多个性化数据的中型帖子有一些非常令人兴奋的想法。任何数据可视化设计师都会体会到手机屏幕空间不足的痛苦。但请将这段引文视为整篇文章的引子:
“AR 基于摄像头的物体识别的美妙之处在于,整个世界都成为了这些数据的接口:只需看一眼就能获得更多信息。”
有没有想过用神经网络做实验?现在你可以了,只需要 30 个喜欢的代码。这篇中篇文章将带你了解制作自己的简单神经网络的步骤。
我喜欢读这篇关于一位天体物理学家如何利用美国国家航空航天局的数据绘制了一张美国种族多样性的极其详细的地图的文章。你可以亲自查看完整的互动地图这里。
这里有一个超级简单的教程,教你如何用两个 SVG 三角形和 react.js 的几行代码制作一个进度条
数据集和其他资源
上周发表的许多关于美国现存邦联纪念碑的新闻都引用了南方贫困法律中心编制的数据库。这个组织最初创建了一个研究邦联纪念碑的互动地图显示他们的立场。你可以在他们的 CARTO 个人资料页面下载这些地理数据。
记录美国是一个致力于存储超过 150,000 份报纸的信息和数字副本的网站。它是由国会图书馆经营的。你可以使用他们的 API 搜索旧报纸,或者直接进入批量数据集。
上周,我在 Airbnb 上发现了,这是一个致力于围绕该公司可能对房地产市场造成的潜在危害“为辩论添加数据”的网站。该网站托管了多份通过分析数据生成的报告,你也可以自己获取数据查看 Airbnb 公寓的房源、评论、日历和邻居。
1880.出于某种原因,今年标志着我们所有现有气候数据的开始。但是为什么呢?原因如下:
拦截组织上周发布了他们正在进行的审判和恐怖数据库的更新。他们的互动数据展示了美国因可能的恐怖行为起诉了谁以及为什么起诉。您可以在他们的 Github 页面上以 CSV 格式下载人口统计案例详情数据。
这里有一个页面,包含美国原油供应和出口的每月更新(及其去向)。
上周,当我偶然发现 Open Data Soft 的全球 2600 多个开放数据门户网站的综合列表时,我开始了对开放数据的研究。这个网站和你想象的差不多,但是更好。页面顶部有一个交互式地图,让您可以找到每个国家的数据门户和找到它的链接。#已加入书签。
如果你想参加“太阳奇观”地图挑战,现在是你最后的机会。Data.world 创建了一个完整的项目页面专门用来突出显示最好的日食地图。
对于更严重的日食相关数据集,请查看美国宇航局的全日食形状文件。
为了获得更多与空间/天气相关的数据,有人汇编了一个数据集,包括所有已知的未来可能会经过地球附近的小行星。
英国国家统计局发布了一份关于英国人度假习惯的报告,将 20 世纪 90 年代与现在进行了比较。你可以在这个页面下载他们各种图表的数据。
显然,15.4%的美国人没有在 2016 年的选举中投票,因为他们“不感兴趣”…叹息。这个来自溢出数据的可视化还有其他原因。您可以通过单击 Tableau 仪表板右下角的下载按钮来下载数据集。
数据可视化
几个 Tableau 向导上周正在完成他们的#IronViz 条目。Lorna Eden 为《老友记》的每一季制作了一个交互式 Tableau 练习册。
不过,我个人更喜欢《星球大战》中的这部。
和另一个 Tableau 仪表盘,但这个不是为#IronViz 准备的。我真的很喜欢它。我对径向可视化很着迷。
AJ 实验室发布了一个很好的数据引导的解说视频,展示了英属印度是如何分裂的。
我在上周的新闻中注意到另一个创新的地图选择,这次是来自《金融时报》,而不是 NYT。地图很棒,但也许它们应该只用于更大的屏幕?
这是英国《金融时报》提供的日食地图,包含了大量的财务信息。
这张地图不太关于数据可视化,更多的是关于简单奇异。这是一个从 1920 年开始创建一个和平的欧盟的合理提议。
这张有趣的猫王脸部热图显示了 Youtube 上他最热门歌曲播放列表中每首主要歌曲的大致节奏。点击一个格子会打开这首歌的 Youtube 视频。
为@sarahslo 大声喊出来,因为它在 DataViz 中创建了这个女性 Twitter 列表。截至上周已有 181 名会员!
[## @ Sarah SLO/Twitter 上 DataViz 的妇女
从突发新闻和娱乐到体育和政治,通过所有的现场评论了解完整的故事。
twitter.com](https://twitter.com/sarahslo/lists/women-in-dataviz)
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发推特或者在下面留言。
如果你欣赏这个每周综述,给它几个👏️️ 或者与你的朋友分享。我也很想看看你最近在做什么,所以 保持联系 。下周会有更多的数据。
数据好奇 22.05.2017:上周的数据故事、数据集和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 6 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 5 月 8 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
上周,我在《每日文摘》中发现了这篇名为“设计更好的数据表”的精彩文章。如果公司(尤其是政府)遵循其中的一些准则,数据记者和/或科学家的工作将会容易得多。正如作者所写的:“如果没有可视化和对数据采取行动的能力,数据是没有意义的。”本周必读。
在英国的数据新闻中,在全球开放数据排名中,英国将跌至第三位,落后于澳大利亚和台湾。全国房地产经纪人协会最近表示,英国空气质量数据可能很快成为房地产广告的强制性部分。最后,Buzzfeed 的数据分析显示了为什么大多数英国人不愿意进入房地产市场。图表本身就说明了一切,但我也认为,与一系列一遍又一遍的相同条形图相比,在可视化这些数据方面可以投入更多的创造力。
这是一个真正有趣的辩论开始。彭博的数据分析让我想起了来自一个假设的许多问题:“亚马逊不考虑顾客的种族。应该吗?”。但是我认为一个好的数据分析有时会带来更多的问题而不是答案。该作品中的地图是交互式的,允许用户通过亚马逊一日送达功能在主要城市的比赛之间进行筛选。剧透:一日送达的地区几乎全是白人。但是回到附加问题:亚马逊的目标是财富还是种族?还是两者都有?这篇文章有很多很好的出发点,但是做更多的分析会很有趣。
From Bloomberg analysis piece.
这里有一个来自 pomplamouse 乐队的有趣的帖子,描述了他们在 28 天的巡演中赚了多少钱(也赔了多少钱)。这是对作为独立乐队巡回演出背后的数据的一个很好的窥视,也可能是对作为巡回音乐家背后的经济学的一些见解的开始。
我发现这个关于数据科学家最佳资源的 Quora 帖子很有趣。这是工具和建议的混合,但大多数答案都包含了一些实际项目的建议,而不是理论练习。
Mike Bostock 刚刚发布了 d3.express,他称之为“集成发现环境”。我还没有能够深入到所有的文档中,但是因为它来自于数据可视化的教父之一,我确信它不会让人失望!
这是一份来自 fivethirtyeeight 的关于美国各县预期寿命的伟大数据分析。自 1980 年以来,美国大多数州都提高了整体预期寿命水平。但在县一级,很明显某些地区正在逆这一趋势而行。我也非常喜欢美国地图形状的折线图作为一种数据 vis 展示风格。
开放数据研究所利兹发表了一篇博客文章,提倡使用基于六边形的地图来可视化选举数据。这是对该工具的一个很好的介绍,也非常及时(距离英国大选还有 16 天!).
很多人都在谈论这篇 NYT 的文章,这篇文章显示了有多少人在地图上找不到朝鲜。但更重要的是,调查发现在地理上能找到和找不到这个国家的人之间有一个关键的区别:36%能成功找到朝鲜的美国人“更有可能不同意美国不应对朝鲜采取任何行动的主张”。地理很重要(尽管,可以说,伴随普通地理知识而来的其他东西也很重要,所以我们现在不要讨论相关性/因果关系)。
今天的人们有多幸福?这份最近来自《我们的世界》的幸福和生活满意度报告试图找到答案。完整的报告包括许多快速图表和地图,另外,如果你愿意,你可以自己下载所有的原始数据。
你知道有一本专门研究数据可视化的新杂志吗?相当酷。
[## market Cafe Mag(@ market Cafe Mag)| Twitter
来自 Market Cafe Mag (@marketcafemag)的最新推文。关于数据可视化的杂志。讲述…的故事
twitter.com](https://twitter.com/marketcafemag)
数据集和其他资源
上周出现了一些非常有趣的数据来源。让我们按照出现的时间顺序开始。
与去年同期相比,欧盟对世界其他地区的出口增长了 13%,达到 2023 亿欧元。这意味着€在贸易商品方面有 309 亿英镑的顺差。欧盟统计局的新闻稿包含了更多 PDF 格式的国际贸易历史数据。
你读过关于勒索软件的文章吗?起初,这似乎不是一个数据集,但有一个 Twitter 机器人正在监视与#WannaCry 勒索软件攻击相关的比特币钱包,并在 Twitter 上发布交易。真的,它很难被挖掘和分析。一个好的开始可能是使用 Python 抓取帐户,或者尝试一个快速的 Google Sheets 附加工具,如 TAGS 或 Twitter Archiver。
Data.world 上有一个联合国教科文组织语言的数据集,按照濒危程度(或者仅仅是灭绝程度)排序。你知道在英国和前英国殖民地,有 906 种濒危语言在使用吗?
观鸟者会对这个自 1970 年以来英国鸟类物种的数据集感兴趣。
谷歌托管了一个来自 QuickDraw 的涂鸦数据集,可以从下面下载。
从另一个不那么轻松的角度来看,这个来自朝鲜的导弹测试数据库将有助于绘制一些有趣的地图。数据包括导弹发射地点、最高高度、行进距离、着陆地点、发射成功/失败等。
这是来自联合国世界粮食计划署的全球粮食价格的数据集。它包含来自 70 个不同国家的 1000 个城镇的食品价格数据,并且每月更新一次。
气候鹰派,这是一个数据集,报告了全球海平面的历史数据。您可以在本页下载数据,或者在地图上预览数据这里。
如果你对分析枪支暴力感兴趣,由《芝加哥太阳时报》披露的数据库中的这个重磅炸弹显示,近 40 万人对他们卷入枪支暴力的可能性(或可能性)进行了评分,分值从 10 分到 500 分不等。
还有其他人知道维基百科语料库数据库吗?它用一句话总结了超过 120,000 个副标题中包含“情节”的维基百科条目。这意味着电影、书籍、戏剧、电视节目——凡是你能想到的。该数据集需要一些语言处理和分析,但这里有一篇来自大卫·罗宾逊的很好的博客文章展示了如何探索它。
今年我没能参加#EIJC2017(欧洲调查性新闻会议和 Dataharvest),但我设法从一周的会谈中在 Twitter 上积累了一些资源。这里有两个数据工具亮点:一个是来自 Maarten Lambrechts 的“日常新闻数据工具”演示,另一个是名为 Map Stack 的工具,用于设计更好看的地图。
你知道有一个工具可以搜索和下载维基百科的浏览量吗?在 Motherboard 的一名编辑发布了一张最近弹劾相关维基百科页面搜索量增加的截图后,我偶然发现了这个便利的工具。
数据可视化
没有上周那么多数据值得一提。显然,我把头埋在了数据的后端,但我想这并不是一件坏事。这里有几件事引起了我的注意。
我喜欢这张来自《华盛顿邮报》的图片,它展示了美国将如何退出巴黎气候协定。作为第二大二氧化碳排放国,美国将加入叙利亚和尼加拉瓜的行列,成为欧盟以外不遵守气候协议规定的国家。
在 Twitter 上向 Elijah Meeks 喊出这个灯泡数据 vis moment:
这里有一个动画饼图 FTW。上周我写了一点关于饼状图如何得到一个坏的说唱,但我认为用一个动画饼状图显示随着时间的变化是一个非常聪明的选择。
我喜欢这个欧洲啤酒仪表盘的画面。在列的顶部使用一个抽头是一个聪明的设计选择,过滤功能让您可以轻松地浏览数据(您也可以通过单击底部的“下载”按钮下载原始数据!).
太阳能工作正在击败煤,伊西米。
好吧,这个 vis 数据一点也不令人印象深刻,但我还是从这个消息中得到了乐趣:
这是经典贫困泡沫图的一个很好的互动画面,但有一个转折:它不是用国家 GDP 来衡量全球贫困,而是比较美国县级互联网接入水平。
上周就这样了。你看到我错过的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。下周会有更多的数据。
数据好奇 2017 年 7 月 24 日:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 15 周(上周的帖子是这里是)。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 6 月 19 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
上周充满了有趣的学术和实践帖子,涵盖了数据科学、可视化和认知回忆。这是一个密集的综述:希望你能找到有用的东西!
华盛顿大学的研究人员总结了他们最近关于预测可视化如何提高读者的信息回忆和理解的研究。
被提示预测和/或解释数据的参与者比只检查数据但没有明确预测或解释的参与者更准确地回忆起单个数据点 24%。
这种允许用户猜测数据,然后从他们的结果中学习的想法已经在媒体格式中使用,以理解复杂的问题。好的例子包括你画出来:在奥巴马总统任期内什么变得更好或更坏 (NYT)和你如何画一个圆?(石英)。我喜欢这种讲故事的方式,因为它让用户感觉他们在自己学习一些东西。现在, UW 互动数据实验室已经表明,它实际上对回忆也更有效。
Deborah Mesquita 使用自然语言处理对一所巴西和美国大学的学位论文进行了全面的数据分析。她发现,排名靠前的大学的论文比排名靠后的大学更容易被其他人考虑。在媒体上阅读她对的完整报道。
Carto 发表了一篇关于在网络上制作地图的 6 个设计原则的博文。这篇文章提供了一些创建清晰锐利的在线地图的好技巧。一些建议的例子:颜色应该与预期一致,标签应该有层次,位置应该符合地图的意图。
Pudding.cool 发表了一项数据分析,研究了近 35000 个漫画人物的性别表现。Amanda Shendruk 的这个庞大的项目在进行过程中有一些惊人的可视化。我也喜欢使用 8 位神奇女侠在悬停时显示工具提示信息。
公共诚信中心透露,联邦能源监管委员会一直在随意发放天然气管道许可证,丝毫不考虑科学家就环境影响发出的警告。他们的数据分析包括一些非常清晰的地图,显示了管道在阿巴拉契亚地区的分布。
虽然我自己还没有开始使用 R,但上周我偶然看到了这篇关于如何用 tidytext 描述 Twitter 追随者的有用教程,并决定把它收藏起来。你知道,为了将来的某一天,当我有一堆自我完善的空闲时间的时候。本教程一步一步地向您介绍如何在 R 中使用 tidytext 和 ggplot 来分析您的关注者的 Twitter 描述文本。
哇,对于这个来自 ProPublica 的名为移民效应的互动项目,我有太多的好话要说。我认为我最喜欢的部分是副标题讲述故事的方式:
Screenshot of ProPublica analysis.
这是一个将新闻、数据分析和互动故事结合起来的绝佳例子。三赢。我强烈建议点击“驱逐所有非法移民”按钮,看看 GDP 图表会发生什么。
BBC 学院与 BBC 数据新闻编辑约翰·沃顿、卫报数据项目团队编辑海伦娜·本特森 以及伯明翰城市大学讲师兼记者保罗·布拉德肖在新闻编辑室共同主持了一场关于数据新闻重要性的播客。这一集最喜欢的一句话:
没有数据故事。只有故事,使用数据。
这篇名为你说数据,我说系统的中型文章以 Jer Thorp 如何创建连接 9/11 纪念墙上名字的算法为例,就如何整体处理数据项目提出了一些非常有见地的观点。
Quartz 发表了一篇关于制造业和繁荣之间关系的美丽的滚动特写。剧透:数据揭穿了唐纳德·特朗普关于健康制造业=健康经济的几乎所有主张。
有一个新的免费在线教材用于学习数据可视化。你可以以 PDF 格式阅读,但在线版本有使用谷歌工作表、Tableau Public、Carto、Highcharts 等工具的教程视频和演练。
Paul Bradshaw 写了一篇关于如何在 Tableau 中制作树状图的简明教程。他还解释了为什么树形图对于某些类型的数据来说是一个好的选择,以及为什么它是简易饼图的一个好的替代品。
上周,在我的媒体推荐阅读部分,我偶然看到了这篇名为的文章,将我所知道的一切可视化。这篇文章描述了 Tim Stock 和他的团队如何分析和可视化来自设计师和人文主义者 Buckminster Fuller 的 42 小时讲座。由此产生的交互式可视化是为大量内容带来背景和意义的一个极好的例子。通过使用自然语言处理,研究人员能够识别与富勒作品相关的四个主要原型,以及每个能指如何与原型相关联。
Screenshot of Buckminster Fuller interactive
如果你想开始用 Python 编程,维哈尔·鞍马在《走向数据科学》杂志上发表了一篇名为15 分钟 Python 编程的系列文章。他刚刚发布了第 2 部分,第 3 部分也即将发布,所以请密切关注这款强大的数据处理语言的简单介绍。
康纳·杜威发布了一份推特数据分析关于《权力的游戏》新一季发布前一周#GoT 标签的活动。他的代码和数据在 Github 上开源。
最后,如果你正在寻找一篇关于可视化科学方面的长篇学术文章,我强烈推荐这篇关于叙事可视化中的时间摘要图像和注释放置的文章。
数据集和其他资源
本周最喜欢的数据集:美国 19,000 家提供包含“taco”或“burrito”菜单项的餐馆和企业恨不得找个借口把这个作为映射的练习数据集。
《福布斯》上有一篇很棒的文章,列出了如何找到超过 85 个美国城市提供的开放数据门户。
最近发表在《新英格兰医学杂志》上的一项研究显示,全球有 22 亿人肥胖或超重。目前,这大约是世界人口的三分之一。数据和结果可视化可以在 Axios 上的处找到。
据《滚石》杂志报道,金属音乐爱好者应该看看 T2 有史以来最伟大的 100 张金属专辑的数据集。
该数据集包含对全美无家可归者的估计基于各州和历史上的国家时间点测量。
每年 9 月,联合国召集会员国进行一般性辩论,200 个不同的会员国发表演讲,概述政策偏好。一组研究人员创建了一个包含 1970 年至 2016 年 7701 次演讲的转录数据集。你可以在这里下载它或者在这里使用他们的分析和可视化工具。
国际货币基金组织发布了许多不同的报告,但是世界经济展望数据库是最有趣的一个。该数据库包含对一系列指标的预测,包括通货膨胀、失业率、国家间贸易等。你可以从这份报告中找到 1980 年以来的数据。
国家公园服务和间歇泉观察和研究协会合作创建了“互联网上最全面的间歇泉喷发和观察数据数据库”间歇泉时代数据库将喷发数据与历史日志和间歇泉喷发的目击者描述结合起来,构建这种炸药(😉)数据库。
还记得华盛顿邮报前几周推出的超级酷的日食地球仪吗?如果没有,请点击查看。可视化很大程度上基于这个数据库,它可以让你生成地图和 KMZ 文件,显示从公元前 2000 年以来的近 12000 次日食。警告:这些文档非常专业。
数据可视化
英国《金融时报》将坡度图和越南地图结合在一起,我想知道为什么我以前从未见过这种情况。将 viz 类型与一些有品味的注释结合起来,给出随时间变化的上下文,这是一个很好的用法。
我很高兴试用这个 SVG 生成器工具,这是我上周在 Twitter feed 中偶然发现的。
从各方面来看,BBC 上周公布了一份显示人才薪酬的令人畏缩的条形图。Twitter 上了解更多的数据人员很快指出了这个误导性的错误:条形图从零开始。句号。以下是 BBC 版本的图表:
然后它看起来像是修正过的,所以 y 轴从零开始。差距不是很大,是吧?
John Burn-Murdoch 展示了 Mike Bostock 的命令行制图结合开放街道地图的强大功能。
这是一个很好的例子,展示了自 19 世纪以来全球月平均温度分布。
Peter Yeung 在 BBC 薪酬报告的后面制作了一些很好的数据分析和可视化。
这是一个很好的例子,它利用图表的页边空白来进行有帮助的注释,推动故事向前发展。
我喜欢这种在肯·弗勒拉格的神圣文本中使用词语的形象化。Tableau viz 使用起来很直观,并且真正鼓励了对数据的探索。寻找不同宗教文献之间的联系和相似之处的概念是可视化的一个伟大的非传统用途。
来自气候中心的互动令人印象深刻。搜索和过滤功能非常流畅,允许用户通过输入他们的家乡城市来个性化气候变化的影响。
我非常喜欢 Ken Flerlage 的《神圣文本》中单词用法的可视化。Tableau 可视化使用直观,并鼓励用户以清晰和引人入胜的方式探索数据。寻找不同宗教文献之间的联系和相似之处的概念是数据挖掘和分析的一个伟大的非传统用途。
Click image for interactive version on Tableau Public (by Ken Flerlage)
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。
如果你喜欢这个每周综述,拍上一张 ❤️️ 或者与你的朋友分享。我也很想知道你最近在做什么,所以 联系 。下周会有更多的数据。
数据好奇 2017 年 9 月 25 日:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 21 周(上周的帖子是这里是)。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 9 月 13 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。请在媒体上关注我的最新消息。我也是推特上的。本周有点短暂而甜蜜,但让我们尽情享受吧。
好的阅读、分析和教程
虽然他之前已经说过很多次了,内特·西尔弗上周写了为什么媒体有一个概率问题。我认为最好的解释是在他的书信号和噪音中,这本书分解了大多数人,包括媒体,在解释统计数据时遇到的更广泛的问题。
缺失数据是出了名的烦人。以下是处理来自 SocialCops 的缺失数据的 4 种有用方法。
自从开始数据好奇,我发现了很多很多不同的图表库。创建您自己的“我应该使用哪个图表?”系统最近似乎很流行。Fast Co Design 最近将其中一个系统描述为“数据可视化的维基百科”。诚然,数据 Viz 项目令人印象深刻,但这是一个相当大的索赔。我认为安迪·基尔克的图表制作者目录本身就非常好。
你以前用过 Tabula 吗?如果你需要从 PDF 文件中提取数据,你应该这样做。查看本教程视频,开始学习。
Giuseppe Sollazzo 创建了一个混搭图,上面有每个英国国会议员的脸,用来计算当选议员的平均脸型。用他自己的话来说(根据他的优秀时事通讯)“我认为完全是小众的黑客行为,结果却被浏览了数千次。”大量使用数据来创造一个没有人想到的故事。
Data Face 和 matthew_daniels 联手为《布丁制作了这篇关于说唱音乐中最多(和最少)‘嘻哈’词汇的有趣文章。
Shirley Wu 做了一个非常元的东西:过去几个月在网上流传的数据 viz 调查的数据 viz。在介质上阅读以查看可视化效果。
嗯…我还是不确定我对这个新的 AtF Spark 字体的感觉。它被描述为“一种在文本中创造火花的字体”,看起来有点像小线条或条形图。我的主要问题是:图表是用来描绘数值或分类值的,所以如果图表只是为了一点趣味,看起来你好像没有抓住要点。那是我太挑剔了。如果你感兴趣的话,这篇博文很好地介绍了如何使用 AtF Spark。
缺失数据是出了名的烦人。这里有 4 种处理 SocialCops 中缺失数据的有用方法。
斯蒂芬·特雷西在媒体上分析了《T2》40 年来的票房成功。这是一个很好的分析,看看票房销售和科幻系列的未来可能会是什么样子。
数据集和其他资源
上周没有多少新的数据集吸引了我,但这里有一些。
上周,data.world 展示了一些关于食品和营养数据的数据集。查看超过 10,000 种不同食品及其成分的数据集。
Alasdair Rae 发布了一个开放的 shapefile 数据集,包含英国的所有建筑。
上周,我想起了一个很酷的票房销售资源(上面提到的斯蒂芬·特雷西的数据分析):票房魔咒是一个很好的地方,可以找到一部电影在首映周末表现如何的数据。
数据可视化
上周,我在脸书的博客上看到了这张来自《我们的世界》的图表,我觉得这个视觉效果太惊人了。这是一个非常聪明的方法来显示相对于其他价格的变化——从 0%开始,然后显示它们如何随着时间的推移而变化。还有,能不能谈谈大学学费和教育是涨价前两位,电视更便宜,这看起来有多倒退??
下面的 gif 告诉我一件事:沃尔玛正在接管这个国家,并像黑死病一样蔓延。
《华盛顿邮报》报道了一项研究,显示自水危机以来,密歇根州弗林特市的生育率急剧下降。这张图表显示了明显的下降。
以典型的经济学家风格,一张图表显示了缅甸难民外流的情况有多糟糕。我喜欢这个图形中使用的组合:气泡、条形、线条和颜色来对国家进行分组。
信息是美丽奖的参赛作品已经提交。这里是一些正在进行的项目的预览。
自 2007 年以来,NYT 记录了每一个北极海冰最小值。剧透警告:他们正在下降。
英国《金融时报》以非常有趣的方式展示了德国的政党归属。不知道该叫它什么…翻转面积图?填充竖线图?不管是什么,都很酷,我喜欢。
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。下周回到✌.
如果你欣赏这个每周综述,给它几个👏️️ 或者与你的朋友分享。我也很想知道你最近在忙些什么,所以请联系我。
数据好奇 26.06.2017:上周的数据故事、数据集和可视化综述
欢迎回到我上周在网上注意到的数据驱动事物的每周综述。这是第 11 周(上周的帖子是这里,特别感谢走向数据科学发布帖子!).
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 6 月 19 日那一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也是推特上的。
好的阅读、分析和教程
关于本周数据的几点说明令人好奇。首先,我想感谢到目前为止一直关注此事的所有人。我非常感谢你的支持。本周你会注意到数据可视化部分可能比平时短,但不用担心:恰好这一部分(好的读物)包括了上周我最喜欢的一些 viz。所以一定要打开文章给他们看看。相比之下,数据集部分特别大,所以找到你最喜欢的数据集,然后开始吧!
这个互动来自于美国死亡 35 周年的 5 月 38 日,有一些很棒的地图。我喜欢它们让你看到随时间变化的方式,尽管看到有多少人实际使用这个功能的统计数据会很有趣。
全球调查新闻网络发布了一份关于 FOIA 状况的报告,并在世界范围内征求意见。该报告还涵盖了开放数据集的可用性。完整的报告和概述可以在这里下载,但是对于一个 TL;博士版,这个节选总结了一下:
只有 7 个国家的政府在其现行政策中默认包含了公开数据的声明。此外,我们发现只有 7%的数据是完全开放的,每两个数据集中只有一个是机器可读的,每四个数据集中只有一个拥有开放许可。尽管自 Barometer 第一版以来,越来越多的数据以机器可读格式和开放许可的形式提供,但全球真正开放的数据集数量仍处于停滞状态。
来自 NYT 的这篇精彩的能源分析文章展示了没有川普绿色能源革命将如何发生。这里有很多很棒的数据,从带注释的地图到小型多线图表。最喜欢的外卖统计数据:2004 年至 2015 年间,内布拉斯加州和阿拉斯加州是仅有的两个增加煤炭净发电量的州。
为什么这么多婴儿出生在早上 8 点左右?好问题。Nadieh Bremer 和 Zan Armstrong 合作筛选数据并找出答案。他们还用《科学美国人》中的一些漂亮的图形来展示数据。完整的分析很值得一读。
世界各地的啤酒消费量正在下降,主要是由于中国、俄罗斯和巴西的下降。
在这篇 NYT 的文章中,Gif 热图展示了极端高温如何开始影响我们的日常生活。
这是一个关于图形符号学的很好的演示平台。每张幻灯片都介绍了信息可视化的不同组件,以及如何使用它们来显示数据。
这是一个关于如何使用 D3 和 Canvas 制作复杂交互的广泛而全面的教程。
受标签#d3brokeandmadeart 的启发,一群人举办了一场基于加拿大魁北克失败数据的新艺术展。你可以在这里阅读他们的首次展览。
下面是来自 Inc.com 的一篇有趣的文章:依赖数据可视化时你需要记住的 5 件事。这里可能有一些需要注意的地方(即作者本人似乎在数据方面没有任何重要的经验)。但我认为她的一些主要观点仍然适用,比如资料来源仍然很重要,图表并不总是讲述整个故事。
数据集和其他资源
本周有很多很棒的数据集值得一提。
与此相关的是,这是一个很好的健康数据资源:由健康度量和评估研究所提供的我们喜欢的数据站点列表。
data.world 上的这个数据集列出了每一家财富 500 强公司及其多元化数据(或者在某些情况下,缺乏这些数据)。
未来你的工作自动化的可能性有多大?702 个 SOC(标准职业分类)职位的数据集,它们自动化的可能性,以及每个州的职位数量可以提供一些线索。旁注:如果你想要一个如何出色地使用这类数据的例子,请查看英国《金融时报》关于工作自动化的互动。
给足球迷一个:1893 年到 2016 年每一场利物浦足球俱乐部的英格兰联赛结果的数据集。
有些人可能已经知道这一点,但我的数据集发现过程很大程度上归功于我订阅的许多时事通讯。我最喜欢的是 Buzzfeed 数据团队的 Jeremy Singer-Vine 的数据是复数。每周他会发出 3-5 个有趣的数据集,你应该一定要订阅。以下是上周我最喜欢的几个:
一个的公共数据库来自佛罗里达州犯人纹身矫正部门。这里有一个如何分析《经济学人》数据的例子。
宣言项目已经对来自世界各地的数千份政治宣言的中央数据库进行了编码。数据跨度从 1945 年到 2015 年,包括 1000 多个政党,覆盖 50 多个国家。
Libraries.io 发布了超过 2500 万个开源项目的数据集。浏览数据,看看人们最常用的东西可能是什么。
饥荒预警系统网络(FEWS 网)发布了每个国家饥荒风险的地理空间形状文件。这是绘制人道主义问题的一个很好的书签资源。
斯坦福开放警务项目已经记录了美国各州警察部门的交通拦截数据。这个数据库是同类数据库中的第一个,因为没有对交通站点进行例行跟踪。第一次数据发布包括来自 31 个州的 1 . 3 亿行数据。以下是该项目迄今为止所发现的情况。
数据可视化
这张图表上周在社交媒体上引起了一些波澜,这是有充分理由的:最富有的 0.001%的美国人在 34 年的时间里工资增长了 636%。
下面的 d3 show reel gif 展示了动画 d3 图形的威力。但它也引入了一些关于演示的有趣问题:使用相同的数据,图表的选择如何引入对该数据的解释?
啊,是的,正在进行的关于标准化 choropleth 地图的争论(提示:你肯定应该标准化)。
看看这个像细胞一样的大液泡,将 35 年来的世界经济可视化为一个活的有机体。
我认为,有时像维恩图和流程图这样的分类可视化会因为过于简单而受到指责。但有时它们绝对是故事的最佳选择。例如:英国《金融时报》的通往英国退出欧盟之路图。
寻找灵感?这里列出了 7 个数据,即你应该在 Pinterest 上关注的人。
如果出租车旅行是萤火虫,这个就是地图的样子。
高 GDP 和献血人群之间的相关性显然非常高。
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。我也很想看看你最近在忙些什么。
如果你喜欢这个每周综述,拍上一张 ❤️️ 或者与你的朋友分享。下周会有更多的数据。
数据好奇 27.08.2017:上周的数据故事、数据集和可视化综述
欢迎来到我上周在网上注意到的数据驱动事物的每周综述。这是第 19 周(上周的帖子是这里是)。
特别感谢:上周,你们这些了不起的读者把我推上了 2k 追随者马克的位置,自从我在大约 20 周前发表了我的第一篇数据好奇综述!很憋屈。你们很棒。好了,现在回到我们真正关心的东西:数据的东西。
每个星期,我都会剪辑、保存和收藏大量我在网上找到的关于用数据讲述故事的很酷的东西。以下是 8 月 21 日那周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。我下周休假,所以下一次数据好奇将在 9 月 11 日回来。请在媒体上关注我的最新消息。我也在推特上。让我们开始吧。
好的阅读、分析和教程
ProPublica 和谷歌新闻实验室合作创建了一个新的机器学习应用程序,用于报道美国的仇恨。你可以在媒体上阅读他们应用程序的制作,记录仇恨新闻的索引、。
研究恐怖主义和应对恐怖主义的国家联盟制作了一个美国个人激进化的互动仪表板。仪表板允许你筛选美国的各种激进组织,探索哪些是暴力的,人口统计数据是什么,他们住在哪里,等等。您也可以填写表格,在此下载完整的数据集。
这里有一篇安娜·诺布尔写的关于如何改进你的下一个场景的博客文章。
最近,Quartz 越来越多地进入机器人和机器学习领域。关于 NiemanLab 的这篇文章描述了他们的最新项目:一套基于 Slack 的工具,为新闻编辑室创建简单的机器人。
你知道那些帮助你决定选择哪种数据可视化的网站吗?我找到了另一个。这个网站的设计真的很犀利,我喜欢它的互动性。
斯考特·玛瑞出版了他关于用 D3.js 创建数据可视化的新书
对于在 R 工作的数据记者来说,这里有一个不错的资源:。Rddj 是一个中心网页,提供使用 R 改进数据工作流的课程、教程和示例。
我很喜欢阅读数据研究员 Miriam Quick 提出的问题:男人和女人觉得不同的电影有趣吗?即使你不同意这些结果,在这部电影结束时,你至少会有几部电影加入到你的必看名单中。
我以前的一个同学推荐了这个麦克道尔县互动纪录片网站。可滚动的故事带你了解 30 个不同居民的生活,并探索为什么这个县是美国许多经历急剧经济衰退的县之一。漂亮的设计和交互。
反歧视行动最近成为新闻中另一个有争议的话题。《纽约时报》上周发表了一篇数据驱动的报道,展示了即使有了平权法案,黑人和西班牙裔在顶尖大学的代表性也比 35 年前更低。整篇文章中有一些非常有趣的图表,结合了斜率图和一种线形图。
作为一个经历过非常相似过程的人,我喜欢阅读这篇描述记者如何以及为什么学习编码的博客文章——我的转型故事。作者对代码和数据如何为记者和营销人员引入更好的讲故事形式有一些很好的见解。
Julia Silge 和布丁的团队发表了另一篇精彩的视觉散文。这部电影再次使用了电影剧本,采用了“他说,她说”的方式来揭示最常见的男女角色的银幕指示(提示:不幸的是,正如你所期望的那样,这是性别化的)。
这篇关于为什么使用统计图来表示人口统计数据是一个好主意的中型文章太棒了。这篇文章解释了当使用错误的地图类型时,如何绘制少数民族的地图。例如,尽管少数民族占美国人口的 26%,但他们在典型的人口分布图中只占 16%。
这里有一个关于的很好的提醒,为什么没有数据可视化分析就什么都不是。虽然我不是 100%同意这一点(洞察力只能通过数据分析获得),但这里有一些很好的观点,说明可视化对于将这些洞察力传达给不同的受众是多么重要,尤其是那些对数据不太熟悉的受众。
数据集和其他资源
本周,data.world 正在推动一个关于新泽西州阿片类药物流行的特别数据项目。这里有一个数据库,列出了从 1999 年到 2016 年全州因阿片类药物过量死亡的案例。
美国国家人文科学基金会(NEH)发布了他们自 20 世纪 60 年代末以来授予的所有资助的数据集。这个数据集可能提供了一个有趣的开端,探索 NEH 似乎把什么项目放在优先地位。
如果你在寻找地理数据来做实验,可以看看这个非洲蚊子数据库。迈克尔·周在推特上发布了一个链接,链接到非洲最大的按蚊地理编码数据库,他应该被 s/o。
如果你正在寻找一个故事,行业新闻网站 journalism.co.uk 发表了一篇文章,为调查记者列出了的 18 个数据来源。
人口参考局发布全球人口数字的新估计:到 2050 年人口将达到 98 亿。
数据可视化
谷歌趋势很快就寄希望于日食地图潮流,这张地图显示(令人震惊的)对日食地图的搜索与日食路径非常接近。
有许多日食后的地图可供选择,所以我会有所选择,只包括一个:这张来自 WaPo 的动画地图显示了飞机如何涌向日食路径。
说到日食相关数据,我被谷歌搜索的线形图逗得哈哈大笑。仔细观察线条图例。
这里有一个有趣的动画地图视频展示了从 2001 年到 2015 年记录的每一次地震。
气候地图册决定绘制过去一个世纪英国气温的变化。我真的很喜欢他们把地图放在一条水平线中的方式,这样它们几乎形成了一种由 choropleth 地图组成的热图。
阿拉斯加的永久冻土正在融化,我对此并不满意。这张来自 NYT 的 gif 动画地图显示了气候变化可能造成的损失,以及这将如何反过来加剧全球变暖。
上周,英国内政部被发现大幅高估了签证过期的国际学生人数。有趣的是,煽动对移民违反签证规则的恐惧的政治言论会对数字产生影响,是吧?
我发现这条推特非常有趣:彼得·库克总结了 7 种绘制选举数据的方法。作为通常显示投票率或党派归属的 choropleth 的替代,这感觉像是一股新鲜空气。
权力的游戏数据即?似乎是合法的。这个 Tableau 仪表板允许你在一个时间线上探索角色的死亡。
彭博公布了迄今为止 SpaceX 每一次发射的漂亮而有趣的带注释的时间表。看来每次新的发射,埃隆·马斯克都离火星越来越近了。我喜欢你滚动时出现在时间轴上的插图和图标。
上周就这样了。你看到我应该包括的东西了吗?或者你只是想给我一个数字点头/击掌?给我发微博或者在下面留言。两周后回到✌.
如果你欣赏这个每周综述,给它几个👏️️ 或者与你的朋友分享。我也很想知道你最近在忙些什么,所以请联系我。