TowardsDataScience 博客中文翻译 2016~2018(二百七十七)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

数据科学家的工具

原文:https://towardsdatascience.com/the-data-scientists-tools-74f120599d4a?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建数据处理系统、数据库、可视化工具和数据辩论工具

在与数据处理系统的**构造相关的工程中,**有三种基本工具可以着手分析海量信息: **Python、R 和 Hadoop。**虽然这些编程语言相对来说比较新,也不太普及,但对于已经精通 Java 或 c 等编程语言的专业人士来说,它们更容易掌握。

R: 被认为**是统计编程语言中的标准,**有人称其为数据科学的“金童”。r 是一个致力于统计计算和图形的自由软件环境,兼容 UNIX、Windows 和 MacOS 平台。这是数据科学中的一项必备技能,鉴于商业应用数量的增加及其有利的多功能性,精通这一技能实际上保证了一份工作。

  • R 是免费的:任何人都可以安装、使用、升级、克隆、修改、再分发,甚至转售 R,不仅在技术项目上省钱,而且还提供不断的更新,这对于任何统计编程语言总是有用的。

  • R 是一种**高性能语言,可帮助用户处理大型数据包,**使其成为管理大数据的绝佳工具。它也是高强度和资源密集型模拟的理想选择。

鉴于它的所有优点,它越来越受欢迎。它拥有大约 200 万用户,这些用户组成了一个活跃的支持性社区。有超过 2,000 个免费图书馆提供金融、聚类分析等方面的统计资源。

Python: 又一种灵活直白的开源编程语言。由于 Python 对初学者“友好”的特性,例如代码可读性、简化的语法和易于实现,使用 Python 的程序员最终会编写更少的代码。

-与 R 一样,Python 中的编程适用于大量行业和应用程序。Python 支持谷歌的搜索引擎,以及 YouTube、Dropbox 或 Reddit。NASA、IBM 和 Mozilla 等机构也非常依赖 Python。

——Python 也是免费的,这对创业公司和小企业都有好处。因为这种语言倾向于简化,所以可以由小团队来处理。对这种面向目标的语言的基础有了很好的了解,您就可以通过学习新语言的语法来迁移到另一种类似的语言。

-作为一种高性能语言,Python 是构建快速访问应用程序的常用选择。此外,其庞大的资源库提供了必要的帮助,确保只需点击几下鼠标即可提高工作效率。

Hadoop: 对于任何想冒险进入大数据分析领域的人来说,这是另一个必备工具。作为一个开源框架,Hadoop 有助于存储和处理大量数据。它被认为是任何灵活和前瞻性数据平台的基石。

  • Hadoop 是数据行业中最具增长潜力的技术之一。戴尔、亚马逊网络服务、IBM、雅虎、微软、谷歌、易贝和甲骨文等公司都坚定地致力于 Hadoop 的实施。

-它的主要好处之一是**帮助公司满足其营销需求:**识别网站上的客户行为模式,提供推荐和定制目标等。

  • Hadoop **在各种各样的岗位上开启了巨大的职业机会。**鉴于其在许多行业中的相关性,Hadoop 专家可以作为架构师、开发人员、管理员或数据科学家找到工作。

其他工具

数据科学家工作中的另一个频繁交互是与**数据库的交互。**在这里,使用 **NoSQL 数据库、Apache Storm 和 Spark、**等处理工具以及 Storm 等虚拟机是很常见的。

可视化工具对于创造价值不如**说服重要。在这个意义上,它们与结果沟通阶段和重新发现数据价值的实际工作相关联:**浏览数字和呈现数字是不一样的。QlikView、Tableau 和 Spotfire 等程序用于此目的。

最后,数据科学家的工作中有一个相当乏味的部分,这是一个被称为**数据争论的过程。**原始数据往往以混乱或不完善的方式呈现,因此数据首先需要人工收集和清理,然后才能转换为结构化格式进行探索和分析。使用像 OpenRefineFusion Tables 这样的工具,这项任务会占用数据科学家超过 50%的工作时间。

开源还是专有软件?

正如在任何需要特定软件的领域一样,数据科学专业人员可以在私营公司销售的程序和开源软件之间进行选择。

在开始一个数据科学项目之前,准确了解相应调整资源和预算所需的技术需求非常重要。这就是为什么越来越多的公司选择开源替代方案的灵活性的原因之一。开源环境带来的各种选择也有助于扩大新技术和知识的使用。直到不久前,收费的商业工具还主宰着市场,但随着免费替代品的出现,它们的地位越来越低。

一些专家警告说,制造商试图将他们的商业解决方案强加给企业,最终会大量投资于总是有开源替代方案的专有应用程序。这种束缚性可以被开源项目所取代,开源项目是可扩展的,可以提供与专有软件相当的性能。


本文是研究“数据的一部分科学家:他们是谁?他们是做什么的?它们是如何工作的?”很快从反抗者的思维中传出。

数据故事讲述者

原文:https://towardsdatascience.com/the-data-story-teller-da630dcdd02d?source=collection_archive---------5-----------------------

数据科学家现在正式成为最酷的工作。我记得几季前在的《纸牌屋》中,当天才数据科学家赤裸着上身站在隔音房间里,大声播放音乐,尖叫着提出深刻见解,帮助安德伍德夫妇利用数据赢得选举时,我笑了。

现实更加平淡无奇。调查显示,大多数数据科学家花大部分时间清理和准备数据。他们不是数据科学家。他们是数据管理员。当然,很多科学都是这样的(与任何在实验室工作过的人交谈。)

无论如何,我已经和做大数据的人在一起十多年了。我不写代码,也不会很多数学。那我是什么?

德勤有一篇关于光线定量分析师的精彩文章。这个人对数据科学有足够的了解,并且是一个熟练的沟通者,能够在数据科学时代和高管决策者之间进行转换。

但是我在这个过程中扮演了比交流结果更广泛的角色(并不是说这不重要!)我帮助构思项目。人们试图解决的问题是什么?这一点有时并不明显。人们不知道他们不知道的事情。在讨论表面问题时,可能会出现更大的问题。

我对数据的格式和性质想了很多。在许多情况下,真正有趣的信息是非结构化的或定性的。它的真正含义是什么,我们如何最好地融入它?在一些项目中,我在收集数据方面发挥了关键作用,但在恐怖主义研究中,许多信息都是叙述性的——我们如何用数字有意义地描述这些信息。

当然,当我们确实有结果时,我们必须描述它们,并根据已知或相信的东西来平衡它们。

我们通过故事了解世界。在处理抽象问题时,我经常发现自己在寻找例子。我所描述的这个过程的核心是故事。有一个客户的故事。他们对自己的工作流程和挑战有什么看法?

在这么多有趣的问题上,挑战在于将一个有着迷人细节的故事转化为一个数字或一组数字。在 UMIACS 的十年里,我参与了模拟恐怖组织的项目。有些事情,比如恐怖袭击,相对容易转化成数字数据(死亡人数,目标代码等)。)其他事情,比如恐怖组织的公开声明或其内部动态的信息,则更难以量化。值得注意的是,计算机科学家(和数据科学家)往往对类型感兴趣。分析师和中小企业往往对实例感兴趣。实例是一个故事,如何在不丢失太多关键信息的情况下将实例分类是一个困难的挑战。关于如何做到这一点的决策将决定结果——这也是故事的一部分。

当有结果时,必须根据已知的情况来考虑它们。关于这个问题,我们给自己讲了哪些故事?该分析如何为这些故事提供信息?它是颠覆它们,修改它们,还是确认它们。我们对新发现有多大信心?这些发现对客户有什么更广泛的组织影响?

制定政策要结合事实和价值观。价值观是通过故事来表达的。仅仅依靠冷酷的事实不会产生可接受的政策,价值观必须是等式的一部分。

回答所有这些问题都需要听故事和讲故事。

我想我是一个讲数据的人。

原载于 2017 年 6 月 11 日【terrorwonk.blogspot.com

深度学习(。人工智能)词典

原文:https://towardsdatascience.com/the-deep-learning-ai-dictionary-ade421df39e4?source=collection_archive---------1-----------------------

有没有努力回忆起亚当、雷鲁或 YOLO 的意思?别再看了,看看你掌握深度学习所需的每一个术语。

在 Coursera 深度学习的世界中生存意味着理解并在技术术语的丛林中导航。你不是💯%确定 AdaGrad、Dropout 或 Xavier 初始化意味着什么?当你偶然发现一个你安全地停在脑海深处一个积满灰尘的角落里的术语时,用这个指南作为参考来刷新你的记忆。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这本字典旨在简要解释来自吴恩达 deeplearning.ai 的 Coursera 深度学习专业化最重要的术语。它包含对术语的简短解释,并附有后续帖子、图片和原始论文的链接。该帖子旨在对深度学习初学者和从业者同样有用。

让我们打开深度学习的百科全书。📚

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

激活功能 —用于创建输入的非线性变换。输入乘以权重并添加到偏差项。常见的激活函数包括 ReLU、tanh 或 sigmoid。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://bit.ly/2GBeocg

Adam Optimization—可以用来代替随机梯度下降优化方法,迭代调整网络权重。根据发明者的说法,Adam 的计算效率很高,可以很好地处理大型数据集,并且几乎不需要超参数调整。Adam 使用自适应学习速率 α ,而不是预定义的固定学习速率。Adam 是目前深度学习模型中默认的优化算法。

自适应梯度算法 AdaGrad 是一种梯度下降优化算法,其特点是每个参数的学习率都是可调的。与更新频率较低的参数相比,AdaGrad 以较小的步长调整频繁更新的参数。因此,它在非常稀疏的数据集上表现良好,例如在自然语言处理任务中适应单词嵌入。在这里看论文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

平均池 —对卷积运算的结果进行平均。它通常用于缩小输入的大小。平均池主要用于旧的卷积神经网络架构,而最近的架构支持最大池。

Alex net——八层的流行 CNN 架构。这是一个比 LeNet 更广泛的网络架构,需要更长的时间来训练。AlexNet 赢得了 2012 年 ImageNet 图像分类挑战赛。在这里看论文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://goo.gl/BVXbhL

反向传播—用于调整网络权重以最小化神经网络损失函数的通用框架。该算法通过网络反向传播,并通过每个激活函数的梯度下降的形式来调整权重。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Backpropagation travels back through the network and adjusts the weights.

批量梯度下降 —规则梯度下降优化算法。对整个训练集执行参数更新。该算法需要在完成一个参数更新步骤之前计算整个训练集的梯度。因此,对于大型训练集,批量梯度可能非常慢。

批量标准化 —将神经网络层中的值标准化为 0 到 1 之间的值。这有助于更快地训练神经网络。

偏差—当模型在训练集上没有达到高精度时发生。这也被称为欠拟合。当模型具有高偏差时,它通常不会在测试集上产生高精度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://goo.gl/htKsQS

分类 —当目标变量属于一个截然不同的类,而不是一个连续变量时。图像分类、欺诈检测或自然语言处理是深度学习分类任务的例子。

卷积 —将输入与滤波器相乘的数学运算。卷积是卷积神经网络的基础,卷积神经网络擅长识别图像中的边缘和对象。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

成本函数——定义计算出的输出和应该输出之间的差异。成本函数是深度神经网络中学习的关键成分之一,因为它们形成了参数更新的基础。网络将其前向传播的结果与地面实况进行比较,并相应地调整网络权重以最小化成本函数。均方根误差是成本函数的一个简单例子。

深度神经网络 —有很多隐含层的神经网络,通常超过五层。没有定义深度神经网络必须至少有多少层。深度神经网络是一种强大的机器学习算法,用于确定信贷风险、驾驶自动驾驶汽车和探测宇宙中的新行星。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Derivative of a function. Source: https://goo.gl/HqKdeg

导数 —导数是函数在特定点的斜率。计算导数以让梯度下降算法向局部最小值调整权重参数。

Dropout —一种正则化技术,随机消除深度神经网络中的节点及其连接。Dropout 减少了过度拟合,并能够更快地训练深度神经网络。每个参数更新周期,不同的节点在训练期间被丢弃。这迫使相邻节点避免过度依赖彼此,并自己找出正确的表示。它还提高了某些分类任务的性能。在这里看论文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://goo.gl/obY4L5

端到端学习 —一个算法能够自己解决整个任务。不需要额外的人工干预,如模型切换或新数据标记。例如,端到端驾驶意味着神经网络仅通过评估图像就能计算出如何调整转向命令。

历元—包含对每个示例的训练集的一次向前和向后传递。单个历元触及迭代中的每个训练示例。

前向传播 —深度神经网络中的前向传递。输入通过隐藏层的激活功能,直到最后产生一个结果。前向传播也用于在正确训练权重后预测输入示例的结果。

全连接层 —全连接层用其权重变换输入,并将结果传递给下一层。这一层可以访问前一层的所有输入或激活。

门控递归单元—门控递归单元(GRU)对给定的输入进行多重变换。它主要用于自然语言处理任务。gru 防止了 rnn 中的消失梯度问题,类似于 LSTMs。与 LSTMs 相比,gru 不使用存储单元,因此在实现类似性能的同时计算效率更高。在这里看论文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

No forget gate, in contrast to LSTM. Source: https://goo.gl/dUPtdV

人类水平的表现——一群人类专家可能的最佳表现。算法可以超越人类水平的表现。用于比较和改进神经网络的有价值的度量。

超参数 —决定你的神经网络的性能。超参数的例子是,例如,学习速率、梯度下降的迭代、隐藏层数或激活函数。不要与 DNN 自动学习的参数或重量混淆。

ImageNet —数以千计的图像及其注释类的集合。非常有用的资源图像分类任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

迭代 —一个神经网络向前和向后的总次数。每批计为一次通过。如果您的训练集有 5 个批次,训练 2 个时期,那么它将运行 10 次迭代。

梯度下降 —帮助神经网络决定如何调整参数以最小化成本函数。反复调整参数,直到找到全局最小值。这篇文章包含了对不同梯度下降优化方法的全面概述。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://bit.ly/2JnOeLR

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

—一组转换输入的激活函数。神经网络使用多个隐藏层来创建输出。通常可以区分输入层、隐藏层和输出层。

学习率衰减 —训练时调整学习率的一个概念。允许灵活的学习率调整。在深度学习中,网络训练的时间越长,学习速度通常会下降。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Max pooling.

最大汇集 —仅选择特定输入区域的最大值。它通常用于卷积神经网络,以减少输入的大小。

——RNN 的一种特殊形式,能够学习输入的上下文。当相应的输入彼此远离时,常规的 rnn 遭受消失梯度,而 LSTMs 可以学习这些长期的依赖性。在这里看论文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Input and Output of an LSTM unit. Source: https://bit.ly/2GlKyMF

小批量梯度下降 —一种优化算法,在训练数据的较小子集上运行梯度下降。该方法允许并行化,因为不同的工人分别迭代不同的小批量。对于每个小批量,计算成本并更新小批量的重量。这是批量和随机梯度下降的有效结合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://bit.ly/2Iz7uob

动量 —平滑随机梯度下降法振荡的梯度下降优化算法。动量计算先前采取的步骤的方向的平均方向,并在该方向上调整参数更新。想象一个球滚下山坡,并利用这个动量调整向左或向右滚动。球滚下山类似于梯度下降寻找局部最小值。

神经网络 —转换输入的机器学习模型。一个普通的神经网络有一个输入、隐藏和输出层。神经网络已经成为在数据中寻找复杂模式的首选工具。

非最大值抑制 —算法用作 YOLO 的一部分。它通过消除具有较低识别对象置信度的重叠边界框来帮助检测对象的正确边界框。在这里看论文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source:https://bit.ly/2H303sF

递归神经网络 — RNNs 允许神经网络理解语音、文本或音乐中的上下文。RNN 允许信息在网络中循环,从而在前后层之间保持输入的重要特征。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://goo.gl/nr7Hf8

ReLU —整流线性单元,是一种简单的线性变换单元,如果输入小于零,则输出为零,否则输出等于输入。ReLU 是选择的激活函数,因为它允许神经网络更快地训练,并防止信息丢失。

回归—统计学习的一种形式,其中输出变量是一个连续而不是一个分类值。分类为输入变量指定一个类别,而回归则指定一个具有无限个可能值的值,通常是一个数字。例如房价或客户年龄的预测。**

均方根传播 — RMSProp 是随机梯度下降优化方法的扩展。该算法以每个参数的学习率为特征,但不是整个训练集的学习率。RMSProp 根据先前迭代中参数变化的速度来调整学习速率。看这里的报纸。

参数——在应用激活功能之前转换输入的 DNN 的权重。每一层都有自己的一组参数。通过反向传播调整参数以最小化损失函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Weights of a neural network

soft max-逻辑回归函数的扩展,用于计算输入属于每个现有类的概率。Softmax 通常用于 DNN 的最后一层。概率最高的类别被选为预测类别。它非常适合具有两个以上输出类的分类任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://bit.ly/2HdWZHL

随机梯度下降 —一种优化算法,对每个单个训练样本进行参数更新。该算法的收敛速度通常比批量梯度下降快得多,批量梯度下降在为整个训练集计算梯度后执行参数更新。****

监督学习——深度学习的一种形式,对每个输入的例子都有一个输出标签。标注用于将 DNN 的输出与地面真实值进行比较,并最小化成本函数。深度学习任务的其他形式是半监督训练和非监督训练。

迁移学习 —一种将一个神经网络的参数用于不同任务而无需重新训练整个网络的技术。使用先前训练的网络的权重,并移除输出层。用你自己的 softmax 或 logistic 层替换最后一层,再次训练网络。之所以有效,是因为较低层经常检测类似的东西,如边缘,这对其他图像分类任务很有用。

无监督学习 —一种输出类未知的机器学习形式。GANs 或变分自动编码器用于无监督的深度学习任务。

验证集 —验证集用于寻找深度神经网络的最优超参数。通常,DNN 是用超参数的不同组合来训练的,并在验证集上进行测试。然后,应用性能最佳的超参数集对测试集进行最终预测。注意平衡验证集。如果有大量数据可用,那么将 99%用于训练,0.5%用于验证,0.5%用于测试集。

消失梯度 —训练非常深度的神经网络时出现问题。在反向传播中,权重基于其梯度或导数进行调整。在深度神经网络中,早期层的梯度可能变得非常小,以至于根本不更新权重。ReLU 激活函数适合解决这个问题,因为它不像其他函数那样压缩输入。在这里看报纸。

方差—当 DNN 过度拟合训练数据时发生。DNN 无法区分噪声和模式,并对训练数据中的每个变化进行建模。具有高方差的模型通常无法准确地推广到新数据。

向量 —作为输入传递到 DNN 激活层的值的组合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

VGG-16—CNN 的流行网络架构。它简化了 AlexNet 的架构,共有 16 层。有许多预训练的 VGG 模型可以通过迁移学习应用于新的用例。在这里看论文

Xavier 初始化 — Xavier 初始化在第一个隐藏层分配起始权重,使输入信号深入神经网络。它根据神经元和输出的数量来调整权重。这样可以防止信号在网络中变得太小或太大。

YOLO——你只看一次,是一种识别图像中物体的算法。卷积用于确定对象在图像的一部分中的概率。然后使用非最大抑制和锚定框来正确定位对象。在这里看论文

我希望这本字典帮助你更清楚地了解深度学习世界中使用的术语。在参加 Coursera 深度学习专业化认证时,请将本指南放在手边,以便快速查找术语和概念。

如果你认为这篇文章是有帮助的,不要忘记展示你的💛穿过👏 👏 👏在 MediumLinkedIn 上关注我,了解更多关于深度学习、在线课程、自动驾驶汽车和生活的信息。还有,查一下 这些 关于深度学习专业化的帖子出来。请评论分享你的看法。干杯!🙇

Gartner 炒作周期巅峰的深度学习炒作

原文:https://towardsdatascience.com/the-deep-learning-hype-at-the-peak-of-gartners-hype-cycle-35fbccb7aa16?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

目前围绕深度学习有一个巨大的炒作。你也可以在 Gartner 的炒作周期中看到这一点。

什么是炒作周期,它是如何运作的?继续阅读以了解更多信息。

一段时间以来,Gartner 一直在为许多领域创造炒作周期,如机器学习、大数据等。我个人用它们来发现一项技术已经走了多远。

例如,像深度学习这样的技术已经走了多远。从想法、开发、第一次实现,进入生产力状态。

在这个国家,人们实际上从中受益,公司从中赚钱。Gartner 的炒作周期是一个非常好的工具。

炒作周期是怎样的

炒作周期是一条曲线,首先上升到一个顶点,然后下降到一个低点,然后回到一个平稳期。

创新ˌ革新

第一阶段当新技术出现时,创意被创造出来。这是创新阶段。

炒作周期是如何工作的,让我们看看深度学习(DL)的例子。它从左边开始,一路向弯道的山上驶去。

人们已经意识到 DL 是一个有趣的话题,人们正在为之努力。他们正在构思和尝试想法。

这是创新阶段。

越来越多的人这样做,DL 正在上升。

过高期望的顶峰

直到到达第二阶段:顶部。Gartner 将此称为膨胀预期的顶峰。

才是炒作真正大的时候。每个人都在谈论深度学习,每个人都在努力。人们认为数字图书馆是一项无处不在的技术,它影响着我们生活中的一切。

基本上,这是一个很多人认为你可以在任何地方实现某个东西并从中赚很多钱的时代。

这也是 2017 年当前炒作周期中 deep larning 的位置。

幻灭的低谷

接下来发生的是,随着越来越多的公司致力于此,他们意识到这比他们想象的要难。

DL 更难实现,更难开发,更难作为产品销售。这是很多人感到沮丧的时候,也是很多人放弃和公司倒闭的时候。

在这一点上,DL 的情况是它在走下坡路。它正在从膨胀的期望的顶峰走向低谷。

在这一点上,人们醒悟了,从炒作中醒来。

生产力的稳定期

从那一点开始,DL 将在下一座山上再往上走一点,到达一个平台。Gartner 称之为生产率的稳定期。

当一项技术经历了幻灭的低谷,达到生产力的平台期,那么它就被公众接受了。在 DL 的情况下,这将是我们每天与深度学习算法进行交互的时候。往往连自己都不知道。

这是生产力的高原,人们已经意识到你实际上可以用它做什么。

技术或工具是主流应用。

达到稳定状态的时间预测

同样非常有趣的是,Gartner 试图预见一个时间框架。炒作周期中的一个项目需要多长时间才能达到生产率的平台期。

因此,在人类扩增的情况下,我最喜欢的话题之一,Gartner 预测超过 10 年。这已经很多年没变了,😄

当你看其他技术时,你会发现这需要 5 年,2 到 5 年的时间。所以,你实际上可以预测一下,在整个炒作周期中,这需要多长时间。

我完全推荐的是不要只看今年的炒作周期。再看看过去几年的炒作周期。这样你就能感受到事情发生得有多快。

那些关于它需要多长时间才能达到右侧生产率稳定水平的预测发生了变化。年复一年,有时甚至技术完全从循环中消失。

前一年说是五年,第二年就完全消失了。这是因为它已经经历了炒作周期,已经达到了生产率的稳定期。

因为这不是精确的科学,这是 Gartner 的估计。

一个你必须使用的令人敬畏的工具

炒作周期是一个非常有趣的工具,它可以帮助你感受到事物出现的速度有多快。它试图预测某样东西成为主流需要多长时间。

所以,如果你想跟踪趋势,我强烈推荐 Gartner 炒作周期。

不仅新兴技术有许多炒作周期。谷歌一下,你会发现很多。

他们也会做一个分析,但是这个分析要花很多钱。但是炒作周期通常你可以谷歌一下就能找到。

你目前密切关注的趋势是什么?

你用炒作周期吗?还是在用别的?

请留下评论,这将是超级真棒☺

.

上打招呼:insta gram|LinkedIn|脸书|Twitter|YouTube|Snapchat

不要错过我在 SoundCloud 上的每日数据科学和大数据播客

订阅我的简讯:这里

统计图形的设计

原文:https://towardsdatascience.com/the-design-of-statistical-graphics-5265485e9bb5?source=collection_archive---------10-----------------------

一瞥信息丰富的图形世界

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

今天我们将学习人类大脑——枕叶是哺乳动物大脑中大脑皮层的四个主要叶之一。

没有吗?为什么我们在一篇应该是关于“统计图表”的文章中学习生物学?

嗯,视觉处理中心或大脑皮层处理和帮助我们解释视觉信息的部分,是我们在讨论复杂想法、不可思议的波动、上升和下降趋势、波动结构等描述时间接谈论的内容;如此清晰,精确和有序的连贯性。
这些正是我们所说的图形结构或统计图应该有的形容词。

数据的图形化展示给我们一个清晰的画面,在一个小空间里呈现如此多的想法和数字,帮助我们避免数据试图呈现的想法的扭曲,并最终服务于描述、探索、制表和装饰的合理清晰的目的。

统计图表,就像计算一样,只有输入进去的东西才是好的。一个定义糟糕的图表,一个不合适的模型,甚至一个营养不良的数据集,都不能被一个图表所拯救,不管它有多花哨或多吸引人。

“我们需要理解、学习和采纳卓越图形化的实践.”

我们需要理解、学习和采用图形化的优秀实践。换句话说,在正确的时间在正确的地方使用正确的图表,导致各种定量思想的完美沟通;这才是动机所在。

因此,要传达这一理念,理解实现图形卓越的艺术,进而欣赏这些图形能够表现数据的美;我们将学习并尝试理解以下基本的图形设计,想象并看看图形设计有多好,多迷人:

1。资料图
2。时间序列
3。时空叙事设计
4。关系图形

资料图

数据地图基本上是制图表达和统计技能的结合,在当今的可视化中被广泛使用。

为了更好地理解数据映射,我们将以两个数据映射为例,对其进行一些分析。这些地图中的每一幅都描绘了大量的数据,这些数据只有在图片的帮助下才能可视化。在一个简洁的空间中承载大量的数据是这些数据地图的目标,并且成功地做到了这一点。此外,正如我们将看到的,这些地图使得可视化分析比使用如此庞大的数据集要容易得多。

对于第一个例子;这张地图显示了美国从 2000 年到 2006 年 35 岁以上的成年人中风死亡率。
颜色方案代表按每 100,000 人中的平均年死亡率调整的年龄。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: www.cdc.gov

现在,我们可以清楚地看出,在美国东南部和南部,中风的死亡率非常高。阿拉巴马州、密西西比州、路易斯安那州、阿肯色州、田纳西州、得克萨斯州、南卡罗来纳州和北卡罗来纳州以及受灾最严重的地区。西部的怀俄明州、南部的亚利桑那州和新墨西哥州以及远东的纽约州、佛蒙特州、新罕布什尔州、罗德岛州和康涅狄格州受影响最小。

现在让我们看另一个例子,我们将根据 32 支 NFL 球队来看美国的分区。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: hermanhissjewelers.com

通过对下面的地图进行简单的视觉分析,我们可以确定并分辨出哪个州主要跟随哪个队。就地理范围而言,牛仔队确实是美国队。他们的粉丝帝国从加利福尼亚延伸到佛罗里达中部、弗吉尼亚南部到蒙大拿州北部。钢人队还有另一个庞大的球迷帝国,声称几乎整个宾夕法尼亚州,并横跨阿巴拉契亚和两个卡罗莱纳州。
现在,德克萨斯人的影响力很小,他们的粉丝群只覆盖休斯顿市区。德克萨斯的其余部分属于牛仔,路易斯安那西部属于圣徒。就黑豹队而言,他们的球迷基础覆盖了夏洛特周围的北卡罗莱纳州西部核心地区,但四周都是钢人队的球迷。

这个快速分析的目的是让你意识到并注意到,我们可以多快、多准确地预测数据集中比其他数据更重要的事物、点或模式,并将我们的注意力引向它们。

除了数据地图可能带来的所有缺陷之外,没有其他方法能够如此强大地显示统计信息。

时间序列

时间序列方法用一些内部结构来说明随着时间推移所获得的数据点;例如一些相关性或季节变化或趋势,其中一个维度沿着秒、分、小时、天、周、月、季度或年的节奏移动。这个图形模型所聚集的力量和效率来自时间尺度的自然秩序;它被用来做预测或者只是描绘一个及时的趋势。

例如,让我们看一个时间序列图,它显示了纽约市 1980 年的天气概况。该图有 1,888 个数据点,我们可以看到每日最高和最低温度与长期平均值的关系。正常温度的路径也提供了一年中预期变化的预测。例如,在 2 月中旬,纽约人可以期待以每周 1.5 度的速度变暖,一直到 7 月,这是一年一度的峰值。这张杰出的图表成功地组织了大量的数字,对不同部分的数据进行了比较,并讲述了一个故事。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: The Visual Display of Quantitative Information

此外,时间的流逝并不是最好的解释变量,当数据为我们提供了驱动 Y 变量的清晰机制时,偶尔会有例外。在这种情况下,我们需要采用另一种方法,那就是在图形设计中加入额外的变量,并给出一个随意的解释。

时空叙事设计

让我介绍一下,这是对时间序列显示的一个有效和增强的改进。将空间维度包括到时间序列图形的设计中,并使数据能够在多维空间中进行,而观察者甚至不会意识到图形是多维的,这就是时空设计所实现的。

我们将借助一个例子来试图理解这一点;法国工程师查尔斯·约瑟夫·密纳德(1781-1870)的经典作品,他以残酷而雄辩的设计展示了拿破仑军队在俄罗斯的可怕命运。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Google Images

我们在这里看到的是数据地图和时间序列的惊人组合,描绘了拿破仑在 1812 年俄罗斯战役中遭受的一系列损失。绘制了六个变量:军队的规模、在 2D 表面上的位置、军队移动的方向(棕色和黑色区域)以及从莫斯科撤退期间不同日期的温度。

在左侧,我们可以看到粗流线,代表入侵俄罗斯的大军规模(422,000 人)。这条线的宽度表示地图上每个地方和实例的军队规模。我们可以看到,当军队在 9 月到达莫斯科时,人数少得可怜,只有近 10 万人。

拿破仑撤退的路线通过黑线显示,黑线与图表底部的温标和日期相联系。在向俄罗斯进军的过程中,许多士兵冻死了,因此可以观察到黑线明显变细。

在黑线的尽头,我们可以看到一条分界线。这一部分描绘了贝雷兹纳河的交叉点。这是一场彻底的灾难,我们可以看到黑线是如何突然变细的。军队最终艰难地退回波兰,只剩下 10,000 人。

米纳德的图表通过其多元数据告诉我们一个丰富而连贯的故事,比一组数字或线条聊天显示军队规模随时间的趋势更具启发性。

关系图形

数据图形概念的诞生需要用更抽象的方法来代替地图的经纬度坐标。对于各种图表的出现和存在,它需要努力和时间,因为过渡是一个大动作。对物理世界的类比导致了早期时间序列的发展。在 Lambert 和 Playfair 的伟大作品的帮助下,物理类比在相当长的一段时间内推动了图形设计的想法。这意味着可以在任何变量与另一个变量之间建立关系,只要它们具有相同的测量单位。由于这一最新的认识和对这一思想的接受,数据图形,因为它们是有关系的,不依赖于地理或时间坐标,变得与所有的定量研究相关。

今天,许多发表的图形都是关系型的,从饼状图、线图、条形图、散点图(所有设计中最伟大的)等等。

例如,美国怀俄明州黄石国家公园老忠实间歇泉的喷发间隔时间和喷发持续时间。这张图表表明,通常有两种类型的爆发:短时间的爆发和长时间的爆发。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Wikipedia

在另一个例子中,我们有温度和铜的热导率之间的关系。该图表显示了从 4 K 到大约 300 K 的热导率和温度之间的关系。不同的曲线代表了不同等级的纯铜,通过剩余电阻率比率进行评级,其中 RRR =2000 为最高纯度。

我们观察到铜的热导率随着温度的降低而增加;我们还可以看到,从 300 K 到 200 K,热导率变化相对平缓,略有增加。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以总结一下,什么是图形化的优秀?在最短的时间和最小的空间内给观众带来最多、最大数量的想法。而且,还要求对数据说实话。

“至于用空间的一部分来表示金钱和时间的适当性和公正性,虽然大多数人都很容易同意,但似乎有少数人担心其中可能有一些他们没有意识到的欺骗……”
—威廉·普莱费尔,《商业与政治地图集》(1786)

区块链和分布式账本技术的区别

原文:https://towardsdatascience.com/the-difference-between-blockchains-distributed-ledger-technology-42715a0fa92?source=collection_archive---------3-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人们有时会互换使用“区块链”和“分布式账本”这两个术语。这篇文章旨在分析每一个的特点。

分布式账本技术

分布式分类帐是分布在几个节点或计算设备上的数据库。每个节点复制并保存一份相同的分类帐副本。网络的每个参与节点独立地更新自己。

分布式分类帐技术的突破性特征是分类帐不由任何中央机构维护。对分类帐的更新由每个节点独立构建和记录。然后,节点对这些更新进行投票,以确保大多数人同意得出的结论。这种对账本副本的投票和同意被称为共识,由共识算法自动进行。一旦达成共识,分布式分类帐将自我更新,并且最新的、达成一致的分类帐版本将分别保存在每个节点上。

分布式账本技术大大降低了信任成本。分布式总账的架构和结构可以帮助我们减轻对银行、政府、律师、公证人和监管合规官的依赖。R3 的 Corda 就是一个分布式分类账的例子。

分布式分类账为如何收集和交流信息提供了一种新的模式,并有望彻底改变个人、企业和政府的交易方式。

区块链技术

区块链是分布式账本技术的一种形式。并非所有的分布式分类帐都采用块链来提供安全有效的分布式共识。

区块链分布在对等网络中并由对等网络管理。因为它是分布式分类帐,所以它可以在没有中央机构或服务器管理的情况下存在,并且它的数据质量可以通过数据库复制和计算信任来维护。

然而,区块链的结构使其有别于其他类型的分布式分类账。区块链上的数据被分组在一起并组织成块。然后将这些块相互连接起来,并使用加密技术进行保护。

区块链本质上是一个不断增长的记录列表。它的仅追加结构只允许将数据添加到数据库中:不可能修改或删除先前块中先前输入的数据。因此,区块链技术非常适合记录事件、管理记录、处理交易、追踪资产和投票。

比特币等加密货币开创了区块链技术。比特币在 2017 年底的大反弹,以及随后的媒体狂热,将加密货币带入了主流公众的想象中。政府、企业、经济学家和热心人士现在正在考虑将区块链技术应用于其他用途的方法。

结论

每个区块链都是分布式账本,但不是每个分布式账本都是区块链。这些概念中的每一个都需要节点间的分散和一致。然而,区块链以块为单位组织数据,并使用仅附加结构更新条目。广义上的分布式分类账,特别是区块链,是管理信息方面的概念突破,预计将在每个经济部门得到应用。

接下来:了解区块链将如何革新数字身份

沙安雷

关注媒体上的 Lansaar Research ,了解最新的新兴技术和新的商业模式。

[## 沙恩·雷

来自 Shaan Ray 的最新推文(@ShaanRay)。创造新价值和探索新兴技术| ENTJ | #科学…

twitter.com](https://twitter.com/shaanray)

人工神经网络和生物神经网络的区别

原文:https://towardsdatascience.com/the-differences-between-artificial-and-biological-neural-networks-a8b46db828b7?source=collection_archive---------0-----------------------

虽然人工神经元和感知机是受科学家们在 50 年代能够观察到的大脑生物过程的启发,但它们在几个方面确实不同于生物学上的同类。鸟类启发了飞行,马启发了机车和汽车,然而今天的交通工具没有一个像活的、呼吸的、自我复制的动物的金属骨架。尽管如此,我们有限的机器在它们自己的领域里甚至比它们的动物“祖先”更强大(因此,对我们人类更有用)。通过拟人化深度神经网络,很容易从人工智能研究的可能性中得出错误的结论,但人工和生物神经元确实在更多方面有所不同,而不仅仅是它们容器的材料。

Airplanes are more useful to us than actual mechanical bird models.

历史背景

感知器(人工神经元的前身)背后的想法是,有可能使用简化的数学模型来模拟神经元的某些部分,如树突、细胞体和轴突,这些简化的数学模型限制了我们对其内部工作的了解:信号可以从树突接收,一旦接收到足够的信号,就发送到轴突。这个传出的信号可以作为其他神经元的另一个输入,重复这个过程。一些信号比其他信号更重要,可以更容易地触发一些神经元。连接可能变得更强或更弱,新的连接可能出现,而其他连接可能不复存在。我们可以通过提出一个函数来模拟这一过程,该函数接收一系列加权输入信号,如果这些加权输入的总和达到某个偏差,则输出某种信号。**请注意,这个简化的模型既不模仿神经元之间连接(树突或轴突)的创建,也不模仿连接的破坏,而且忽略了信号时序。**然而,这个受限模型本身就足以处理简单的分类任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A biological and an artificial neuron (via https://www.quora.com/What-is-the-differences-between-artificial-neural-network-computer-science-and-biological-neural-network)

感知机由弗兰克·罗森布拉特发明,最初是为了成为一个定制的机械硬件而不是软件功能。Mark 1 感知器是美国海军为图像识别任务制造的机器。

Researching “Artificial Brains”

想象一下可能性吧!一台可以用蒸汽朋克神经元一样的大脑模仿经验学习的机器?一台从它“看到”的例子中学习的机器,而不是戴眼镜的科学家必须给它一套硬编码的指令才能工作?炒作是真实的,人们是乐观的。由于它与生物神经元的相似性,以及感知器网络最初是多么有前途,纽约时报在 1958 年报道说“海军今天展示了电子计算机的胚胎,它预计将能够行走,说话,看,写,自我复制并意识到它的存在。”

然而,它的缺点很快被认识到,因为单独的一层感知器无法解决非线性分类问题(例如学习简单的 XOR 函数)。这个问题只能通过使用多层(隐藏层)来克服(数据中更复杂的关系只能建模)。然而,除了随机调整所有权重之外,没有一种简单、廉价的方法来训练多层感知机,因为没有办法判断哪一小组变化最终会在很大程度上影响其他神经元的输出。这一缺陷导致人工神经网络研究停滞多年。然后,一种新的人工神经元通过稍微改变其模型的某些方面来解决这个问题,这允许多个层的连接,而不会失去训练它们的能力。人工神经元不是作为只能接收和输出二进制信号的开关工作(这意味着感知机将根据信号的存在或不存在而获得 0 或 1,并且当达到组合的加权信号输入的某个阈值时,还将输出 0 或 1),而是利用具有连续激活函数的连续(浮点)值(稍后将详细介绍这些函数)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Activation functions for perceptrons (step function, that would either output 0 or 1 if the sum of weights was larger than the threshold) and for the first artificial neurons (sigmoid function, that always outputs values between 0 and 1).

这可能看起来没有太大的区别,但由于他们模型中的这一微小变化,人工神经元层可以在数学公式中作为独立的连续函数使用,其中可以计算一组可选的权重(通过逐个计算它们的偏导数来估计如何最小化它们的误差)。这个微小的变化使得使用反向传播算法来教授多层人工神经元成为可能。因此,与生物神经元不同,人工神经元不只是“发射”:它们发送连续值,而不是二进制信号。根据它们的激活功能,它们可能会一直发出信号,但这些信号的强度会有所不同。请注意,术语“多层感知器”实际上是不准确的,因为这些网络使用人工神经元层,而不是感知器层。然而,教授这些网络在计算上是如此昂贵,以至于人们很少使用它们来完成机器学习任务,直到最近(那时大量的示例数据更容易获得,计算机的速度快了许多倍)。由于人工神经网络很难教,而且不是我们头脑中真实想法的忠实模型大多数科学家仍然认为它们是机器学习的死胡同。当 2012 年一个深度神经网络架构 AlexNet 成功解决了 ImageNet 挑战(一个拥有超过 1400 万张手绘图像的大型视觉数据集)时,炒作又回来了,而不依赖于手工制作的、精细提取的特征,这是迄今为止计算机视觉的标准。AlexNet 击败了竞争对手,为神经网络再次发挥作用铺平了道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AlexNet correctly classifies images at the top, based on likelihood.

你可以阅读更多关于深度学习的历史,这里的。该领域发展如此之快,以至于研究人员不断提出新的解决方案来解决人工神经网络的某些限制和缺点。

主要区别

  1. 尺寸:我们的大脑包含大约 860 亿个神经元(T2)和超过 100 万亿个(或者根据一些估计是 1000 万亿个)突触(连接)。人工网络中的“神经元”数量比少得多(通常在 10-1000 左右),但以这种方式比较它们的数量会产生误导。感知器只是在其“树突”上接受输入,并在其“轴突分支”上产生输出。单层感知器网络由几个互不相连的感知器组成:它们只是同时执行完全相同的任务。深度神经网络通常由输入神经元(与数据中的特征数量一样多)、输出神经元(如果构建它们是为了解决分类问题,则与类的数量一样多)和隐藏层中的神经元组成。所有层通常(但不一定是)完全连接到下一层,这意味着人工神经元通常具有与前一层和后一层中的人工神经元总和一样多的连接。卷积神经网络还使用不同的技术从数据中提取特征,这些技术比几个相互连接的神经元单独能够做到的更复杂。手动特征提取(以可以馈入机器学习算法的方式改变数据)需要人脑的力量,这在对深度学习任务所需的“神经元”数量求和时也没有考虑在内。大小的限制不仅仅是计算上的:简单地增加层数和人工神经元的数量并不总是能在机器学习任务中产生更好的结果。
  2. ***拓扑:**所有人工层都是一个一个计算的,而不是一个节点异步计算的网络的一部分。前馈网络计算一层人工神经元的状态及其权重,然后使用结果以同样的方式计算下一层。在反向传播期间,该算法以相反的方式计算权重的一些变化,以减小输出层中前馈计算结果与输出层期望值的差异。**层不与非相邻层相连,*但是用循环和 LSTM 网络来模拟环路是可能的。在生物网络中,神经元可以并行异步放电,具有小世界性质,具有一小部分高度连接的神经元(中枢)和大量较低连接的神经元(程度分布至少部分遵循幂律)。由于人工神经元层通常是完全连接的,因此生物神经元的这种小世界性质只能通过引入 0 的权重来模拟两个神经元之间缺乏连接的情况。
  3. ***速度:**某些生物神经元平均每秒可以放电 200 次左右。根据神经冲动的类型,信号以不同的速度传播,从 0.61 米/秒到 119 米/秒。**信号传播速度也因人而异,取决于他们的性别、年龄、身高、温度、医疗状况、睡眠不足等。**动作电位频率携带生物神经元网络信息:生物系统中输出神经元的放电频率或放电模式(紧张或突发放电)以及输入神经元传入信号的幅度携带信息。**人工神经元中的信息转而由突触权重的连续浮点数值携带。*前馈或反向传播算法的计算速度除了加快模型的执行和训练速度之外,没有其他信息。人工神经网络没有不应期(由于钠通道被锁定,不可能发送另一个动作电位的时期),人工神经元不会经历“疲劳”:它们是可以在计算机架构允许的情况下尽可能快地计算多次的函数。由于人工神经网络模型可以被理解为只是一堆矩阵运算和寻找导数,因此运行这样的计算可以针对矢量处理器进行高度优化(反复对大量数据点进行完全相同的计算),并使用 GPU 或专用硬件(如最近智能手机中的 AI 芯片)进行大幅加速。
  4. ***容错:*生物神经元网络由于其拓扑结构也是容错的。信息以冗余方式存储,因此小故障不会导致内存丢失。他们没有一个“中心”部分。大脑也能在一定程度上恢复和愈合。人工神经网络不是为容错或自我再生而建模的(与疲劳类似,这些想法不适用于矩阵运算),尽管通过保存模型的当前状态(权重值)并从该保存状态继续训练可以恢复。辍学可以在训练期间打开和关闭一层中的随机神经元,模仿信号的不可用路径,并强制一些冗余(辍学实际上是用来减少过度拟合的机会)。经过训练的模型可以导出并在支持该框架的不同设备上使用,这意味着相同的人工神经网络模型将在其运行的每个设备上为相同的输入数据产生相同的输出。长时间训练人工神经网络不会影响人工神经元的效率。然而,如果经常使用,用于训练的硬件会很快磨损,需要更换。另一个区别是,所有的过程(状态和值)都可以在人工神经网络中被密切监控。
  5. 功耗:大脑消耗大约 20%的人体能量——尽管它很大,但一个成年人的大脑在大约 20 瓦(仅够微弱地点亮一个灯泡)的功率下工作,效率极高。考虑到人类如何还能运转一段时间,当只给了一些富含 c-维生素的柠檬汁和牛油时,这就相当了不起了。基准测试:一个单独的 Nvidia GeForce Titan X GPU 运行在 250 瓦上,需要一个电源而不是牛油。我们的机器远不如生物系统有效。计算机在使用时也会产生大量热量,消费类 GPU 在 50–80 摄氏度之间安全运行,而不是 36.5–37.5 摄氏度。
  6. 信号:动作电位要么被触发,要么不被触发——生物突触要么携带信号,要么不携带。感知器的工作方式有些类似,它接受二进制输入,对其应用权重,并根据这些加权输入的总和是否达到某个阈值(也称为阶跃函数)来生成二进制输出。人工神经元接受连续值作为输入,并对其加权输入之和应用简单的非线性、易微分函数(激活函数),以限制输出值的范围。激活函数是非线性的,所以理论上多层可以近似任何函数以前,sigmoid 和双曲线正切函数被用作激活函数,但是这些网络受到消失梯度问题的困扰,这意味着网络中的层数越多,第一层的变化对输出的影响就越小,因为这些函数将其输入压缩到非常小的输出范围内。这些问题通过引入不同的激活功能得以解决,例如 ReLU 。这些网络的最终输出通常也压缩在 0-1(代表分类任务的概率)之间,而不是输出二进制信号。如前所述,信号的频率/速度和发射率都不携带人工神经网络的任何信息(该信息由输入权重携带)。信号的时序是同步的,同一层的人工神经元接收它们的输入信号,然后一次性发送它们的输出信号。循环和时间增量只能用循环(RNN)层(其深受上述消失梯度问题的困扰)或长短期记忆(LSTM)层来部分模拟,其作用更像状态机或锁存电路而不是神经元。这些都是生物神经元和人工神经元之间相当大的差异。
  7. *学习:我们仍然不明白大脑是如何学习的,或者冗余连接是如何存储和回忆信息的。大脑纤维生长并伸出与其他神经元连接,神经可塑性允许创建新的连接或区域移动并改变功能,突触可能根据其重要性加强或削弱。一起放电的神经元,连接在一起(尽管这是一个非常简化的理论,不应该过于拘泥于字面意思)。通过学习,我们建立在已经储存在大脑中的信息之上。我们的知识通过重复和睡眠加深,一旦掌握,曾经需要集中注意力的任务可以自动执行。**另一方面,人工神经网络有一个预定义的模型,不能添加或删除更多的神经元或连接。*在训练期间,只有连接的权重(以及代表阈值的偏差)可以改变。网络以随机的权重值开始,并且将慢慢地尝试达到一个点,在该点,权重的进一步改变将不再提高性能。就像现实生活中同样的问题有许多解决方案一样,不能保证网络的权重将是某个问题的最佳权重安排,它们将只代表无限个解决方案的无限个近似中的一个。学习可以被理解为寻找最优权重以最小化网络预期输出和生成输出之间的差异的过程:以一种方式改变权重会增加这种误差,以另一种方式改变它们会使其恶化。想象一个雾蒙蒙的山顶,在那里我们所能告诉的就是朝着某个方向迈步会把我们带到下坡。通过重复这一过程,我们最终会到达一个山谷,在那里再往前走一步只会让我们更高。一旦找到这个山谷,我们就可以说我们已经到达了一个局部极小值。请注意,可能有其他更好的山谷,甚至比山顶更低(全局最小值),我们已经错过了,因为我们看不到它们。在通常超过 3 维的空间中这样做被称为梯度下降。为了加速这个“学习过程”,从数据集中抽取随机样本(批次)并用于训练迭代,而不是每次都遍历每个示例。这只给出了如何调整权重以达到局部最小值的近似值(找到下坡的方向,而不用一直仔细查看所有方向),但这仍然是一个相当好的近似值。我们也可以在登顶时迈大一点的步子,在到达山谷时迈小一点的步子,在那里,即使很小的推搡也会带我们走错路。像这样走下坡路,走得比精心规划的每一步都要快,这叫随机梯度下降。因此,人工神经网络的学习速度会随着时间而变化(它会降低以确保更好的性能),但没有任何类似于人类睡眠阶段的时期,网络会学习得更好。也没有神经疲劳,尽管训练期间 GPU 过热会降低性能。一旦经过训练,人工神经网络的权重可以导出,并用于解决与训练集中发现的问题类似的问题。训练(使用类似随机梯度下降的优化方法的反向传播,在许多层和例子上)极其昂贵,但是使用经过训练的网络(简单地进行前馈计算)便宜得离谱。与大脑不同,人工神经网络不会通过回忆信息来学习 —它们只会在训练期间学习,但事后会一直“回忆”相同的、学习过的答案,不会出错。最棒的一点是,“回忆”可以在更弱的硬件上进行,次数不限。还可以使用之前预训练的模型(因为不必从完全随机的一组权重开始,所以可以节省时间和资源),并通过使用具有相同输入特征的其他示例进行训练来改进它们。这有点类似于大脑如何更容易地学习某些东西(如面孔),因为大脑有专门的区域来处理某些类型的信息。

因此,人工神经元和生物神经元确实在更多方面不同于它们环境的材料——生物神经元只为它们的人工对应物提供了灵感,但它们绝不是具有相似潜力的直接副本。如果有人说另一个人聪明或聪明,我们会自然而然地认为他们也有能力处理各种各样的问题,而且很可能礼貌、善良、勤奋。称一个软件智能仅仅意味着它能够找到一组问题的最佳解决方案。

AI 做不到的

人工智能现在几乎可以在每个领域击败人类:

  1. 足够多的训练数据和示例都可以通过数字方式获得,工程师可以清楚地将数据中的信息转化为数值(特征),而不会产生太多歧义。
  2. 这些例子的解决方案要么是清楚的(有大量的标签数据可用),要么是有可能清楚地定义优选的状态,应该实现的长期目标(例如,有可能将进化算法的目标定义为能够走尽可能远的距离,因为其进化的目标可以很容易地在距离上测量)。

这听起来很可怕,但我们仍然完全不知道一般智力是如何工作的,这意味着我们不知道人脑如何能够通过将知识从一个区域转移到另一个区域而在各种不同的区域如此高效。AlphaGo 现在可以在围棋比赛中击败任何人,但你最有可能在井字游戏中击败它,因为它对自己领域之外的游戏没有概念。一只狩猎采集的猴子如何想出利用它的大脑不仅仅是寻找和培育食物,而是建立一个社会来支持那些不是把生命献给农业,而是一生都在玩桌面围棋的人,尽管他们的大脑中没有专门的围棋神经网络区域,这本身就是一个奇迹。类似于重型机械如何在许多领域取代了人类的力量,仅仅因为起重机能比任何人手更好地举起重物,他们中没有人能精确地放置较小的物体或同时弹钢琴。人类很像自我复制、节能的瑞士军刀,即使在恶劣的条件下也能生存和工作。

机器学习可以比人类更有效地将输入特征映射到输出(特别是在数据仅以我们无法理解的形式可用的领域:我们不会将图像视为一串代表颜色值和边缘的数字,然而机器学习模型从这样的表示中学习没有问题)。然而,他们无法自动发现和理解额外的特征(可能很重要的属性),并基于它们快速更新他们的世界模型(公平地说,我们也无法理解我们无法感知的特征:例如,无论我们阅读多少关于它们的知识,我们都无法看到紫外线)。如果直到今天,你在生活中只见过狗,但有人向你指出,你现在看到的狼不是狗,而是它们未经驯化的野生祖先,你会很快意识到有类似狗的生物,你可能已经看到狗可能是狼而没有意识到,其他宠物也可能有类似的未经驯化的祖先。从现在开始,你很有可能能够区分这两个物种,而不必再看一眼你迄今为止在生活中见过的所有狗,也不需要几百张狼的照片,最好是它们在不同光照条件下从每个角度每个位置拍摄的照片。你也可以毫不犹豫地相信,一幅模糊的狼的卡通图画在某种程度上仍然是一只狼的代表,它具有现实生活中动物的一些特性,同时也具有真正的狼所没有的拟人化的特征。如果有人把你介绍给一个叫沃尔夫的人,你也不会感到困惑。人工智能无法做到这一点(尽管人工神经网络不必那么依赖手工制作的特征,不像大多数其他类型的机器学习算法)。机器学习模型,包括深度学习模型,学习数据表示中的关系。这也意味着如果表示模糊不清并且依赖于上下文,即使最准确的模型也会失败,因为它们会输出只在不同情况下有效的结果(例如,如果某些推文同时被标记为悲伤和有趣,情感分析将很难区分它们,更不用说理解讽刺了)。人类是进化来面对未知挑战的生物,以改善他们对世界的看法,并建立在以前的经验基础上——而不仅仅是解决分类或回归问题的大脑。但是我们如何做到这一切仍然是我们无法理解的。然而,如果我们要造一台像人类一样智能的机器,它会自动比我们更好,这是因为硅树脂在速度上的绝对优势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The reason adversarial attacks can trick neural networks is because they do not “see” the same way we do. They do learn relationships in image data and can come to similar conclusions as we do when classifying, but their internal models are different from ours.

尽管人工智能受到我们自身的启发,但该领域的进步反过来帮助生物学家和心理学家更好地理解智能和进化。例如,在对智能体建模时,某些学习策略的局限性变得很明显(比如进化一定比随机突变更复杂)。科学家们过去认为,大脑具有超专业的视觉神经元,这些神经元变得越来越复杂,能够检测更复杂的形状和物体。然而,现在很清楚,通过让其他类似的神经元学习不太复杂的形式和属性,以及通过检测这些较低水平的表示是否在发出信号,相同类型的人工神经元能够学习复杂的形状。

*即使机器学习可以在某些领域解决问题并击败人类,也不意味着这些算法表现得像人类一样,在其他领域也一样能干。鉴于足够多的神经元和层可以堆叠在一起,说人工神经元将成为始终有效的积木是一个神话:更大的网络不一定工作得更好,模型能够学习的任何东西都取决于其输入和输出数据。不同的激活函数、神经元类型、模型、退出率和优化技术更适合不同的任务——找出哪些解决方案最有效仍然是数据科学家的工作,类似于收集、清理和重新编码数据为有用的特征。**让任何机器智能化都需要大量的人类智能,尽管媒体头条很少报道这一事实。*无论如何,如果有人向你提供他们新成立的公司的股份,这家公司专门将人类的意识上传到云端,希望获得永生,最好还是友好地拒绝他们的提议,至少现在是这样。

数据生态系统中的不同角色

原文:https://towardsdatascience.com/the-different-roles-in-the-data-ecosystem-fc575b8db467?source=collection_archive---------4-----------------------

我经常被问到一些问题,并在网上看到关于不同数据相关职位之间差异的困惑。因此,我决定写一份简短的指南,介绍不同职位所需的角色和技能。

位置

数据工程师(类似于大数据软件工程师)

典型教育:文学士/理学士

常用工具:Spark,Flink,Hadoop,NoSQL

语言:Java,Scala,Python

受雇地点:超大型公司、中型科技公司和初创公司。

必备技能:分布式系统(重要)、数据结构/算法(非常重要)、数据库(重要)、编程(非常重要)

数据工程师或大数据软件工程师通常负责设置、开发和监控组织的数据基础架构。他们还整合或生产由数据科学家设计的模型。更具体地说,数据工程师设置管道,允许数据科学家轻松地试验数据,并为服务创建生产管道。例如,数据工程师可能会建立一个数据湖和一个 Spark 集群,数据科学家可以从中提取数据并提交数据作业。然后,如果数据科学团队创建了一个新模型,数据工程团队将对其进行优化,并与工程团队一起将其部署到生产中。

数据科学家

典型教育硕士或博士

常用工具:Scikit-learn、Pandas、Numpy、XGBoost

语言:SQL、R、Python

他们受雇于哪里:大中型组织和科技创业公司

技能:统计学(重要)、数据库(有点重要)、编程(重要)、线性代数(有点重要)、商业知识(有点重要)、分布式系统(有点重要)、特征提取、数据可视化

数据科学家的定义在不同的组织中会有很大的不同。在某些地方,数据科学家更接近于数据工程师,而在其他地方,他们更接近于研究科学家。一般来说,数据科学家试图回答业务问题,并提供可能的解决方案。数据科学家通常从一个模糊的问题开始,如“我们如何增加用户保留率”,找出他们需要什么数据/如何收集数据,分析数据,然后提出解决方案。数据科学家经常在他们的解决方案中使用机器学习技术。例如,为了留住用户数据,科学家可能会建立一个模型来预测哪些用户最有可能离开网站。然后,使用这些预测来锁定可能会离开的用户,并吸引他们留下来。

与研究科学家不同,他们通常不专注于预测建模的任何一个领域,而是会使用任何最适合这项工作的工具,无论是树、深度学习还是简单的回归。

数据分析师

常用工具:Excel、Access、Tableau

语言:SQL,VBA

必备技能:基本 SQL/数据库知识,基本编程,微软产品。

他们受雇于哪里:各行各业各种规模的组织

数据分析师的工作目标类似于数据科学家,但是他们的工作范围和工具通常更有限。数据分析师通常为特定问题生成基本报告/可视化,并呈现这些数据。他们通常不做太多的预测建模或详细的统计。

研究科学家

典型教育:博士

常用工具:Caffe,Torch,Tensorflow,numpy

语言:MATLAB,Python

技能/知识:线性代数/微积分(非常重要),统计学(重要),编程(有点重要)。

他们受雇的地方:大型科技公司和数据/ml 创业公司

研究科学家通常专注于特定领域,如 NLP 或 CV。顾名思义,他们最关心的是研究和出版。他们主要致力于在他们的领域内发现新的新颖方法并发表结果。虽然他们有时会解决商业问题,但他们的首要任务是在他们的专业领域进行研究。

研究工程师

典型教育:理学学士/理学硕士

语言:C,C++,Python,CUDA

eSkills/知识:编程(非常重要),

他们被雇佣的地方:非常大的科技公司,专业的数据创业公司

研究工程师之于研究科学家,正如数据工程师之于数据科学家。研究工程师倾向于通过实现和测试研究科学家开发的算法来支持研究科学家的实现。他们通常用 C 或 C++编写代码,以创建优化的计算平台和 M.L .算法的实现。它们通常只出现在像谷歌和脸书这样的大公司。

远程机器学习工作的困难

原文:https://towardsdatascience.com/the-difficulties-of-remote-machine-learning-work-cff2155ff5b6?source=collection_archive---------14-----------------------

远程 我们庆祝远程工作及其所有优势。事实证明,远程工作可以提高你的幸福感和工作效率,但这并不全是好事。以上是远程机器学习工作的一些难点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个故事最早出现在RemoteML.com上。

公司文化与孤独

上班族都知道:来办公室不仅仅是为了工作。在健康的环境中,好的团队形成公司文化。内部笑话,关于你的周末和友谊的聊天大多发生在休息室。

当你远程工作时,你没有休息室可去,也没有可以聊天的座位伙伴。显然有 Slack 这样的团队聊天,但在那里发起一个随意的对话要困难得多。

那么你能做些什么呢?雇主可以通过引入视频聊天的虚拟休息室来解决这个问题,远程自由职业者可以尝试成为社区的一部分。提示:机器学习聊天就是其中之一。

工作过度

在谈到远程工作时,人们经常开玩笑地问我:‘哦,那你工作多少钱?’?你工作吗?“大概两个小时吧,”。大多数情况下,远程工作的问题不是工作太少,而是工作太多。

在办公室,你有一个结束一天工作的物理原因:你必须在某个时候出门,吃晚饭,没有义务——在某些情况下甚至没有办法——在家工作。当你的办公室在你自己的公寓里,你没有理由不工作。你在家,你没有什么事可做,所以不妨工作对吗?试着通过身体上限制自己工作来解决这个问题,例如把你的工作和个人笔记本分开,或者有一个专门的房间作为办公室。

生产力

这个难度属于同一个空间,只是有点不同。有时候,如果你工作了一整天,那可能是因为这一天你没有什么可以炫耀的。谁知道呢:也许是一台电脑出了一些问题,也许是你没有及时得到数据,也许是你今天只想看一些论文。

在实体办公室里,你会看到人们在办公桌前投入时间。即使你没有任何东西可以展示,你也在场。如果你很遥远,这种感觉很快就消失了。你的老板可能会这么想,但是很有可能这些天你会觉得很没效率。最后,如果你什么都没展示出来,就没有证据证明你真的工作了,对吗?

这个问题的解决方案就是走出“在场=生产力”的思维定势,因为这根本不是真的。如果你投入了工作,你应该自我感觉良好,即使你自己并不这么认为。

拉丁语和雷鬼音乐的传播

原文:https://towardsdatascience.com/the-diffusion-of-latin-and-reggaeton-69113f9929dd?source=collection_archive---------11-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ozuna — 18 million monthly listeners on Spotify

公平地说,我们很多人都在跟着当今最流行的拉丁和雷鬼音乐一起唱歌,却不一定理解我们在说什么或听到什么。直到今天早上我咨询了天才,我才熟悉了《美国佬老爹》的一些歌词的含义,同时我已经喃喃自语了几个星期了。像尼基·杰姆的《X》和《T4》美国佬老爹的《杜拉》 这样的热门歌曲在国外积累了数百万的流量。更不用说他们在整个欧洲都达到了很高的排行榜位置。

在这个流媒体时代,拉丁流行音乐和雷鬼音乐似乎比以前更容易到达我们这里。有了像 Viva Latino白腊瑞格顿这样的大规模国际播放列表(分别有 800 多万和 700 多万追随者)和以拉丁曲目为特色的主流流行播放列表,潜在的全球听众变得巨大——导致消费者经常接触到拉丁音乐。

知道拉丁音乐能够接触到数量惊人的 Spotify 听众,我想知道我们是否能弄清楚拉丁音乐是如何在欧洲接触到我们的,以及这是否因国家或艺术家而异。

数据集

  • 该数据集包含从 2017 年 1 月到 2018 年 5 月 20 日的所有 Spotify 每日图表,通过 spotifycharts.com 收集。相当于 502 天。
  • 通过查看 Spotify 上最大的两个拉丁播放列表(Viva Latino 和白腊瑞格顿)及其特色音乐,我能够检索到拉丁音乐的最大供应商拉丁音乐国家,这些音乐符合 Spotify 的播放列表(通过 Chartmetric 完成)。最大的供应商是波多黎各、哥伦比亚、多米尼加共和国、墨西哥、巴西和委内瑞拉。我决定将这些国家作为拉美地区与欧洲进行比较的基准。不幸的是,波多黎各和委内瑞拉没有自己的 Spotify 每日排行榜。

每个拉美国家排名前三的艺术家

在我们开始与欧洲进行比较之前,我想先从更好地了解拉丁音乐的“家”开始。根据进入 Spotify 前 50 名排行榜的不同曲目的数量,下面的可视化显示了每个国家的前三名艺术家。 奥祖纳 设法让最多的曲目进入前 50。他唯一没有排名第一的国家是巴西,在那里我们看到了与其他拉美国家截然不同的前三名。在大多数国家,J·巴尔文和马鲁玛的排名也很高

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Top 3 artists based on amount of distinct tracks

与欧洲的相似之处

考虑到 LatAm 基准,我想知道与欧洲国家有什么相似之处。我们可以通过查看 Spotify 在拉美地区和欧洲的前 200 名中出现的歌曲来做到这一点。从那里我们可以计算出 LatAm 基准中所有独特曲目的相似度。我还想知道每月是否会有差异,因为拉丁音乐经常与夏天联系在一起。

下面的可视化显示了从 2017 年 1 月到 2018 年 4 月每月与 LatAm(欧盟国家的平均值)的相似性。所有被考虑的月份的平均相似度百分比为 23% ,这意味着 Spotify 在墨西哥、哥伦比亚、巴西和多米尼加共和国的前 200 首歌曲中有 23%也进入了欧洲排行榜。值得一提的是,2017 年 3 月的峰值主要是由艾德·希兰的专辑发行引起的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Average resemblance with LatAm benchmark per month

就像我之前的一篇文章中的图表与美国的比较一样,很可能有些国家比其他国家更像 LatAm。大概不会太显著;西班牙(平均 30%) 和葡萄牙(平均。29%) 在相似度方面得分最高。法国(平均。17%) 和丹麦(平均。19%) 相似度得分最低。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

% of LatAm resemblance per month and country

拉丁图表条目

知道了这一点,我想知道有多少拉丁歌曲进入了欧洲排行榜。为了将拉丁流派从其余的图表条目中分离出来,我根据 Spotify 播放列表中包含的最大拉丁艺术家的数据集放置了一个过滤器。

毫不奇怪,西班牙得分最高,有 264 首不同的拉丁歌曲进入 Spotify 前 200 名,其次是葡萄牙,有 90 首拉丁歌曲进入排行榜。荷兰在(更明智的)前三名之后率先赶上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Amount of Latin tracks in European charts

当看拉丁曲目时,西班牙自然是一个倾向于提前参加派对的国家。我想知道哪些国家也很快接受了拉丁曲目,所以我选择了一些最热门的拉丁曲目,并计算了该曲目达到欧洲国家与拉丁基准所需的时间。

爸爸美国佬的《T1》杜拉是目前最热门的歌曲之一,仅在 Spotify 上就有超过 2 . 5 亿的播放量。下图显示了杜拉袭击一个特定的欧洲国家所需要的时间。正如你所看到的,西班牙和葡萄牙立即采用了这条赛道,随后是意大利(7 天后)和荷兰(18 天后)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Daddy Yankee — Dura

那么另一部夏季热门电影呢,尼基·杰姆的《X》(T11)?我做了同样的计算,结果是欧洲采用 X 比采用“Dura”更快。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Nicky Jam — X

J . Balvin 的巨大成功《米根特》也显示在下面,平均花了三天时间才到达排行榜。当我们看到 Maluma 的(我个人最喜欢的)“felicies Los 4”时,我们看到的采用率略有下降,在欧洲,平均需要 14 天才能到达我们这里。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Maluma — Felices Los 4 & J Balvin — Mi Gente

平均一下所有穿越海洋的音乐,我们可以得出这样的结论:拉丁音乐到达欧洲需要 3 天。然而,当我们排除两个欧洲领先者(西班牙和葡萄牙)时,平均时间立即减少到 9 天。

最后,对于所有那些跟着洋基老爹的“杜拉”唱歌的人,你们实际上是在唱歌;

你很性感,告诉我,告诉我,你是怎么做到的?

你很性感,我给你满分 20 分

你很热,很热,很热

放弃

  • 由于过滤器被放置在具有已经被包括在大型拉丁主题播放列表中的拉丁艺术家的数据集上,所以一些较小的拉丁艺术家可能被排除。然而,鉴于这些播放列表包含了最大和最有潜力的艺术家,我很有信心他们中的大多数应该被包括在内。
  • 这一比较是基于 Spotify 200 强排行榜进行的。查看前 100 名或前 50 名时,结果可能会有所不同。
  • 这只是涵盖了 Spotify 平台的图表部分,不应被视为 Spotify 图表范围之外的收听行为的整体表现

感谢阅读!如果你喜欢读这篇文章👏🏻很感激。

在这里找到更多我写的关于音乐的故事。

图表制作的注意事项

原文:https://towardsdatascience.com/the-dos-and-don-ts-of-chart-making-13c629456027?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当涉及到向你的观众传达信息时,图表是一种简单而有效的方式。也就是说,如果图表制作正确的话。

制作完美的视觉内容需要投入大量的精力,很容易遗漏一些元素。匆忙拼凑的图表往往弊大于利。

为了帮助您避免这种情况,我们整理了一个有用的注意事项列表,以便您在创建自己的数据表示时牢记在心,无论是简单的条形图和图形形式,还是更复杂的交互式可视化形式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

相关:你永远不想犯的 11 个常见信息图表错误

图表类型

准备图形时,选择最适合数据的图表很重要。

对你的数据使用合适的图表。了解你的基本图表以及它们最擅长什么,这样你就可以为你的观众创造最有效的图形。三种最流行的图表是条形图、饼图和折线图。同时有定性和定量两类数据,每一类数据又可以分为两个子类型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Combine text and icons just like this using Visme

第一种信息是定性数据,由序数数据和名义数据组成。第一个是指专门为其数据组制作的标尺。这种数据经常出现在问卷中,当人们被要求按照从差到好的等级(通常表示为一到五)对不同方面进行评级时。同时,名义数据没有被排序或测量,而是被分类。名义数据的一个例子是一个人的性别或眼睛颜色的记录。

第二种信息,定量数据,包括离散或连续的数据。离散数据是用整数来度量的,整数代表一个整体,例如一个家庭中的人数。连续数据不是表示单个数据点,而是表示值可能不同但仍属于同一标签的测量值,如人的体重或身高记录。

每种类型的数据都可以用各种流行的图表来表示,尽管某些类型的图表更适合不同类型的数据。

条形图在用于名义数据和离散数据时效果最佳,并有助于比较。同样,饼图可用于离散和有序数据,以显示整体的一部分。折线图最适合连续数据,因为它连接了许多属于同一类别的变量。

当使用 x(水平)和 y(垂直)轴图表时,尤其是条形图,使用全轴。从零开始绘制图表可以避免图表中的数据产生误导,从而被受众误解。例如,从零开始的条形图有夸大比较数据之间差异的风险。

图片:http://blog . visme . co/WP-content/uploads/2016/08/intervals . png

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从零开始你的 Y 轴,以避免误导和扭曲的数据可视化。

在某些线图的情况下,发现一个例外总是从零开始轴。当数据在一个远远大于零的量上变化很小时,就很难读取。在这种情况下,从更接近数据的数量开始基线可以揭示变化。只是要小心,不要让的数据碰到底部轴。在最低数据点和轴之间留出一个清晰的空白。

此外,在进行比较时,不要 改变图形的样式。例如,条形图和饼图都是可以显示离散数据的样式。然而,当这些风格放在一起时,很难对两者进行比较。这可能会让你的听众感到不舒服,让他们很难理解你的信息。相反,保持你的风格一致。当比较多个图表中的相同数据时,选择一种样式或类型并保持不变。

可读性

一旦你选择了最适合你的信息的图表类型,注意让你的图表易于理解。图表,以及任何视觉辅助,应该让你快速、简单、轻松地理解你的数据。

保持你的图表简单。统计学家爱德华·塔夫特说,“图形的优雅通常存在于设计的简单和数据的复杂中。”一种在不减少数据的情况下简化图表的方法是通过 Tufte 的数据墨水比率。删除边框、网格线甚至图例中的多余墨迹,以简化图表的整体外观。例如,不用图例和 y 轴,直接用类别和数量来标记数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过消除不必要的网格线、轴值和图例来提高图形的可读性。

为了增加具有长名称的多个类别的条形图的可读性, do 使用水平条形图并按降序从最大到最小排列数据。这可以防止你的读者伸长脖子去阅读长标签,也可以清楚地定义你所有数据之间的关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当处理具有长名称的多个类别时,使用水平图形来提高可读性。

注意不要让图表上的信息过多。二十行,虽然显示了广泛的数据,但很难阅读,需要时间让你的观众理解,当他们真正应该看一眼就明白的时候。

此外,为了最大程度的方便和可读性,不要使用饼状图。在统计学家中,饼状图通常包含有问题的数据,很难解释。如果饼状图是你的最佳选择,不要使用超过七个楔形 T21,否则你将很难辨别数据中的差异。

颜色

将您的信息添加到您选择的图表中后,是时候确保强调您希望受众注意到的数据了。有了一些特定的颜色选择,很容易让你的信息脱颖而出,或者让它迷失在人群中。

确保你使用强烈的颜色对比。最简单的色彩对比就是黑白。在白色背景上添加高度饱和的颜色,如蓝色,将真正使您的数据流行。然而,并不是所有的颜色都能很好地搭配,所以要小心。例如,白色上的黄色和黑色上的海军蓝分别很难看到。

通过颜色强调你最重要的数据。例如,在线图中,将有价值的线涂成彩色,而不太重要的信息涂成灰色。在条形图中,使最大数量成为最亮的颜色,随后每个类别的饱和度越来越低。像这样的选择真的可以把注意力吸引到你想要的地方。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

坚持使用几种颜色,用对比突出重要信息。

不要一起使用超过六种颜色。太多的颜色意味着相似的色调会出现,像蓝色和绿色,这可能很难区分。此外,颜色越浅,越难看到。太多的颜色就像有太多的数据。令人困惑和分心。

另外,不要用红色和绿色或者橙色和绿色在同一个图表上做比较。大约 10%的男性是色盲,红色/绿色是最常见的色盲。橙色接近红色,使这些颜色完全无法分辨。为了使您的图表更容易被读者理解,请不惜一切代价避免使用这些颜色组合。

特殊效果

选择好图表、数据可读并选择好颜色后,是时候润色图表了。添加一些收尾工作的简单方法是在图表中添加特殊效果。无论是动画还是文字效果,都可以真正增加你的视觉内容。然而,如果做得不好,结果可能达不到预期。

在处理特效时,使用简单动画。一点点的移动会抓住你的观众的注意力,把他们吸引到你的图表上。在图表介绍给观众后,快速简单的动画(如擦拭动作)也是揭示相关数据的好方法。

保持动画图表简单。使用 motion 将注意力吸引到数据中的特定值和趋势。

尽管特效会对你的图表产生负面影响,所以不要过度。图表上的每一条新信息都有大的动画会分散你对信息的注意力,反而会把注意力吸引到跳动的文本和旋转的条形图上。经常在饼图上使用的分离效果也进一步降低了它们的可读性。

****也不要使用 3D 效果,尤其是在条形图中。通过使条形看起来像立方体,顶部变得模糊不清,很难辨别数据顶部真正的终点。是立方体的正面还是背面?通过完全远离 3D 效果来避免观众的困惑。

收尾

当你完成你的图表时,再看一遍以检查你可能遗漏的错误是很重要的。这个反思点是一个很好的机会来确保你只做了该做的而避免了所有不该做的**。纵观全局,你就能发现哪些小部分不太合适。你的所有元素一起工作吗?你的数据可读吗?有没有什么东西把你的注意力从你想要的地方引开了?**

****做斜视测试确保你的图表整体有效。看着你的图表,眯眼直到所有的文字和数字都模糊了。你还明白你的图表的目的吗?例如,你能根据颜色和数量判断出一个条形图正在比较不同的单位吗?或者你能看到你的折线图的起伏变化吗?如果没有,确定什么正在丢失,并回头强调它。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

进行斜视测试,看看你的图表是否能被毫不费力地解读。

一旦你觉得一切都是理所应当的,就去问别人的意见。同事和朋友可以从你可能错过的新角度提供见解。确保你的图表在第一次看到它的观众面前有效的最好方法是把它展示给一个从未看过它的人。

无论你做什么样的修改,确保你在做最后的编辑时不要牺牲重要的数据。只要它有助于你的图表的总体目标,保持它。如果它不是你最有价值的信息,而且你觉得它把你的注意力从你想要的地方引开了,考虑把它的颜色弄暗一点,甚至是灰色。这将把它推到后台,让你的真实数据闪闪发光。****

简而言之,制作图表时要记住的注意事项有:

待办事项:

  • 使用适当的图表,包括水平条形图
  • 使用全轴
  • 保持简单,尤其是动画,并确保有斜视测试
  • 使用颜色来对比和突出显示数据
  • 征求别人的意见

不要:

  • 在比较过程中更改图表样式
  • 用不重要的数据、超过六种颜色或太多动画使图表超载
  • 使用饼图,尤其是有七个以上扇区的饼图
  • 使用相似颜色的组合(红色/橙色和绿色,蓝色和绿色)
  • 牺牲重要数据

本帖 原版 最早出现在 Visme 的视觉学习中心

数据是业务转型的驱动力

原文:https://towardsdatascience.com/the-drivers-of-ai-business-transformation-941c5c4bc685?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Headway on Unsplash

在数字化转型的时代,人工智能将改变所有类型的组织,从驾驶汽车(计算机视觉技术)开始,然后是制造业(吴恩达刚刚宣布他的新公司利用人工智能改变制造业)。随着数据科学作为现代组织的核心战略的使用,这种变化将使新的创新业务模式和新的项目管理方法成为可能。

我想在这篇文章中展示这种新的数字化转型的一些主要驱动力,以及对商业模式、社会和就业的潜在影响。在数据驱动的管理决策为组织提供动力的背景下,面对新的敏捷方法,旧的方法(高度官僚化、严格的范围和时间表)变得过时,组织应该尽快适应这种工资,而不失去他们的身份。

1。以客户为中心的生产计划。

数字化转型的主轴是将核心业务战略的重要性转移到客户,而不再是产品、能力或市场。商业应该以客户为中心,这是亚马逊在如此不同的领域取得成功的主要理念。

以客户为中心意味着产品是按需的、可定制的、可连接的和可共享的。为了实现这一点,客户应该被视为价值创造者。公司正在认识到,每个客户都是大客户网络的一部分,而不是一个孤立的实体。新组织的目标是更接近客户的期望并预测他们,这可以通过在社交网络或应用程序中保持实时互动来实现,实体可以在社交网络或应用程序中研究客户的行为。

该客户网络需要持续访问产品,这意味着全渠道体验(即从桌面、餐桌、移动设备、物联网无缝迁移),这意味着数据在云中,可从每个设备访问,并且服务可以按需提供。客户应该参与公司,例如公司使用产品演示或讲故事让客户觉得他总是在做正确的选择。

顾客也应该能够定制他想要的产品。推荐引擎对于给顾客提供他想要什么的建议是非常有用的。个性化的界面、信息和内容将使经典品牌和新兴品牌有所不同。因此,接触、参与和定制是使客户与公司建立联系的必要条件。有几个策略可以创造与客户的融洽关系:社交倾听、社交客户服务、向网络寻求想法和内容,甚至是主持一个社区(例如,IOS 或 Androids 开发者)

让客户成为公司成功之旅的一部分的最后一步,是让他协作开发他想要的产品。从被动贡献转向主动贡献,例如通过开放合作平台、众筹或竞争。

例如,大多数金融机构开始了推动内部生产力的数字化之旅,主要关注提高效率和降低成本。然而,这没有考虑到日益复杂的客户对丰富、直观或超个性化客户体验的期望。该机构需要改造其前端和后端系统,为客户提供丰富的选择和巨大的价值,并在近乎实时的环境中安全交付。

2。平台:赢家通吃。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Going Digital, the banking transformation roadmap

平台商业模式的兴起是因为它是一种通过直接互动创造价值的方式。由于广泛的迭代,它接触到不同类型的客户:网络中有给予者和接受者(例如卖家和买家)。在这些平台上,网络效应会产生更大的反响,而且很容易升级。他们也有附带的好处,如按需流程以及速度和信任的产生(见区块链)。

一个地方有所有的服务,不需要中介。一个主要的配送中心可以在竞争中领先,甚至在不同的竞争者之间合作(竞合)。此外,随着传统市场边界的扭曲,不对称的竞争对手出现了,例如在线书商(亚马逊)成为 IBM 等传统 IT 公司的竞争对手,或者谷歌等搜索引擎在网络服务领域的竞争对手。

但这种新业务的主要后果可以在“赢者通吃”中重现。由于轻资产、易于升级、经济高效和梅特卡夫定律。赢家平台可能是市场的帕累托头:通过降低边际成本,数字化增加了积极的规模经济,有利于集中生产。集中生产意味着市场落入少数人手中,导致少数人主导的寡头垄断甚至垄断结构。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

source: Klockner presentation of digital transformation This is an example of a company that reinvents itself from a linear supply chain steel manufacturing to a digital platform of metal distribution

这导致了所谓的“超级明星”经济。这些经济体的特点是就业减少,资本资产减少,不平等加剧,大企业和小企业之间的差距越来越大,国家内部和国家之间的收入不平等越来越大。数字商品和服务的最低分销成本进一步提高了集中化程度。一旦新的东西被创造出来,只需要生产(组成、书写或计算)该商品的一个数字副本,通过互联网以接近零的边际成本复制和交付,然后复制、3D 打印等,来满足全球需求。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Stan shish smiling curve

新公司将需要移动到斯坦希什微笑曲线的最末端,才能继续创造价值,否则他们将截然不同。

3。数据是关键资产

捕捉新技术全部潜力的能力始于一个能够了解、预测并快速响应客户需求的组织,这也是数据成为公司重要资产的原因之一*“一个机构或行业越依赖信息作为其核心产品,变革就越大、越彻底”* ( 克莱·舍基)。由于知识工作和认知过程的性质,专家预计数字化和大数据分析对基于知识的商业模式和认知工作者的冲击与非知识商业模式和体力工作者一样大,甚至可能更快。数字化和大数据分析与通常由公司和知识工人执行的自主信息处理任务相关联——他们的高利润和工资提供了经济激励,甚至加速了替代。

数据是知识的原材料。有经济学家说:数据是新石油。今天,我们生活在一个非结构化数据爆炸的时代,明天会更大。用户参与其中,他们也参与其中,交换数据,创造数据;此外,他们的目标是创建数据,因此围绕数据创建的交换协议将呈指数级增长(例如区块链智能合同)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Going Digital, the banking transformation roadmap

数据是新的商业价值,它可以揭示洞察力,帮助最佳定位,在正确的上下文中个性化内容。简而言之,是燃料,使以客户为中心的战略暴露如下。因此,公司需要基于以下方面的数据策略:收集不同类型的数据,保证数据质量,在决策中使用数据(数据驱动的管理决策取代了过去成为标准的层级决策或“最高薪酬人员的意见”)。企业可以在正确的时间向正确的人提出正确的提议,将不同仓库的数据结合起来,这是可能的,因为云提供了灵活的存储和价格。

4。创新&新价值产生

一个“商业模式描述了一个组织如何创造、传递和获取价值的基本原理”它抓住了任何公司的核心商业逻辑。在实践中,数字化和大数据分析挑战了许多传统行业的商业模式。数字化转型是一种文化转变。新数字化的客户需要新的技能。比如做快速实验或者模拟。

这种转变意味着不断改变在几个部门工作的人的习惯、信念、激励和经验。例如,将 IT 和营销团队结合起来,可以产生具体的用途,以尽快交付新的服务。创新生态系统的概念和出现是数字时代交付价值的关键。为此,公司需要组织灵活性,通过在云中集成灵活的平台来缩短上市时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Going Digital, the banking transformation roadmap

这篇文章的灵感特别来自大卫·罗杰斯的《数字化转型手册》。这份报告麻省理工学院传统业务的数字化转型,这份卡格米尼的十亿机构路线图,这份克罗克纳&公司的数字化转型

感谢阅读,这是一个长期研究的测试版。我将感谢反馈。

创建虚拟变量的虚拟指南

原文:https://towardsdatascience.com/the-dummys-guide-to-creating-dummy-variables-f21faddb1d40?source=collection_archive---------1-----------------------

作为一个数学人,我试图量化日常生活中的一切,所以当我看到一个有很多定性变量的数据集时,我的大脑自然会试图量化它们。幸运的是,有一个漂亮、简洁的函数可以帮助我们做到这一点!

作为数据科学领域的新手,熊猫的发现改变了我的生活。在熊猫和 scikit learn 之间,我认为每个人都可以征服世界(或者至少是数据科学世界)。熊猫有一个功能,可以把一个分类变量变成一系列的 0 和 1,这使得它们更容易量化和比较。

我开始加载我从“http://data.princeton.edu/wws509/datasets/#salary”网站上获得的数据。这是一个非常小的数据集,由一所小型大学的 52 名教授的工资数据组成,按性别、教授级别、最高学位和服务年限与工资进行分类。我在这个例子中使用了这个数据集,因为它很短,并且有一些分类变量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

sx= sex, rk = rank, yr = year in current rank, dg= degree, yd = years since earning highest degree, sl = salary

因为我在使用 pandas 中加载了数据,所以我使用 pandas 函数 pd.get_dummies 作为我的第一个分类变量 sex。因为这个变量只有两个答案选择:男性和女性(不是最进步的数据集,但它来自 1985 年)。pd.get_dummies 创建一个由 0 和 1 组成的新数据帧。在这种情况下,根据教授的性别,数据帧将有一个 1。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由于我们已经创建了一个全新的数据帧,为了将其与原始数据帧进行比较,我们需要合并或连接它们,以便正确地使用它们。在创建虚拟变量的过程中,我们实际上为原始数据集创建了新的列。新旧数据集没有任何共同的列,所以将它们连接起来是最有意义的(尽管我将两种方式都经历一遍)。

我选择将我的虚拟变量放在我的数据帧的右边,所以当我使用 pd.concat(连接函数)时,先放我的数据帧,然后放我声明的虚拟变量。因为它们是列,所以我在 axis=1 上连接它们。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

合并这些数据帧稍微困难一些,因为没有重叠的列。但是,可以做到!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

要合并一个索引(我们最左边的列),我们所要做的就是设置我们的 left_index=True 和 right_index=True!

只需两行代码,我们就可以将性别变量与其他数值列进行比较了!

邓宁-克鲁格效应:当数据科学成为数据“叹息”

原文:https://towardsdatascience.com/the-dunning-kruger-effect-when-data-science-becomes-data-sigh-ence-fb82ef20e6eb?source=collection_archive---------21-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Pixabay

你刚刚读了哈佛大学关于数据科学是 21 世纪最性感的工作的文章,你对这个领域非常感兴趣。读了几篇文章后,你会发现这应该很容易。毕竟在大学里,你的数学得了 A,统计学得了 B,而且你小时候就已经学会了编程的基础。

你花了几周时间努力,甚至在 10 天内完成了 10 周课程的 80%。当你接近课程结束时,你意识到比你想象的还要多,在 10 分制中,你给自己打了 1.5 分。几周后,你会听说获得第一份数据科学工作有多难。当你突然意识到数据科学是一个广阔且不断发展的领域时,沮丧开始出现,所有最初的兴奋都消失了。现在数据科学已经变成数据“叹息”了。

source: giphy.com

欢迎来到现实世界,在这里没有什么值得做的事情是容易的

以上称为 邓宁-克鲁格效应

简单来说,邓宁-克鲁格效应:

如果你对某一领域知之甚少,你可能会高估自己的技能

许多有抱负的数据科学家在某些时候都会遇到这种情况,这真的很扫兴。事实是没有人说这将是容易的,所以振作起来,振作起来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

发生这种情况时,请记住以下几点…

调整自己的节奏并设定目标 —学习数据科学是一场马拉松,而不是 100 米短跑。所以放松点,给自己留点空间。这意味着你需要避免不知所措,调整你的学习节奏。为不同的学习点设定目标,并坚持学习。数据科学是一个广阔的、不断发展的领域,试图同时学习许多东西是非常容易的。不要陷入这个陷阱,因为你不太可能通过这种方式获得良好的基础。

当你开始的时候,避免盲目跟风,保持专注,打好坚实的基础。因为每个人都在谈论深度学习并不意味着你已经准备好了。先把重点放在打好基础,理解基本概念上。

庆祝你的里程碑:在每一个里程碑上给自己一些信任;记住你已经走了很长的路。庆祝这些小小的进步。你的第一门课程,比赛甚至文章,你都需要庆祝它们。犒劳一下自己,拍拍自己的背。这听起来可能微不足道,但它会给人一种进步的感觉,并在困难的时候让你坚持下去。欢迎在在线平台上分享你的进步。你会惊讶于你会得到多少鼓励和建议。

加入一个团体:俗话说“独自一人,我们能做的很少;在数据科学领域,我们可以一起做很多事情。人是你学习旅程的重要组成部分。导师和伙伴会帮助你走得更远。加入社区,参加聚会,关注数据科学专家,与人交流。随着您在数据科学方面的进步,您会发现这非常有帮助。停止尝试重新发明轮子,寻求帮助。有时候,自己解决问题和犯错误是件好事,但在其他时候,寻求帮助才是明智的。

这个社区不仅会在帮助你学习方面发挥巨大的作用,而且会在你觉得没有任何意义的时候给你动力和鼓励。

分享你学到的东西:分享有助于加深你的理解。这是你学习旅程的关键部分。费曼技巧是一个值得采用的好技巧。理查德·费曼是一位理论物理学家,他具有用简单的术语解释非常复杂的科学课题的非凡技能。内容如下:

第一步:确定一个你觉得难以理解的领域/主题。了解更多关于这方面的信息。

第二步:用非常简单的术语向朋友、同事或团体解释这个话题。在解释的时候,确保你使用相关的例子来展示它是如何工作的。

第三步:在第二步之后,找出你的知识差距和灰色地带。然后重复这些步骤。

这种技巧有助于促进你的学习和理解。它还能让你轻松地用非技术人员也能理解的简单方式解释概念。对于数据科学家来说,这是一项关键技能,因为您需要定期与决策者交流见解。

此外,这项技术还能帮助你发现自己的弱点,这在这个过程中非常重要。没有认识到自己的弱点,你可能永远无法克服它们。

疯狂练习:

数据科学是一个应用领域。这意味着一件事:你需要疯狂地练习。通过花一些时间练习你所学的概念,你会对自己有很大的好处。摆弄数据或从事个人项目;你可能会从自己的错误中学到很多。除非你练习,否则你的学习是不完整的。通过做,你会学到很多东西。

结论

总之,记住学习任何新事物都需要很多牺牲。这可能意味着错过有趣的周末和工作到很晚。最后,一定会物有所值。成为任何事情的专家都需要时间。一夜成功是极不可能的,所以放松。

你已经开始是一件好事。然而,你需要保持承诺。每个人都有高点和低点,但重要的是你继续前进的能力。

我将引用老子的一句话来结束我的发言:

“千里之行始于足下”

继续前进…

祝您好运

参考文献

https://www . ava research . com/files/unskilledandunawareofit . pdf

[## 想成为数据科学家?试试费曼技术。

成为伟大的解释者成为伟大的数据科学家

towardsdatascience.com](/want-to-become-a-data-scientist-try-feynman-technique-2ea010da1c54) [## 邓宁-克鲁格效应

人们高估了他们不擅长的技能。有技能的人低估了自己的能力。

博客. bretthard.in](https://blog.bretthard.in/the-dunning-kruger-effect-2a092cb33359) [## 我作为数据科学家的弱点

不认识到我们的弱点,我们将永远无法克服它们

towardsdatascience.com](/my-weaknesses-as-a-data-scientist-1310dab9f566) [## 你如何知道自己是否真的有能力,或者是否受到了邓宁-克鲁格效应的影响?

回答(第 1 题,共 9 题):上图是对邓宁-克鲁格效应各阶段的概括描述。这只是一个…

www.quora.com](https://www.quora.com/How-would-you-know-if-you-are-actually-competent-or-suffering-from-the-Dunning%E2%80%93Kruger-effect) [## 我作为数据科学家的弱点

不认识到我们的弱点,我们将永远无法克服它们

towardsdatascience.com](/my-weaknesses-as-a-data-scientist-1310dab9f566)

数据角色和团队的动态

原文:https://towardsdatascience.com/the-dynamics-of-data-roles-teams-6c450b27e59e?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据职业”中出现的新角色的职责和头衔不断让我感到惊讶。不可否认,这是一个相当模糊的概念,我怀疑从业者对这个空间的组成有不同的看法。然而,在这个领域有一些趋势是从业者也同意的。数据比以往任何时候都更加受到组织的重视,在专门的“数据人”、投资和技术方面也出现了相应的增长。

出于方便和可读性的考虑,我将按照技术革命——那些影响了重大变化的技术革命——来简单介绍一下数据角色,尤其是那些在未来会不断发展的数据角色。此外,我最近写了一篇关于 数据分析的演变 的文章,这有助于为本文收集更好的上下文。

作为一个业余博客写手,这显然是一个视角,对他们昏昏欲睡的眼睛来说可能是一个长期阅读。只有一个建议:喝杯咖啡。

商业智能角色

的确如此,“BI”没有资格在 2018 年与科技生态系统中的时髦流行语竞争,也不会让我们这一代懂数据的人感到愉悦。ETL 工具&策略不再使用了吗?BI 的范围是否被大数据&数据科学方法的大量应用所掩盖??不要!!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

How traditional BI roles were structured in-accordance with the
business model of the organisation. Source: Microsoft Wiki

在过去的一两年里,商业智能有了相当大的下降。然而,我不会说 BI 死了,因为它的应用对大企业来说非常关键。像 BI 分析师、数据架构师、ETL 开发人员、DW 工程师、BIDW 管理员这样的角色只会变得更加重要,强调对市场领先工具&技术的额外关注,而不是当前领域中的多面手角色。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Scope of Business Intelligence techniques employed in 2018.
Source: Check out infographics & vector designs on DepositPhotos

根据最近的一项大众智慧商业智能市场研究,商务智能将继续提供有竞争力的工作薪酬,并在市场的某些领域占据主导地位。以下是 2018 年 it 的一些关键数字:

  • 执行管理、运营和销售:推动 BI 采用的 3 个领域。
  • 仪表板、报告、终端用户自助服务、高级可视化和数据仓库:对 BI 具有战略意义的 5 项技术和计划。
  • 员工不超过 100 人的小企业拥有最高的 BI 普及率。
  • 50%的供应商提供永久内部许可和云订阅。
  • 不到 15%的受访组织有首席数据官。

如果你仍然有不同意见,我推荐你阅读全文:商业智能状况,2018

大数据和数据科学角色

在我们深入探讨当前角色之前,让我们先回顾一下这一切是如何开始的,从哪里开始的。我的想法是在传统的明文定义上用一个讲故事的叙述来展示这些角色——后者在互联网上很容易获得。此外,行业中的每一个新浪潮都会产生令人困惑的流行语,虚假的演绎&超现实主义的规定(至少可以说是满嘴的)。

变化

创造“大数据”是为了区别于小数据,因为它不是纯粹由公司的交易系统产生的。它还表示,预测分析提供了更好的数据趋势,而不是基于事实的理解,以超越决策时的直觉。如果 dimensions & analytics 还不够合理的话,这个阶段欢迎使用社区驱动的“开源”工具,而不是高价的许可证。

我通常避免在我的帖子中引用工具的名称,但是如果不提到 Apache Hadoop 就很难描述这场革命。技术栈&可扩展项目、函数式编程范例(可扩展、并发&分布式系统)、noSQL 的兴起、作业调度&集群资源管理、拖放 ETL 的不断变化的方面以及更好的数据建模技术——所有这些都是由 Hadoop 带来的,但它最终强调了最后一点——代码 是软件的最佳抽象。此外,它还引入了一个概念——通常是广义的——让定制架构为未来与数据科学&机器学习的集成做好准备。

从开发者的角度来看,这意味着你不一定要为技术巨头工作来开发新的颠覆性项目。你有社区的支持,有像 Github 这样的新兴合作平台来展示你的作品。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Hierarchy of roles in Big Data & Analytics-driven companies.

从组织的角度来看,软件工程师(java 开发人员)、数据仓库工程师(BI/ETL 开发人员、数据架构师)、基础设施管理员(DBA、Linux SAs)探索了更好的头衔,因为大数据工程师、Hadoop 开发人员、Hadoop 架构师、大数据支持工程师开始在就业市场上蓬勃发展。双重角色的地位下降了,业务线用户和数据人员使用相同工具的时代已经结束了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

BI roles gradually moving out of the circle of Big Data teams.
Source: DataFlair

在行业层面,它的影响最大——因为不仅仅是科技公司和网络公司可以从大数据分析中创造产品和服务——它几乎是行业中的每家公司

融合

由于使用大数据和数据科学策略的需求不断上升,科技行业突然出现了分化。因此,现场角色被分为三类:软件工程(前端后端工程师、 Web 开发人员、基础设施管理员、中间件专家、iOS/Android 开发人员)、数据工程(强大的数据背景,如 ETL 开发人员、DWH 架构师、BI 分析师、Hadoop 工程师、DBA)并欢迎第三组被视为下一代的个人

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Venn Diagram showing tools & techniques under SE vs DE vs DS domains.
Source: Ryan Swanstrom, Data Science 101

据我所知,这种分类产生于一个重大的转变,其积极因素被小规模公司(< 50 employees) like emerging startups, research-facilities as well as large-scale enterprises (> 1000 名员工)如电信、电子商务、社交媒体等充分利用。初创公司可以自由地将多种角色合并为一个角色,并鼓励多学科的增长机会,而主流巨头在不同部门雇用不同的角色方面没有问题,从而增加了产生更多业务的领域。

现在拥有一家中型(或 SMB)公司的企业家,他们努力获得商业利润——在各自的市场上与大公司竞争——可以说受影响最大。最初的成功——通过一系列融资或风险投资的支持——使他们的数量得以扩大(50-300 多名员工)。他们匆忙进入无限期雇佣,多余的角色,糟糕的决策策略。最终,在季度时间表下留在市场的持续压力迫使前所未有的裁员,股票分配损失,甚至导致早期清算。一些精通技术的投资者(我想称他们为守护天使)提供并购援助,但是这个行业第一次看到了吸收角色的负面影响。

重叠部分

与此同时,不仅仅是公司在演变数据角色方面遇到了困难。这个时代见证了越来越多的数据科学爱好者(学术&经验丰富)走出舒适的洞穴&扩展他们的技能组合。为什么不呢,这些申请者(数学家、工程师、博士、分析师、毕业生)都有权利申请 21 世纪收入最高的工作之一。出现了受人尊敬的大学教授和慈善家,带着他们版本的理想候选人,这只会引起偏见,却无法阻止暴民。

带有数据前缀的头衔有助于早期区分任务相似的角色。其目的是确定技能范围和利用合适的潜力。数据分析师避开业务,将他们的目光投向统计&工程,而数据架构师保持他们的深度——专注于发布模型(不要与 ML 混淆)、数据库设计、治理以及他们标志性的政治中立态度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Radar chart explaining overlap of skills between Data-driven roles.
Ignore Mad Skillz as it implies Natural Abilities. Source:edX

企业开始通过围绕其前提利用机器学习培养规定性分析的能力来收集更多的理解。他们开始不仅在传统意义上竞争分析——通过改善内部业务决策——而且通过创造更有价值的产品和服务。实现具体目标的纯粹需求(或贪婪)——比上一季度的结果有所改善——成比例地带来了角色和职责的开销。因此,像**数据科学家、**这样一个充满希望但又充满挑战的职位也需要一个跨团队的核心人物——任何与数据相关的事情的日常联系人。对于许多背负如此沉重负担的人的压力和疲劳,人们谈得不多。如果一个有这种能力的人把大部分时间花在分析上,他们也会设法找到时间为自己追求更好的机会。这里有一个在 KDnuggets 上的讽刺来支持我的观点。

权衡取舍

两大问题浮出水面:数据科学是下一个泡沫吗?我的回答是:没有,但“*数据科学家”*的头衔可能会成为一个头衔。一个教科书式的需求和供给问题——每个有抱负的人都想得到公平份额的商品,但只有少数人被证明值得拥有。嗯,有点困惑!—你如何应对一名应届毕业生申请这个职位,或者当你的数据科学家可能会离开,留给你的是一群“自称”的人来敲你的门时,你该怎么办?

第二,直接从网站、API、社交媒体或互联网等来源获取数据;对软件编程语言的需求&快速高效地实现这一需求的能力——不能妥协。“不是所有的数据科学家都有很好的软件基础”或者“为什么在数据科学的热潮中,软件工程的概念被忽视了?”。公司很快意识到,只有角色的重新分配才能使这种倾向正常化,因为他们指望更广泛的 工程师**——**来大力支持他们的数据科学家,并在不同的实体角色之间找到平衡。

软件工程师,似乎有数据科学&机器学习的诀窍,站出来帮助解决这一困境,并加强了数据工程师俱乐部。当那些实践核心 web 编程&栈驱动野心的人转向更大的挑战:全栈工程师

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Full-Stack by past roles (L) & by tech-stack areas ®.

双赢的局面:数据科学家得到了一个可靠的助手,他松了一口气(对他们“王冠”的夸大宣传降低了),并且一个同样胜任的角色即将挑战他们。这种勾结不仅让那些渴望的狂热分子转了起来,还打开了另一扇门,使数据工程成为当今最复杂的学科之一。这位现代的数据工程师补充了其他所有的角色,是每个公司必备的勤杂工,实际上是如今初创公司的第一批雇员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An Infographic-take on Data Engineers and Data Scientists.
Source: Read Full Post on DE vs DS, by Karlijn Willems

通过平衡相互不同的角色进行的赌博(点击的变通办法)获得了完美的回报,但技术行业知道他们不能承受另一次挫折,必须准备好迎接日益被接受的人工智能。

该决议

不可避免地,公司发现了他们组织结构中的缺陷:职位、优先权和能力——并接受了数据驱动团队 。主要的焦点是角色区分、分工、避免任务冲突、适当的合作规则。基于角色的领导者在这样的团队中领导各自的单位的扩展示例是:首席数据科学家& 工程领导。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An early look of a well-structured Data Science team under the same roof. Source: DataCamp Blog Community

今天,一个完美的数据科学团队是一个神话,或者是一个引起激烈争论的话题。公司对他们团队的期望是像一群超级英雄(《复仇者联盟》)*——*他们在许多场合悲惨失败的是任命一个为这些团队提供背景的人(尼克·弗瑞)。这就是首席数据官强大存在的地方。随着数据成为不可或缺的商业战略,CDO 在组织中扮演着越来越重要的角色。《福布斯》的一项调查显示,2018 年,超过 50%的 CDO 可能会直接向 CEO 汇报。他们一定会在塑造企业计划方面扮演更积极的角色。

通常,当我看到包含“高级英语技能”或“仅限本土候选人”的职位描述时,我会感到失望。因此,我每次都会主动质疑(或搜索)这样的招聘海报(我很享受它们明显的停顿)。语言不应被视为障碍,而应被用作团结团队的强大源泉。2018 年最能说明我立场的例子,确实是语言本身: Python 。创始人(CEO&CDO)必须在他们的团队内部进行这些小交流,最重要的是——他们的第一个焦点——人才需求团队团队**。**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

How Python brings a team of diversified role-types together.
Source: ActiveWizards

如今,人力资源协调员、招聘人员、外包猎头都可以访问大量的数据资源(Medium、Datacamp)和数据友好型平台(LinkedIn Recruiter、Glassdoor ),以完善他们对改善招聘的搜索;因此使得他们的角色甚至是数据驱动的。

机器学习和人工智能驱动的角色

也许机器学习最引人注目的方面是它看似无限的适用性。已经有那么多领域被 ML 和现在的 AI 冲击了,包括教育金融等等。机器学习技术已经被应用到医疗保健领域的关键领域,影响了从减少医疗变化的努力医疗扫描分析的方方面面

对于许多公司来说,他们的数据(或数据分析平台)就是他们的产品。在这种情况下,正在进行的数据分析或机器学习可能会非常激烈。对于有正式的数学、统计学或物理学背景并希望继续走学术道路的人来说,这可能是理想的情况。

“机器学习工程师通常更专注于生产伟大的数据驱动产品,而不是回答公司的运营问题。”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

New addition to the DataScience team working on ML. Source:Udacity

公司变得更加令人鼓舞,并一直在寻找机器学习工程师:各年龄段(学术实习生到研究科学家)的开明候选人。从 LinkedIn、Medium 和 Github 可以看出,社交媒体一代也比以前更受欢迎。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bird’s-Eye view of multiple ML-roles in AI firms. Source:Udacity

人工智能驱动的公司成功实现了智能机器(如聊天机器人),已经比其他公司领先一步。由软件、应用&核心赋予的角色是一个明确的标志——他们对他们的产品开发&服务提供是认真的。因为在这个问题上没有任何关于名字或资历的概括,他们有充分的自由在未来即兴创作 AI 头衔

包含角色

有许多角色可以在日常工作中补充数据驱动团队。无论他们属于哪个团队,他们都是组织中不可或缺的一员。你可能会奇怪为什么我没有早点提到它们。老实说,我对此表示怀疑,原因如下:

  • 我对这些概况及其范围的专业知识有限。
  • 他们主要不属于数据驱动角色的范畴。
  • 他们的领域多样性允许他们跨不同的团队运作。

持刀暴徒到来之前,让我试着解释一下。

  • **平面设计师:**各种意义上的创意总监。艺术、科学、编程、想法和想象力的完整组合,具有无限的能力。他们以敢于直言的无畏态度增加价值。我个人的最爱。
  • **决策者:**一个经常被误解和忽视的角色。尤其是在特定领域的初创公司,在雇佣经过博士培训的数据科学家之前,要确保你有一个了解决策艺术科学的决策者。
  • 站点可靠性工程师:大致分为两类:“业务能力团队”和“敏捷运营团队”。数据架构师&工程师可以协调、学习和实施基于云(IaaS、PaaS、SaaS)的配置、容器、微服务部署&虚拟化等任务。然而, DataOps 是一个新的平台,允许企业内部持续的数据流。
  • 云架构师:通常担任咨询角色的技术专家(像他们的云服务一样按小时收费)。同样,如果您的数据工程师熟悉云概念或认证助理/专家,您可以选择不聘用他们。
  • 项目&交付经理— 一些数据科学&分析公司仍然不得不屈服于敏捷& Scrum 方法论的旧规范。在开始咨询客户以协调产品销售和服务之前,他们需要经验丰富的经理来确保 PoC(概念验证)时间表&资源得到合理分配。
  • 网络&网络安全工程师:通常被视为内部团队,但在所有上述提到的团队中,他们很快将成为数据驱动团队不可或缺的一部分。随着数据安全在 2018 年已经显示出威胁性的担忧,这些角色已经被认识到“至关重要”,因为大多数公司每天都在网上运营。

离别的思绪

当然,在工具方面,技术变得比以往任何时候都更容易使用和直观。例如,在大多数清理、建模、报告和可视化工具中有一系列适配器,这意味着加载数据本身不再是一个非常重要的需求。然而,这也鼓励了某种程度上无处不在的数据视图——它应该只需最少的努力就能工作。一个不祥的风险是,越来越少的时间将被用于纠正基本面。

2018-2019 年值得关注的技术和行业:

  • 渐进式网络应用(PWAs)——移动和网络应用的混合体。
  • 区块链和金融科技-元模型构建,可靠的交易和信用评分。
  • 医疗保健—通过医学成像(计算机视觉和 ML)进行诊断。
  • AR/VR-体育分析、名片(图像跟踪)、现实游戏(Hado)。
  • 人工智能语音助手,更智能的聊天机器人集成。
  • 智能供应链——数字双胞胎(物联网传感器)。
  • 5G——大数据、移动云计算、可扩展物联网和网络功能虚拟化(NFV)。
  • 3D 打印——预制效率、缺陷检测、预测性 ML 维护。
  • 黑暗数据——尚未以数字格式提供的信息。
  • 量子计算——将数据处理时间缩短至几分之一。

最后,在工作方面,很明显,这些角色将无法跟上技术的发展。抓住下一个机会会很困难。根据许多就业顾问的说法,有两种方法可以保持工作的稳定性:成为一个领域的专家,在一个稳定的公司中坚持自己的立场,或者通过识别与技术趋势一致的新领域来寻求具有挑战性的角色。作为一名数据工程师,我遵循一种混合方法——在职业生涯和个人抱负之间保持学习纪律——这实际上允许我在任何技术驱动的行业工作。如果有任何安慰的话,我肯定知道我要对我未来的成功和失败负责。

“永远不要让别人告诉你,你不能做一些事情。如果你有梦想,就要捍卫它。人们自己做不到一些事情,他们想告诉你你也做不到。你想要什么,就去得到它。句号。”

对海蓓娜斯的追求

见原帖发表在:苹果!=橘子

要想被聘为数据科学家,不要人云亦云

原文:https://towardsdatascience.com/the-economics-of-getting-hired-as-a-data-scientist-e3882933b43c?source=collection_archive---------0-----------------------

向下滚动查看这篇文章的音频版本

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我还记得我哥哥决定卖掉他的比特币的那一刻。那是 2017 年,我们在星巴克。一位中年妇女向我们走来,她正在向任何愿意接受的人分发小册子。顶部用粗体字写着“比特币:提前退休之路”。

我很好奇,所以我问她对加密货币市场的看法,但事实证明,除了比特币,她不知道其他加密货币。以太坊?“没听说过。”莱特币?“那是廉价版的比特币吧?”

现在,作为一个经验法则,当甚至当地星巴克的无知的中年女士向你推销最新的科技趋势时,你可能接近炒作的顶峰。或者,如果你喜欢,一个“泡沫”。

当然,这不是一个新的观察。每个人都同意,当谈到投资时,如果你在做其他人都在做的事情,你不太可能看到任何回报。然而奇怪的是,当谈到投资于自己时,人们没有运用同样的推理。

假设你想被聘为数据科学家。如果你正在做所有标准的“我想成为一名数据科学家”的事情,那么这意味着你不应该指望得到你梦想的工作。市场目前充满了初级人才,因此,有抱负的数据科学家不太可能受到太多关注。所以如果你想避免中间结果,为什么要做中间的事情呢?

问题是,大多数人在开始他们的数据科学之旅时并不这样想。通过我在sharpes minds的工作,我与数百名有抱负的数据科学家交谈过,其中大约 80%的人都有大致相同的经历:

  1. 首先,他们学会了诀窍(Python + sklearn + Pandas +也许一些 SQL 什么的)
  2. 然后,他们选择了某种千篇一律的 MOOC
  3. 他们读了一些职位描述,担心自己不具备所需的条件
  4. 也许参加另一个 MOOC,也许开始通过就业委员会申请工作
  5. 听不到任何反馈(或者最多炸几个采访)
  6. 感到沮丧,考虑读硕士,申请更多的工作
  7. 到了一个决定点:我是否重复#2 到#7 直到不同的事情发生?

如果这种情况发生在你身上,很可能你也处在自我提升的泡沫中:你在做其他人都在做的事情,但期待不同的结果。你需要做的第一件事就是停止

如果你想要高于平均水平的结果,你不能做平均水平的事情。但是为了避免做一般的事情,你需要知道一般的事情是什么。

这里有一些例子:如果你需要做 MOOC 来学习诀窍,那很好。但不要陷入 MOOC 螺旋:MOOC 几乎是为普通人设计的,所以你不会因为做得太多而成为一名优秀的候选人。同样,如果你的 GitHub 上有 4 或 5 台 Jupyter 笔记本,它们都有相同的 sklearn/Pandas/seaborn/Keras 堆栈,不要再做一个

总的来说,规则是:如果某件事因为其他人都在做而看起来是显而易见的下一步,那么最好不要做。反过来,你需要找到别人没有做的事情,并尽快去做。

那些是什么东西?根据我所看到的,我想到了 5 个:

  1. 复印纸。如果你是深度学习爱好者,这一点尤其正确。人们不这样做,因为这比获取数据集并使用简单的 ANN 或 XGBoost 进行千篇一律的分类更难。在 arXiv 上找到与你的领域相关的最有趣的论文(最好是最近的),并阅读它。了解一下。然后,可能在新的数据集上复制它。写一篇关于它的博文。
  2. 不要在自己的舒适区里安逸。如果你开始一个新项目,最好是学习一些新的框架/库/工具。如果你正在构建你的第六个 Jupyter 笔记本,以df = pd.read_csv(filename)开始,以f1 = f1_score(y_true, y_pred)结束,是时候改变你的策略了。
  3. 学习枯燥的东西。其他人没有这样做,因为没有人喜欢无聊的事情。但是,学习一个合适的 Git 流程,如何使用 Docker,如何使用 Flask 构建一个应用程序,以及如何在 AWS 或谷歌云上部署模型,这些都是公司迫切希望申请人拥有的技能,但大多数申请人都不太欣赏这些技能。
  4. 做讨厌的事。 1)提议在当地的数据科学会议上发表一篇论文。或者,至少,参加当地的数据科学会议。2)给 LinkedIn 上的人发冷冰冰的信息。尝试提前提供价值(“我刚刚注意到你网站上的一个打印错误”)。不要马上向他们要工作。让你的问题尽可能具体(“我很想在我的博客上得到你的反馈”)。你试图建立一种关系,扩大你的网络,这需要耐心。3)参加会议和网络。4)成立学习小组。
  5. 做一些看起来疯狂的事情。每个人都去 UCI 知识库,或者使用一些股票数据集(哈欠)来构建他们的项目。不要那样做。了解如何使用 web 抓取库或一些不太受欢迎的 API 来构建您自己的自定义数据集。数据很难获得,公司通常需要依靠他们的工程师来获取数据。你的目标应该是给人一种痴迷于数据科学的疯子的印象,如果这是完成工作所需要的,他会建立自己的数据集。

这些策略中的每一个都是另一种摆脱招聘者每天面对的噪音的方法。它们都不是灵丹妙药,但它们是在数据科学就业市场上获得更多吸引力并成为更有能力的数据科学家的可靠方法。

在一天结束的时候,记住当你在培养自己的技能时,你是在投资自己。这意味着适用于投资的所有经济原则在这里都适用:如果你想要一个出色的结果,你必须做出色的事情。

动漫推荐引擎的 EDA

原文:https://towardsdatascience.com/the-eda-of-an-anime-recommender-engine-45f65f76ae35?source=collection_archive---------3-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如你从上面的图表中可以看出的,推荐一部动画可能是相当密集的,我希望建立一个基于几百万收视率的引擎来做这件事。回顾一下我上周的博客,我正在使用两个数据集构建一个动漫推荐引擎。第一个数据集包含超过 14,000 个动漫名称,正如我上周所写的,第二个数据集包含超过 100 万个评分,评分范围为 1-10,但是我发现我的 Jupyter 笔记本没有加载整个数据集,在我纠正后,我发现第二个数据集有超过 700 万个评分!

为我的项目范围清理数据

因为我主要是为流媒体服务构建引擎,所以我浏览了这些标题,以便去掉那些不会出现在流媒体服务上的标题。首先,我注意到在流派部分有几个成人标题,但是为了删除流派字段中所有带有 Hentai 的行,我必须创建虚拟变量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Before Dummy Variables: Only 7 columns with Genre column containing multiple genres as a string

添加虚拟变量后,我的数据集从 7 列增加到了 50 列。是的,这意味着我有 43 种不同类型的动画。然后,我可以轻松地删除 Hentai 列中包含 1 的所有行,然后删除 Hentai 列本身。我还浏览了类型栏中的独特类别,删除了 OVA 和 ONA 的类别,因为授权这些类型的动漫可能相当昂贵,因此流媒体服务不会这样做。说了这么多,做了这么多,我有了一个数据集,里面只有 7000 多部动漫。把它切成两半还不错,留给我以下几列:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后,我必须从另一个数据集中删除所有相同的标题。值得庆幸的是,它们都共享 anime_id 列,我能够像在第一个集合中一样执行内部连接来快速删除第二个集合中的所有标题,这给了我第三个所有内容都“合并”在一起的数据集。之后,我重新制作了新的评级数据集,将合并后的数据集中的列拆分出来,同时保持原样。这使得我的评级数据集缩减到 600 多万行。

我还有很长的路要走,但是我想确保我正确地完成了最初的 EDA,因为我相信在你能够探索数据本身之前,拥有一个干净的数据集是最重要的基础。对于那些有点不耐烦的人,请随意使用上面的流程图,直到我完成构建我的引擎并开始享受。

你下次面试需要的优势

原文:https://towardsdatascience.com/the-edge-you-need-at-your-next-interview-c8cb0ab53da?source=collection_archive---------8-----------------------

让数据科学家留下印象的简单 3 步系统

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Unsplash

在任何面试过程中脱颖而出都不容易。你可能已经听说,对数据科学家的需求正在迅速增长。然而,申请这些竞争性职位的可用人才也是如此。现实是,在一群合格的申请者中,你需要你能得到的所有优势。

这篇文章旨在通过设计一个多步骤的系统来帮助你获得这种优势,这个系统是我一次又一次成功使用的产品知识和构思。

1.了解产品

这似乎是显而易见的,但是很少有人能做得很好。作为数据科学家,在面试准备期间专注于巩固技术技能是常见的做法。这是合理的,因为如果没有技术基础,您可能无法前进。

话虽如此,但我认为,在给面试官留下印象时,对产品的充分了解也同样重要。

通过对产品的内外了解,你将能看到其他求职者看不到的东西。这一点在整个面试中常见的产品思考或问题解决评估中尤其重要。

“在数据科学中,如果你想帮助个人,要感同身受,提出问题;这样,你也可以开始理解他们的旅程”——达米安·明格尔

另一个看不见的好处是探索你对产品或公司的兴趣程度。在一天结束的时候,你可能不想每周花 40 多个小时在你不感兴趣或者至少有点着迷的事情上。

我的建议是在面试前花时间真正了解产品,最好是从用户的角度出发。如果可能的话,每天在面试前留出一些时间来使用产品。

这可能意味着那天少了一次编码练习,但从长远来看,这无疑是值得的,因为你发展了必要的领域知识,可以有见地地谈论有关公司及其产品的项目和想法。这让我想到了第二步。

2.产生想法

一旦你已经很好地使用了这个产品,花时间集思广益,让它变得更好。这可以是任何数量的事情,包括想法、功能或您可能感兴趣的数据驱动项目。

思考未来是什么样子,以及特定团队的下一步是什么。想想你想做什么,你能带来什么,以使公司的产品在某些方面、形状或形式上更优秀。

“创造力是拥有有价值的原创想法的过程。它是一个过程;这不是随机的”——肯·罗宾逊

为了更加清晰,我想我会分享一下我在 LinkedIn 的实际面试中注重构思的笔记的样子。请注意,我逐字逐句地从我的笔记本上记下了这些要点,所以它们可能有点难以解释。

  • 工作常用 app,填一份申请发一份
  • 帖子提示中的想法建议,以鼓励 feed 中的更多互动
  • 改进的工作推荐模型—似乎有些多余
  • 用于优化视图和参与度的个人资料的职业建议提示功能
  • 针对用户的概况或简历 A/B 测试功能——公司 x 查看具有这些技能/背景的员工
  • 工作比较工具—目前已有,但没有并排视图
  • 参与内容分享的更好方式——也许 1%的用户发布了 90%的内容?
  • 更好地跟踪你在平台中申请的职位的方法是——淘汰电子表格

你可能已经注意到了,这些东西到处都是。并非所有这些想法都是好主意。他们中的大多数都不是特别有创意,甚至有更大一部分都不是很实用。

尽管如此,像这样的想法仍然是无价的。很多时候,老员工会努力去想那些在新候选人眼中很容易出现的事情。至少,它为公司提供了关于用户如何看待产品以及如何改进的见解。现在我有想法了,下一步是什么?

3.推销你的想法

好吧,不是真的“推销”,而是提出你在头脑风暴中想到的有趣的想法和项目。

这个也不需要强求。当面试官问你“你想从事哪方面的工作?”时,机会通常会自己出现。或者面试结束该聊天问几个问题的时候。

至少,雇主会对你的研究和你对公司使命和产品的热情印象深刻。在最好的情况下,他们会发现你的想法很有趣,并在评估时记住这一点。第三种情况是公司已经在以某种方式追求你的想法。这甚至可能更有影响力,因为这表明你与他们的愿景是一致的。

快速回顾

让我们回顾一下。我们检查了一个关于产品使用和构思的面试准备系统。对我来说,这需要安排时间专心使用产品,同时对有趣的事情做笔记。然后,我会花一些时间将这些笔记具体化为我认为很酷或有益的商业想法、功能或项目,然后在面试中提出来

请注意,这个过程对您来说可能看起来不同,这完全没问题。这个练习的目的是发展在面试中脱颖而出所需的领域知识。朝着这个方向的每一步都是朝着留下持久印象和掌握数据科学面试的又一步。

感谢阅读!如果你喜欢这篇文章,请继续向鼓掌按钮展示你的爱。对更多的帖子感兴趣吗?请务必关注我并订阅下面的我的简讯以接收任何新内容。更多关于我和我在做什么,请查看我的网站

人工智能的出现

原文:https://towardsdatascience.com/the-emergence-of-artificial-intelligence-3cde7378768e?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

几周前,谷歌首席执行官桑德尔·皮帅在 Recode 赞助的活动中告诉观众,对人类来说,人工智能的影响可能“比电或火更深远”。在这篇文章中,我将探索人工智能如何从数据和算法中产生,以及计算的未来进步将如何帮助它的发展。

数据和分析

术语“大数据”描述了组织收集的数据的数量、速度和种类不断增加。它是一个包罗万象的术语,用来描述组织收集的大型数据集。这些数据集中的信息(包括关于组织的产品和服务、内部流程、市场条件和竞争对手、供应链、消费者偏好趋势、个人消费者偏好以及消费者与产品、服务和在线门户之间的特定交互的信息)可用于回顾性或前瞻性分析。为分析此类数据而开发的分析技术统称为数据分析,通常涉及基于计算机的定量模型的使用。回顾性方法有时被描述为描述性的(分析数据并对重要趋势进行总结和可视化描述)或诊断性的(查看过去的数据以确定哪里出了问题)。前瞻性方法可以是预测性的(使用过去的趋势来预测未来的趋势),或者充其量是规定性的(预测未来的趋势,并根据某些度量建议组织策略来最大化绩效)。

算法

数据分析使用算法来处理数据集,以便提取有意义的信息。算法是对完成任务所执行的步骤的描述。例如,您可以使用一系列步骤在停车场找到您的汽车。首先,你可以查看它是否在你的视野范围内。第二,你可能会检查你是否有一个纸条或收据,表明你的车在哪里。第三,你可以有条不紊地走过停车场,直到找到你的车。如果你把这三个步骤编程到你的手机里,它们就会变成一个算法。

选择解决特定问题的最佳算法可以给组织带来显著的竞争优势。如果一个算法能够快速准确地完成某项任务,那么它就是适合该任务的。谷歌凭借一种名为 PageRank 的算法(由拉里·佩奇和谢尔盖·布林于 1996 年开发)在网络搜索行业占据主导地位,该算法根据其他网站到这些网站的超链接的数量(和质量)对网站进行排名。商业模式需要大量使用一些算法的组织的最近例子包括优步和 Stitch Fix。

机器学习算法

虽然组织可以通过使用适当的算法来分析特定类型的数据而受益匪浅,但在遇到数据时自我改进的算法可能会更加有用。

受监督的机器学习算法在其字段已经被“标记”的数据上被“训练”。然后,他们根据自己的训练对新的输入数据进行分类。例如,可以训练算法将越南语翻译成英语,以确定哪些收件箱电子邮件是垃圾邮件,或者在给定汽车属性的标记集时确定汽车制造商。今天使用的绝大多数机器学习算法都使用监督学习方法。

其他种类的算法包括无监督学习、半监督学习和强化学习。无监督的机器学习算法直接处理“未标记”的数据,在其中找到模式,并提取他们认为有意义的信息。例如,无监督的机器学习算法可能会查看世界上所有不同种类的植物和动物,然后根据算法认为必不可少的任何属性来组织它们。算法可能会选择根据对人类有意义的属性(如大小、颜色或移动性)或根据其他一些对我们来说不直观的属性来组织它们。数据科学家还开发了半监督机器学习算法,该算法结合了监督和非监督机器学习算法的元素。强化学习通过反复试验来达到目的。尽管无监督、半监督和强化学习方法在很大程度上仍处于研究阶段,但它们将很快应用于现实世界的案例。

机器学习方法也可以以其他方式分类。例如,人工智能学者 Pedro Domingos 将机器学习算法分为五大学派(象征主义者、连接主义者、进化论者、贝叶斯主义者和类比主义者)。

深度学习是最有前途的机器学习方法之一(如果目前可能被过度宣传的话)(这属于多明戈斯所说的‘连接主义’学派)。深度学习使用神经网络(由几层组成,通过这些层可以前馈信息)。神经网络是通过一个叫做反向传播的过程来训练的。虽然神经网络中节点的动作是模拟人脑中神经元的动作,但是在神经网络的工作和人脑的工作之间几乎没有相似之处。

人工智能

人工智能描述了我们认为需要人类智能的机器能力。由于这个定义是主观的,某种机器能力是否被认为是人工智能可能会随着我们对计算机的期望的演变而变化。由于几个世纪以来,机器已经能够比人类更好地执行某些特定的任务(例如,加减数字),我们不认为这样的任务需要人类的智慧。我们以前认为需要人类智能的一些任务(例如将文本翻译成不同的语言)现在可以很容易地由计算机完成,所以今天我们可能会也可能不会将语言翻译算法视为人工智能。我们仍然预计精确的视觉感知和语音识别需要人类智能,因此有效完成这些任务的机器学习算法将很可能被认为是人工智能(暂时)。

然而,人类智能与机器学习算法的真正区别在于,前者能够处理各种各样的复杂任务。即使是今天最令人印象深刻的机器学习应用程序,如 DeepMind 的 AlphaGo 计算机程序(在复杂的棋盘游戏围棋中,它比任何人类棋手都强),也被认为是“弱”人工智能:它们中的每一个都只专注于一项或一组狭窄的任务。即使是正在进行的大型人工智能项目,如丰田通过在美国投资 10 亿美元进行研究来改善制造流程的努力,或苹果秘密的自动驾驶汽车项目,也可能导致“弱”但令人印象深刻的人工智能。

我们还没有实现一个‘强’的人工智能(也称人工通用智能),它能完成一个人类能完成的所有智力任务。然而,过去几年人工智能的重大进展表明,在可预见的未来,强大的人工智能可能是可以实现的。

芯片和超级计算机

人工智能需要合适的机器学习算法、数据和计算能力。当今许多最有前途的人工智能技术都使用神经网络。神经网络可以小而简单,也可以大而强大。神经网络越大,功能越强大。达到神经网络的极限,从而达到今天人工智能性能的极限,需要使用强大的计算机芯片。尽管英特尔长期以来一直是超级计算机芯片的市场领导者,但英伟达、谷歌和其他公司正在竞相开发专门用于深度学习和其他人工智能用途的芯片。

当它今年晚些时候上线时,世界上最快的计算机将很快成为位于美国能源部橡树岭国家实验室的名为 Summit 的 200 petaflop 计算机。然而,世界上一些最快的计算机根本不依赖美国制造的芯片。其中一台这样的计算机是中国的 125.4 petaflop 超级计算机神威太湖之光,这是目前世界上最快的超级计算机。另一台将于 2018 年上线的尖端超级计算机是日本政府的 130 petaflop AI 桥接云基础设施(ABCI)。日本政府将向日本公司和研究人员出租 ABCI 的使用权,期望他们将其用于深度学习和人工智能应用。

这些和其他趋势表明,人工智能的进步既由符合摩尔定律(英特尔联合创始人戈登·摩尔在 1975 年观察到计算机芯片上的晶体管数量可以预期每两年翻一番)的硬件发展推动,也有助于硬件发展。

量子计算的前景

虽然摩尔定律准确地描述了 21 世纪计算能力的指数增长,但行业领导者英特尔最近开发新芯片的时间比过去更长。这导致一些分析师质疑芯片发展是否会继续按照摩尔定律进行。英特尔反驳说,虽然它的芯片需要更长的时间来开发,但新芯片一旦发布,其性能就符合摩尔定律的预测。然而,专家们担心,在传统计算中,摩尔定律正在触及其上限,进一步的芯片小型化可能很困难,也许在经济上不可行。

一些专家正期待量子计算机在计算能力方面取得新的进展。量子计算机已经处于研究阶段几十年了。加拿大公司 D-Wave 已经在销售它所谓的量子计算机,但专家们不认为这是真正的量子计算机,而且在大多数应用中,这种计算机可能不比传统计算机快。尽管如此,D-Wave 计算机在一些应用中还是有用的:大众汽车使用 D-Wave 的量子计算开发了一种算法来优化北京的交通流量。使用 D-Wave 的计算机,该算法可以在几秒钟内运行,而传统计算机需要大约 30 分钟才能完成同样的任务。

谷歌、微软、IBM 和其他公司已经表示,他们将在几年内拥有可工作的量子计算机。量子计算崛起的一个重要里程碑将是“量子优势”的实现:量子计算机可以比任何经典计算机更好地执行某些明确定义的高性能任务。尽管大型科技公司纷纷宣布,但尚不清楚量子计算何时会变得普遍:可能在未来几年或几十年内。

一项变革性的技术

数据的创建出现了爆炸式增长,数据是算法的食粮。计算能力的进步使得越来越复杂和强大的机器学习算法能够运行。随着这些算法的改进,它们将在许多方面赶上或超过人类的智能。它们将在各个行业得到应用,从生物技术(它们将与基因组学交叉)到制造业。虽然还不清楚强人工智能需要多长时间才能出现,但可以预计大量弱人工智能将改变人类社会。人工智能对人类的影响确实将是变革性的,就像之前的火或电一样。

接下来:深度人工智能

沙恩雷

请关注媒体上的 Lansaar Research ,了解最新的新兴技术和新的商业模式。

[## 沙恩·雷

来自 Shaan Ray 的最新推文(@ShaanRay)。创造新价值和探索新兴技术| ENTJ | #科学…

twitter.com](https://twitter.com/shaanray)

机会的帝国:概率如何改变科学和日常生活

原文:https://towardsdatascience.com/the-empire-of-chance-how-probability-changed-science-everyday-life-a590e4274bb7?source=collection_archive---------11-----------------------

个人读书会第 1 卷-可节省笔记

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fortuna & her wheel

***这里有很多话,不需要全部看完。这篇简短的序言解释了接下来的内容

前言

我一直在阅读优秀的、开创性的概率史,[](http://.F & comments)概率帝国。我想我会做一些公共笔记&评论作为我的习惯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据作者自己的讲述,这本书大致可分为 4 个部分:

  1. 我们从 两个历史章节开始,分别描述了从十七世纪中期到十九世纪末概率统计的起源和发展 。在这里,我们介绍了概率演算不断变化的解释、对决定论不断变化的态度、不断变化的平均值和误差概念——所有这些都是在不断变化的应用背景下进行的。
  2. 在接下来的四章的每一章中,我们都专注于一个广泛应用的领域 :实验方法论、生物学、物理学和心理学。
  3. 同第七章, 我们把科学留给评估概率和统计对日常生活的影响 ,从天气预报到乳房 x 光检查。
  4. 最后, 我们调查 ,从类似胜利将军的山头, 我们所覆盖的领土

这第一期 Solo 书友的分期重点是第一节的前半段(简介+第一章),多为历史&概念叙述。后续部分将讨论以下章节。

我整理了摘录并添加了一些有限的评论。为了简洁和可消化性,我重新修改了文本,所以如果其中任何一个引起了你的兴趣,我强烈推荐购买并阅读原文

完整的斜体段落&“引用”是摘录,我的评论是无格式的。

很多,所以我尽量在长段落中加粗*要点,方便略读。*

我推荐阅读我的(短)简介,然后略读第一章小节标题 (1.1,1.2 等) &我对它们的一行摘要,然后让你的兴趣(或缺乏兴趣)引导你。

介绍

福尔图娜,历史中的机遇与科学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fortuna (left) and Sapientia (right) are depicted here in traditional opposition. The slow breakdown of this opposition is the topic of this book. Source: Petrarch, Remède de l’un et l’autre fortune prospère et adverse (Paris, 1524); courtesy of the Bibliotheque Nationale, Paris. [caption reproduced from the book]

这本书以一个典型的历史哲学典故开始:辛酸,微妙和博学。

福尔图娜,这位善变的命运女神,从来都不是哲学和科学的宠儿。在那本中世纪学术的试金石——波爱修斯的《哲学的慰藉》——中,清醒的贵妇人哲学警告说,只有当福尔图娜“表现出自己的不稳定和多变时,她才是真实的”,并且鼓吹 反对偶然性的存在,偶然性被认为是“由随机运动产生的、没有任何原因序列的事件”

科学研究的是原因,而不是机遇。

历史的复杂性已经混淆了我目前对机会和因果关系的概念。在我看来,概率分析和理解是科学实践的核心,然而在这里它们是对立的。科学被等同于一个“原因序列”,&这个序列被认为是确定的。然而福尔图娜也被嘲笑为“不稳定且多变”,表面上是对偶然性和非决定论的攻击。但是,攻击福尔图娜是“可改变的”只有在福尔图娜被传统地认为是“注定的”预定论的情况下才有意义,这似乎是偶然性的对立面,而当时的【科学】表面上推崇偶然性。**

困惑。

但是这些历史逻辑的结将在接下来的章节中被解开,并最终在接下来的几章中被揭示。

然而,就在伯纳德试图从生理学中驱逐偶然性和非决定论的时候,福尔图娜已经统治了一个庞大且不断增长的科学帝国。这个领域的法律是概率论和统计学。用伊恩·哈金令人回味的话来说,通过“驯服机遇”,概率和统计让科学女神和她的劲敌福尔图娜和解了。

从 17 世纪中期开始,概率论在 18 世纪的传播来自:

  • 赌博问题
  • 为了法理学,
  • 数据分析,
  • 归纳推理,
  • 和保险,
  • 并从那里转向社会学,
  • 十九中物理,生物,心理学,
  • 接着是农学,
  • 轮询,
  • 医学检测,
  • 棒球,
  • 二十世纪还有无数其他实际(和不那么实际)的事情。

这简明扼要地概述了概率理论的发展和领域背后的叙事弧线,将在以后的章节中深入探讨。但是“概率论”这个术语本身是有问题的,正如这本书的一个主要论点反复强调的:

在其历史的大部分时间里,概率论是它的应用。

这意味着概率论被它所征服的学科和它所侵入的学科一样多。

  • 例如,当概率成为评估出生、死亡、犯罪、气压波动、死信和其他类型统计数据汇编的工具时,概率的真正含义发生了变化,从头脑中确定的程度变成了世界上统计事件的比率(见 2.2)。 【我注:从贝叶斯或’ 逆概率’到** 频率主义**】****
  • 当英国学者弗朗西斯·高尔顿发明了一种方法来测量后代豌豆偏离其父母代的程度时,他启动了相关性分析(见 2.5;4.4).
  • 因素分析的根源在于教育心理学,优生学和农学中的方差分析等等。事实上,概率思想和技术的规则是起源于非常具体的背景,并依靠生动的类比而发展。
  • 正态或钟形曲线首先代表天文学中观察误差的概率,然后代表社会学中 l’homme moyen 的自然“误差”,然后代表表现出有序集体属性的无政府单个气体分子(参见 2.5;5.6).
  • 最终,正态曲线开始代表几乎所有事物的分布,从智商到农业产量,并摆脱了早期应用中的特殊解释(见 8.1)。但近一个世纪以来,这种具体的类比是它和其他概率概念从一门学科传递到另一门学科的桥梁。

这本书是关于概率和统计在科学和生活中的应用,其中“应用”被理解为一种特殊的含义:数学工具塑造了它的对象,但也被它塑造了。概率和统计的数学发展在艾萨克·托德亨特、L. A .麦斯特洛夫、O. B .谢宁、斯蒂芬·斯蒂格勒和伊沃·施耐德等学者的工作中得到了令人钦佩的处理。然而,我们主要关心的不是他们。我们分析概率和统计如何改变我们对自然、思维和社会的观念。

这充分地为即将到来的历史叙述搭建了舞台:系谱而非形而上学,概念而非技术。

第一章:古典概率,1660-1840

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

God . . . has afforded us only the twilight of probability; suitable, I presume, to that state of mediocrity and probationership he has been pleased to place us in here. . .
— John Locke (1690) [quoted in original]

1.1 简介

第一章以现代概率理论的典型起源故事开始:

1654 年 7 月,布莱士·帕斯卡就一个赌博问题给 Pierre Fermat 写信,这个问题后来被称为分数问题:两名玩家在一场碰运气的游戏中被打断,此时分数不均衡。股权应该怎么分?这两位法国数学家之间随后的通信被认为是数学概率的创始文件,尽管这并不是第一次试图用数学方法处理机会游戏。

这一事件已经成为概率的零号病人,以至于不得不发表一项对 Pasca l 之前的证据&概率的明确研究,以填补先前的空白。

《机缘的帝国作者强调了这一点,&帕斯卡后来的著名的赌注一个 数学 另一个 哲学 ,揭示了 概率的数学理论 :

它出现在十七世纪两次重要的知识分子运动的关键时刻:一种新的实用主义理性,抛弃了传统的确定性理想;以及将数学应用于新的经验领域的持续且卓有成效的尝试。没有另一个,任何一个都是不够的。关于大部分时间里会发生什么,以及与这种不可靠的体验相关的不同程度的确定性的哲学概念可以追溯到古代,就像概率游戏一样。但是在大约 1650 年之前,没有人试图量化这些可能性。光有数学企业的精神是不够的,因为量化需要一个主题,一种充实数学形式主义的解释。对于概率计算的来说尤其如此,直到本世纪它还没有独立于应用的数学存在。****

本章出现了两个主题:

  • 欧洲启蒙运动特定环境下哲学与数学的交汇
  • 概率演算在其存在的最初几个世纪中与它的实际应用密不可分

1.2 开端

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Sushobhan Badhai on Unsplash

在这一小节中:概率论前身的简史。

数学概率的史前史吸引了相当多的学术关注,也许是因为它似乎姗姗来迟。机会是我们永恒的伴侣,最早的概率论公式的数学是初级的。概率思维的暗示性片段在古典和中世纪的学术文集里几乎随处可见:

  • 大约在公元前 85 年,西塞罗在他的修辞学著作中将通常发生的事情与通常认为的事情联系起来,称之为两者都是可能的。
  • 在一份 10 世纪的手稿中,一位僧侣列举了掷骰子的全部 36 种可能性
  • 塔木德信徒对继承和亲子关系进行概率推理。

然而,这些都没有发展成概率数学。

有一些对各种假设的详细探索(&简要拒绝)来解释这种延迟的发展,但没有一个最终得到证实。

发现的是,为了保持应用优先于理论,早期的概率学家更多地根据期望值期望值 而不是潜在概率本身来提出问题:**

如果我们回到帕斯卡的两个沉思,我们会发现,尽管它们被公认为是后来被称为概率演算的一部分,但它们并不是按照概率来铸造的。相反,基本概念是期望,后来被定义为事件 e 的概率与其结果值 V 的乘积:

P(e)V = E

因此,举例来说,一个人持有一千张彩票中的一张,奖金为 10,000 美元,他的期望值是 10 美元。正如定义所暗示的,我们现在从概率中得到期望,但是对于早期的概率学家来说期望是先验的和不可约的概念**。**

期望反过来被理解为公平交换或合同。

……这些直觉利用了在十六和十七世纪商法中变得越来越重要的一类法律协议,即运气合同**。法学家将此类协议定义为用现在和确定的价值交换未来不确定的价值——赌一把、购买年金、购买保险、竞拍下一年的小麦收成,或者购买下一次的渔网。**

“运气契约”标志着赌博和司法推理的交集,这是概率哲学基础中的两大支柱。在本书的这一部分,他们还提供了一个最引人注目的历史旁白:

运气合同获得了突出地位和一定的恶名,作为免除商人贷款利息从高利贷的指控的首选方式。佳能律师认为,风险因素在道德上等同于劳动,因此为商人赢得了他的利益,就像他额头上的汗水一样诚实。

这让我想起了一位当代自称概率研究者(&不证自明的精神病患者)的新作,我还没看过。

接着,作者描述了概率论是如何在信仰的确定性和极端怀疑主义的无底怀疑之间解决历史冲突的:

  • 《帕斯卡的赌注》是一个例子,说明到了 17 世纪中叶,通过预期进行推理几乎已经成为一种新的理性的同义词。
  • 在 16 世纪,一方面是新教徒和天主教徒之间的宗教改革争论,另一方面是 Sextus Empiricus 和他的学校的怀疑主义哲学的复兴, 结合在一起破坏了自亚里士多德 以来指导智力探究的某些知识的理想。
  • 在它的位置上逐渐出现了一种更温和的学说,它接受少于确定知识的必然性,但仍然认为它仍然足以指导理性的人在言传身教和实践中
  • 亚里士多德在《尼各马科伦理学》中的格言被大量引用:“一个受过教育的人的标志是在每一类事物中寻找精确,只要该学科的性质允许:显然,接受数学家的可能推理和要求修辞学家的论证是同样愚蠢的。”【我注:lol】
  • 宗教改革和反宗教改革在信仰及其辩护的基本原则上的冲突,以及米歇尔·德·蒙田和其他 16 世纪思想家的激进怀疑主义的最终结果极大地侵蚀了论证的领域,扩大了可能推理的领域。他们的直接影响是更具毁灭性的,挑战任何知识的所有主张。

因此所有确定性的传统来源**、宗教和哲学同时受到攻击。面对信仰教条主义和最具腐蚀性的怀疑主义之间的选择,越来越多的 17 世纪作家试图开辟一个中间立场,放弃除数学和形而上学之外的所有确定性的希望,但仍然坚持认为人们可以获得可能的知识。或者说,他们坚持认为可能的知识确实是知识。**

机会的帝国正在增长,其基础在日常生活的实际应用只会加深:

为了证明那些仅仅是可能的人值得尊敬,这些“温和的怀疑论者”从稀有的哲学话语转向了日常生活的行为。理性信念的新标准不再是无懈可击的论证,而是足以促使一个谨慎的人采取行动的确信程度。

强调行动是信仰的基础,而不是相反,是抵御怀疑主义的关键,因为正如这些作家惯于尖刻地观察的那样,即使是最坚定的怀疑主义者也吃饭,就好像外部世界存在一样。

1.3 经典解释

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Dan Freeman on Unsplash

这一小节叙述了概率的所谓“经典”解释在它正式出现时的演变。

因此,机会的演算首先是期望的演算,从而试图量化在十七世纪学术话语中几乎随处可见的新的、更温和的理性主义。

从惠更斯 1657 年的小论文到雅各布·伯努利 1713 年的权威 Ars 猜想,最早出版的关于这个主题的作品涵盖了一系列只有在这个背景下才一致的主题。像赌博(惠更斯,皮埃尔·德·蒙特,雅各布·伯努利)和年金(约翰·德·威特,哈雷,尼古拉斯·伯努利)这样的偶然性契约,以及后来的证据问题,如历史或法庭证词的评估(约翰·克雷格,乔治·胡珀,尼古拉斯和雅各布·伯努利)构成了 新理论的应用领域。

到这个时期结束时,概率已经成为一个独特而原始的概念,尽管在此后的一段时间里,大多数应用仍然围绕着期望问题。

这些概率是如何衡量的,从一开始就不明确,直到今天仍然是一个有争议的问题。 【暗指巴伊亚人 vs 常客等】

最初,“概率”一词的意思是权威人士认可的观点;因此,耶稣会的概率论学说,诡辩家挥舞着赦免几乎每一个越轨行为的理由是,一个或另一个神学家采取了温和的观点。然而,17 世纪早期缓和的怀疑主义甚至改变了这种概率的定性意义。

合理性的支持者说的不是确定性,而是确定性,从通过证明获得的最高等级的“数学”确定性,通过感官证据的“物理”确定性,到基于证词和推测的“道德”确定性。不同作者对这些层次的精确描述略有不同,但这种有序等级的概念,以及对大多数事情只承认道德确定性的强调,仍然是从雨果·格劳秀斯的《基督教宗教真理》(1624)到约翰·洛克的《关于人类理解的论文》(1690)及其后的文学作品的主要内容。当 Joseph Butler 主教在 1736 年声称“概率是生活的向导”时,他是在重复一句陈词滥调。

在这些讨论的背景下,“概率”一词的真正含义已经从中世纪的任何权威意见转变为与手头的证据成比例的同意程度,包括事物和证词。

作者描述了概率从定性到定量的渐进过程:

正如大量的法庭案例和类比所表明的那样,这些概率是定性构思的,在很大程度上归功于法律证据的语言和实践。

然而,像戈特弗里德·威廉·莱布尼茨和雅各布·伯努利这样的数学家抓住了新的“危险分析”作为量化这些确定度的手段,并在这样做的时候,将三个有序点转换成一个完整的连续体,从完全不相信或怀疑到最大确定性

事实上,莱布尼茨将羽翼未丰的概率演算描述为法律推理的数学翻译,这种法律推理使法官对提交的各种证据的把握程度达到精确的比例。事实上,这些法律概率有时用分数来表示,以创造一种“证据的算术”(例如,被告的一个亲戚的证词可能只把⅓算作一个无可指责的证人),这可能使它们看起来在数学上容易处理。

着手尝试以某种非任意的方式测量这些概率的数学家们提出了至少三种方法 :

  • 基于物理对称性的同等可能性
  • 观察到的事件频率
  • 和主观确定度或信任度。****

第一款非常适合硬币或骰子等赌博工具,但不适合其他工具;
-第二个依赖于收集的统计数据和长期稳定的假设;
第三呼应了对证据确定度进行比例分配的法律实践。

有趣的是,作者们(大概是最初的概率学家)承认,对掷硬币、掷骰子和从瓮中拉出的概率的概括非常有限,但这些仍然是主要的教学手段&用于传达概率的类比。(前面提到的某个精神病患者称之为“卢迪谬误”)

各种意义从不同的上下文中出现,并暗示了数学理论的不同应用。

  • 源自赌博并应用于赌博的基于物理对称性的等概率结果集——很少有其他情况以明显的方式满足这些条件。
  • 统计频率最初来自 16 世纪以来教区和城市收集的死亡率和出生率数据。1662 年,英国商人 John Graunt 使用伦敦死亡率清单来估算死亡率表,他假设大约相同比例的人口在六岁以后每十年死亡一次。
  • 18 世纪的作者收集了更详细的人口统计数据,并利用概率论来计算年金和后来的人寿保险的价格,并论证人类事务中的神圣天意。
  • 与证据成比例的认知信念感源于法律理论,即需要多少和什么样的证据才能在法官心中产生什么程度的信念,并激发了对法庭和历史证据以及判决的证词概率的应用。

作者继续描述了古典概率学家中客观和主观模式之间的流动转换,以及频率主义的增长蔓延[暗示不祥的配乐]:

现代概率学家认为这三个问题的答案是,“概率衡量什么?”作为截然不同的,和许多墨水已经泼争论他们的相对优点和兼容性(纳格尔,1955)。特别是,在概率的前两个“客观”意义和第三个“主观”意义之间画了一条粗线,前者对应于世界的状态,后者对应于精神状态

然而,古典概率学家使用“概率”来表示所有三种意义,漫不经心地从一种意义转移到另一种意义,这让他们更善良的继任者感到困惑。为什么经典概率学家能够如此容易地将这些不同的概率概念融合在一起,而且常常非常富有成效?在某种程度上,因为客观和主观感觉当时没有被当前哲学中它们之间张开的鸿沟分开。

在游行频繁主义:

16 和 17 世纪的法律理论家发现,假设法官心中形成的信念与提交的证据的分量成比例似乎是合理的,洛克在更一般的背景下重复了这一假设,援引证据的定性概率:理性思维同意一项主张“与一方或另一方更大概率理由的优势成比例”。

约翰·洛克、大卫·哈特莱和大卫·休谟创造并完善了一种观念关联的理论,这种理论使大脑成为一种计数机器,自动记录过去事件的频率,并相应地衡量对其重现的信任程度。

哈特利甚至为这种心理记录提供了一种生理机制:每一次重复的感觉都会产生一种大脑振动,在大脑中蚀刻出一条越来越深的凹槽,对应着一种越来越强烈的信念,即事情会像以前一样。【看似合法】

由于头脑不可抗拒地赋予信念与想法的生动性成正比,过去经历中的事件发生得越频繁,就越坚信它们会再次发生。洛克和哈特利认为信仰与频率的匹配是合理的。

然而,所有人都同意,正常的头脑,当未被教养或偏见所污染时,会不可抗拒地将主观的信仰概率与客观的频率概率联系起来。他们还显示出一种日益增长的趋势,那就是将所有形式的证据减少到一定的频率,这与最初的法律学说形成了对比,法律学说认为证据与信仰程度成比例。

对法官来说,目击证人的证词,即有人看见被告拿着出鞘的带血的剑逃离谋杀现场,其证明力来自证据的质量,而不是数量。过去类似的证据导致成功定罪的次数并不重要。洛克在他对创造可能性的证据种类的讨论中仍然非常接近这一法律传统:证人的数量,他们的技能和正直,矛盾的证词,内在的一致性,等等。他讲述了暹罗国王的警示性故事,暹罗国王认为荷兰大使是个骗子,因为他在冰冻的运河上滑冰的故事与几代暹罗人积累的水总是流动的经验背道而驰。国王错误地相信他的经验的数量,而没有评估它的广度和多样性。然而,洛克也为“经验的频率和恒常性”和数量,以及证词的可信度留有一席之地。

我们最终来到这个荒谬的极端,新生的频率主义范式的逻辑结论:

后来关于概率的哲学著作将证据的意义进一步缩小到可数的范围。休谟代表了这种进化的终点,在这种进化中,证据变成了重复、相同事件的总和。根据休谟的说法,头脑不仅会计算;它对总数中的微小差异非常敏感:“当一方的机会或实验达到一万次,而另一方达到一万零一次时,由于这种优势,判断会优先考虑后者”。** 【啊!!!]**

最后,事件的“客观”频率和信仰的“主观”程度之间日益增长的紧张在概率论及其实践者中分裂了一个持久的分歧:

一些作者认为,主观信念与客观频率以及物理对称性成比例,这种保证使得经典概率学家在没有明确理由的情况下,从一种概率感滑向另一种概率感。只有当联想主义心理学将其重点转移到幻觉和扭曲上时,偏见和激情才会引入这种对概率的心理计算,主观和客观概率之间的差距才会变得足够明显,从而要求在两者之间做出选择。与其说是彻底的频率主义版本的概率论的发展和胜利标志着经典解释的终结,不如说是人们认识到必须在(至少)两种不同的概率意义之间做出选择。经典概率学家应用其理论的问题范围表明,他们对概率的理解包括客观和主观因素:统计精算概率与雅各布·伯努利或拉普拉斯工作中的认知证据概率愉快地共存。

1.4 决定论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这一小节描述了认识论决定论的张力,这种张力支撑着经典概率的主观“相信程度”学派。
它也“解开”了我们在书的介绍中遇到的“机会”悖论。

这两位数学概率史上的巨人的著作[ 拉普拉斯&伯努利 ]也包含了这样的宣言,不管是对是错,导致了经典解释不可救药的主观的标准观点

两人都认为概率衡量的是人类的无知,而不是真正的机会。上帝(或拉普拉斯世俗化的超智能)不需要概率;必然的原因,无论多么隐蔽,支配着所有的事件。因此,概率必须是精神状态,而不是世界状态,智力的临时工具太弱,不能立即穿透事物的真实本质。

他们的是一种认识论决定论,认为所有事件原则上都是可预测的,因此概率与我们的知识相关。伯努利评论说,落后的民族仍然在赌欧洲天文学家现在可以预测的日食;有一天,当机械科学完善时,硬币和骰子的赌博会显得同样原始。

那些在自然科学和道德科学中为偶然性开辟了一席之地的数学家们坚持认为,用亚伯拉罕·棣·美弗的话说,偶然性“既不能被定义,也不能被理解”。他们确实承认,某些统计数据每年不同,各地不同,但他们对死亡率等现象的潜在规律性有足够的信心,从而相应地简化和调整这些难以控制的数据。他们认为,经过充分调查,可变性将被证明与偶然性一样虚幻。

为了解开古典概率学家的热情决定论的明显矛盾,我们必须超越概率论,看到它出现的那个时期的泛数学精神。在将数学应用到全新的经验领域——从彩虹到振动的琴弦——取得惊人成功的时期,古典概率兴起并繁荣起来。像伽利略这样的自然哲学家认为,如果自然说数学语言,这是因为自然是完全确定的,至少从上帝的角度来看是这样的:在数学论证中,连接因果的胶水必须和连接前提和结论的胶水一样强。

决定论因此成为对自然进行数学描述的先决条件。

这仍然让我困惑,尽管我理解了培养这种心态的历史条件。想象我们的知识是不完美的世界上存在真正的随机性,这似乎不是一个不可思议的逻辑飞跃。**

无论如何……继续这些愚蠢的老天才:

经典概率论在运气被放逐的时候到来;它需要一种彻底的决定论氛围,甚至包括可变事件,作为稳定潜在概率的表达,至少从长期来看是如此。

决定论通过将可变事件锚定在恒定概率上,创造了一种可以想象的“机会几何学”,因此,即使是偶然事件也符合当时将数学应用于经验的标准

那些标准与旧的真实的偶然性概念不相容,或者与我们可以称之为世界上真正的随机性不相容。

“机会”和“财富”自亚里士多德以来就一直是哲学词汇的一部分,意思是各种各样的巧合(在去市场的路上遇到欠你钱的人),缺乏目的(通常被认为是必然的,如伊壁鸠鲁原子的“盲目的必然”),或健康、财富、美丽和子女等“外部”物品的充足禀赋(索拉布吉,1980)。

所有这些含义都保留在日常用法中,但只有一个在经典概率论中发挥了重要作用。这是机会和目的的对立,特别是神圣的目的,自然神学家和他们的或然性盟友如德·莫维尔对此大加赞赏。

对于古典概率学家来说,因果顺序之外的“机会”和“运气”是迷信。如果我们能看到世界的本来面目,穿透到事物的“隐藏的源泉和原理”,我们就只会发现必然的原因。概率只是暂时的,是人类无知的虚构,因此是主观的。

数学概率的经典解释因此具有决定论的特征,因此具有主观倾向,并且在实践中具有流动性的概率感,在联想心理学的帮助下将主观信念和客观频率融合在一起

正如拉普拉斯在一段著名的文章中所说的,数学概率在本质上是“仅有的理性化为微积分”。它的地位与其说是一种应用的数学理论,不如说是某种现象的数学模型,就像描述月球运动的天体力学部分。因此,它经受住了实证检验。如果天文理论未能预测月球扰动,那对理论来说就更糟了。当经典概率论的结果与理性人的直觉不符时,数学家们又回到了起点。

1.5 合理性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Chris Tweten on Unsplash

这一小节详细介绍了古典概率,非常实用,是如何与“理性”和直觉相比较并最终服从于后者的。

关于圣彼得堡问题的旷日持久的争论正是理性和概率论的规定之间的冲突,并说明了数学家们是如何认真对待他们的“良好判断力”建模任务的

尼古拉斯·伯努利(Nicholas Bernoulli)在给皮埃尔·德·蒙莫特(Pierre de Montmort)的一封信中首次提出了这个问题,并发表在后者的《哈萨尔的青年分析》(Essai d ’ analyse sur les jeux de hasard,1713 年)第二版中。皮埃尔和保罗用一枚硬币玩抛硬币游戏。如果在第一次投掷中硬币正面朝上,皮埃尔同意付给保罗 1 美元;如果第二次掷硬币时正面没有出现,保罗得到 2 美元;如果没有,直到第三次投掷,4 美元,等等。根据标准方法计算,保罗的期望(以及玩这个游戏的公平价格)是:

E = (1/2 x $1) + (1/4 x $2) + ... [(1/2)^n x $2^(n-1)] + ...

因为即使是公平的硬币也有很小但有限的机会产生连续的尾部,而且回报随着这种事件发生的概率的降低而增加,所以期望值是无限的。然而,正如 Nicholas Bernoulli 和所有后来的评论员很快观察到的,没有一个理性的人会支付哪怕是很小的一笔钱来玩游戏。尽管数学家们称之为悖论,但从同等有效性的假设中得出的结果并不矛盾

期望值的计算很简单,在期望值的数学定义中没有任何东西排除了一个无限的答案。相反,令他们感到矛盾的是,数学理论的结果可能与良好判断力的明显要求如此不一致。现代意义上的应用数学家可能会简单地质疑数学理论对这类问题的适用性,但这条道路对十八世纪的混合数学家并不开放。在他们看来,数学结果和良好判断力之间的冲突威胁到了数学概率的有效性。

这就是为什么圣彼得堡问题本身微不足道,却成为经典概率学家关注的焦点。

作者回顾了关于“悖论”的微妙争论,特别是通过伯努利兄弟的视角,他们将概率应用的发展领域拟人化:

伯努利兄弟之间争论的不是概率期望是否应该模拟合理性,而是这种合理性包含在哪里。尼古拉斯站在源自运气契约的古老公平观一边;丹尼尔与越来越重要的经济审慎意识,源自商业。

典型的理性人不再是公正的法官,而是精明的商人,概率的数学理论反映了这种转变。

因此,概率演算试图编纂当时的“合理”直觉,但也反映了那个时代的精英主义和方法论热情:

如果他们的演算得出的结果与启蒙运动者一直以来所知道的相呼应——正如《数学序言》一篇接一篇地强调的那样——那么所有精心设计的方程和计算机制似乎都是对显而易见的东西的重复。概率学家回答说,用伏尔泰的话来说,常识没有那么普遍

只有一小部分精英人物能够通过独立的直觉进行足够准确的推理;概率演算试图将这些直觉(概率学家认为这些直觉实际上是潜意识的计算)编纂成文,以供并非天生如此的普通人使用。

推理演算的理想,一套独立于内容的形式规则,对许多十七和十八世纪的思想家产生了某种致命的吸引力。概率学家希望将“猜想的艺术”变成这样一种演算,这与 17 世纪对极端方法的迷恋相呼应。

机械论方法中的这种极端乐观主义恰如其分地反映在“拉普拉斯的恶魔”&一个“发条宇宙的想法”中。它也随着最极端的乐观主义的终结而终结…

因此,经典概率论立刻成为合理性的描述和处方。

两个含糊不清的地方,都没有被清楚地认识到,混淆并最终破坏了经典的程序,使合理性数学化。

  • **第一个 在圣彼得堡问题引发的关于期望的争论中很早就浮出水面: 有几种截然不同的合理性品牌,它们有时会导致同一问题的截然不同的解决方案 。公平的法官和精明的商人没有就预期的正确定义达成一致,但他们都属于霍姆斯·克莱尔的精选公司。然而,概率学家坚持认为合理性是统一的,尽管对如何定义它有无休止的争论。法国大革命的巨大动荡粉碎了他们对少数开明人士自然共识的信仰。
  • 第二个 歧义关注的只是 描述与处方 之间的界限在哪里。

在其漫长的职业生涯中,由于对理性理想的幻灭以及客观和主观概率之间日益扩大的差距,经典概率论的重点慢慢从描述性转向规定性。****

作者以对当时概率理论的清晰描述来结束这一小节:

**:这些都是数学概率经典解释的标志

  • 一种卓有成效的 主观与客观的融合 感官的概率;
  • 一种 彻底决定论 坚决否认真实偶然性的存在,并在纲领性陈述中突出概率的主观意义;
  • 一个致力于 混合数学目标的建模现象**
  • 首先是理论与实践理性形式的认同,这种形式后来被称为合理性

对于那些在 20 世纪受过区分教育的人来说,数学理论独立于其无数可能的解释和应用,但是对于经典概率学家来说,它们都是一个整体。

1.6 赌博和保险的风险

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

接下来的两小节包含了概率领域发展的大量叙述细节,这些是要点:

赌博是典型的随机契约,数学家们解决的第一批问题就是这种类型的。

尽管进步很快,大多数概率学家还是对他们的股票交易赌博问题和他们声名狼藉的关联感到不自在。

显然,大多数赌徒对这种教化没有什么兴趣。

经典概率学家感到他们对赌博数学的兴趣立刻被忽视和鄙视,急切地将他们的注意力转向其他更值得尊敬的运气契约类型:

  • 葡萄酒期货
  • 年金
  • 海上保险
  • 遗产的期望
  • 嫁妆基金
  • 收益权

这一时期的统计数据以出生、婚姻和死亡的人口统计数据的形式出现,因为这是自 16 世纪上半叶以来政府一直要求教区登记的信息,原因与概率论无关。

数学家毫不犹豫地将这些统计频率解读为概率,并从中发现了从赌博向更有声誉的运气合约发展的途径。

但是唉,再一次…

总的来说,18 世纪年金和人寿保险的买家和卖家并不比赌徒们对概率论更感兴趣。

因此,在十八世纪的大部分时间里,风险的数学理论对风险实践的影响实际上是零。

从业者对概率学家的数学方法的抵制是根深蒂固的,在今天的反经验主义中仍然可以看出:

风险从业者抵制风险的数学理论还有其他更深层的原因。早在数学概率和统计学出现之前,像赌博、年金和海上保险这样的偶然性合同的当事人已经在直觉的基础上同意了未来偶然性的价格,这与概率学家的直觉完全相反。****

风险中的交易商表现得好像世界是一个个案例的马赛克,每一个案例都由业内老手根据具体情况进行评估,而数学家则提出了一个简单、稳定的规则世界,任何拥有正确数据和公式的人都可以利用*。*****

对于风险从业者来说,接受风险的数学理论需要信念的深刻变化,对于人寿保险来说,还需要价值观的深刻变化。他们不得不用集体适用的规则取代个别案例,用估算取代经验丰富的判断。

数学家们认为从长远来看会相互抵消的局部扰动,从业者们却认为这正是他们的本行

只有良好的判断和对这些细枝末节的透彻理解才能对正在讨论的风险进行定价

风险的实践不仅仅是统计的;这是一种积极的反统计方法,因为它只关注个案,而忽略了大量数据和长期数据。

修行者把时间等同于不确定性,因为时间会给这些关键的条件带来不可预见的变化;概率学家将时间等同于确定性,大量的数字揭示了表观通量背后的规律。

领域专家和经验主义定量分析师(通常不计其数)之间的紧张关系,以前者对个别案例的微观关注和后者对更广泛的统计模式的总体宏观关注为代表,如今依然存在。在接下来的章节中,我们还会听到更多关于这些主题的内容。

1.7 证据和原因

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

运气契约并不是古典概率学家从法学家那里接手的唯一应用领域。他们也很早就将注意力转向证据问题,尤其是证人证词的问题。

从雅各布·伯努利到泊松,几乎每一个概率学家都尝试过证词的概率,蒙莫特在询问这些事情是否真的是数学理论的合法应用方面是个例外。

这个问题的棘手刺激了频率主义的下一个大飞跃,这也许是一个太远的飞跃:

****从雅各布·伯努利著名的定理开始,概率学家解决了多少成功产生何种程度的确定性的问题。这意味着从概率论的角度重新塑造因果观念,也就是说,将它们与无处不在的瓮模型联系起来,后者成为经典解释的标志。

想象一个瓮,里面装满了一些固定比例的彩球,从这些彩球中可以重复绘制替换图案。伯努利定理指出,在极限情况下,随着抽奖次数 N 趋近于无穷大,观察到的彩球比例 m/N 对应于 urn 内实际比例 P 的概率 P 趋近于确定性:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

伯努利定理相当于一种保证,即从长远来看,观察到的频率将稳定在“真实”的潜在值附近,规律性最终将战胜可变性,原因战胜机会

这个结果是平庸和创新的奇妙混合。

老生常谈,因为正如伯努利自己在给莱布尼茨的信中承认的那样,“即使是最愚蠢的人也能通过自然本身的某种本能,而不是通过先前的指示知道”证实的观察数量越多,推测就越可靠革命性的,因为它将确定度的概率与频率的概率联系起来,还因为它创造了一个本质上没有原因的因果关系模型。

此外,新的模型放弃了对机制的所有探索,而是寻找运行世界时钟的隐藏的弹簧和原理。

伯努利瓮模型中,数字生成数字;他们这样做的物理过程完全不可思议。

这个定理是原因概率的基石,然而它并没有真正提供一种从已知结果到未知原因的推理方法,即使是在频率和概率的有限意义上。因为在任何有限数量的试验中简单地从观察到的频率中读出潜在的概率是不合理的:如果没有一些额外的简化假设,频率永远不会明确地收敛到一个值。

给定概率,伯努利定理揭示了观察到的频率以任何期望的精度逼近该概率的可能性。

^正是频繁主义的定义。

我们需要的是逆运算:给定观察到的频率,有多大可能逼近未知的概率?

^输入“逆”/“贝叶斯”概率。

或者,正如人们更经常提出的问题,鉴于一个事件以前已经发生过多次,那么它在下一次试验中再次发生的概率是多少?简而言之,未来像过去一样的概率有多大?这些所谓的逆概率成为了原因概率的核心。托马斯·贝叶斯皮埃尔·西蒙·拉普拉斯独立证明了伯努利定理(Bayes,1763;拉普拉斯,1774),其应用至今仍有争议(见 3.4)。****

伯努利定理是因果关系的数学模型,特别适用于检测“弱”原因的存在,如动物磁性,而逆定理是科学方法本身的数学模型,用于根据新数据评估假设的状态,如男女比例优势。****

因此,我们到达了概率论历史的一个紧要关头(至少事后看来是这样),但在以后的章节中会有更多的介绍。

1.8 道德科学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这一小段描述了古典概率学家对启蒙社会科学和伦理学的参与,他们试图在“钟表社会”的假设下,将一种原始的定量社会学带入其中。

正是在启蒙运动的道德科学中,古典概率论中的理性人最为明显。由于这个原因,概率学家长期以来努力使他们的演算成为道德科学,用孔多塞的话说就是“社会数学”。

这个项目公正地呈现古雅在短时间内:

他们 19 世纪的继任者嘲笑这个程序是不切实际和专横的混合体,是对数学好名声的诋毁。

但是对古典概率学家来说,没有什么比他们的演算应该应用于法理学、政治经济学和道德科学的其他部分更明显的了。为了理解他们的信心,我们必须首先理解启蒙运动道德科学的假设和目标,以及它们如何与经典概率论的假设和目标相协调。

个人主义和结构主义倾向之间的紧张再次出现,这次是在启蒙运动和现代主义阵营之间:

与 19 世纪的社会科学不同,道德科学的学生把个人而不是社会作为他们的分析单位。就他们与整个社会打交道而言,他们认为社会是这些个人的集合体。此外,道德科学试图揭示的规律性是这些个体做出理性决定的结果,而不是文化和社会总体结构的结果。

在这个意义上,理性的个人是社会规律性的原因;社会秩序来自有序的个体

像经典概率论一样,道德科学既是描述性的又是规定性的。一方面,他们声称揭示了人类思想和行动的不可改变的秩序;另一方面,他们敦促改变现有的社会安排,以更好地接近这一秩序。

许多细节和历史参考点如下,但它的关键是:

概率学家通过法理学进入道德科学,原因与微积分本身的历史和当时的政治气候有关。

在 1789 年大革命爆发和 1830 年七月君主制之间的法国政权更替中,这成为一个紧迫的政治现实。

在为道德科学服务的过程中,数学本身带上了道德色彩。

1.9 结论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后,作为下一章的预演,总结这丰富而精粹的一章。

1837 年,当泊松声称已经用所有数学的严谨性证明了他的结论时,概率的经典解释在几个方面受到了攻击。

这些批评家也对证词和原因的可能性表示轻蔑;一个是试图量化不可估量的因素,如真实性,另一个是用纸上谈兵来代替诚实的实证研究。

到了 1840 年,这个被吹捧为明智的理论被简化为微积分,许多数学家和哲学家认为这是“智力失常”

数学家们第一次开始将概率论与其可疑的应用区分开来。

在 19 世纪初的几十年里,使经典诠释及其特有应用成为可能的知识和社会背景消失了。法国大革命和随之而来的社会紧张局势动摇了概率学家对单一、共享的合理性标准存在的信心,而几十年来关于预期正确定义的争论却没有动摇这一点。

理性的人分裂了,然后连同他们应该代表的知识分子和政治精英的共识一起消失了。在浪漫主义的第一次浪潮中,理性本身不再是一个隐含的计算问题,而是与不可分析的直觉和情感相一致。

经典的解释已经失去了它的题材。它也失去了融合客观和主观可能性的理由。

主观信念和客观频率开始时是等同的,结束时是截然相反的。

一旦客观可能性和主观可能性之间,以及概率计算和良好感觉之间的心理纽带消失,经典解释就变得既危险又主观,而且明显不合理。

贝叶斯被流放:

在常客们的口中,“主观的”变成了一个绰号,他们毫不留情地批评那些将“同样未决定的”等同于“同样可能的”的应用,就像贝叶斯定理的许多经典应用一样。

少数杰出的数学家,最著名的是英国的奥古斯都·德·摩根和 W. S .杰文斯,在 19 世纪中期支持一种或另一种概率的经典解释,但他们是四面楚歌的少数。

概率学家从少数人的理性转向了多数人的非理性。

第一章到此为止。

敬请期待下一期&如果你喜欢这本书,[请购买这本书](http://The Empire of Chance)!

另外关注我&查看我的其他帖子😃

——
在推特上关注:@ dnlmc
LinkedIn:linkedin.com/in/dnlmc
Github:https://github.com/dnlmc

公开人工智能竞赛的终结

原文:https://towardsdatascience.com/the-end-of-open-ai-competitions-ff33c9c69846?source=collection_archive---------12-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

UC Berkeley’s Overmind winning the first StarCraft AI Competition

出自星际争霸 AI 大赛创始人。

更新: Dota 2 确实提供了一个脚本接口,使得机器人可以用 Lua 编写。然而,这种有限的接口并不能使机器人与远程进程进行通信,并保存有关所玩游戏的数据。

OpenAI Five 对人工智能来说是一个巨大的进步,但对人工智能研究人员来说也确实令人生畏。以前从未有过这么多用于构建人工智能系统的开放工具,但也感觉近年来学术界的准入门槛实际上有所增加。早在 2009 年,我就发布了一个公开的呼吁让任何感兴趣的人来建造最好的星际争霸 AI,并且它对任何对 AI 感兴趣的人开放。现在,似乎你需要获得封闭的 API、大规模计算能力和历史训练数据,才能在人工智能方面取得进展。

我提出这个论点是在唱反调,希望能证明我是错的。我希望看到更多的公开比赛,以及没有大量计算资源的研究人员可以继续在人工智能方面取得进展的领域。以下是我在最近的进展中看到的一些主要问题。

封闭 API

据我所知,OpenAI 正在使用一种 API 来构建和训练机器人,而学术研究人员却无法使用这种 API。如果你是一名研究生,想要为 Dota2 制作一个机器人,那么你需要等到当前的比赛结束,开源版本最终推出。对于像围棋这样的游戏来说,深度和强化学习已经取得了很大的进步,这个问题不是问题。但是,如果你是一名研究生,想从事拥有大量活跃玩家的视频游戏,你的选择是极其有限的。星际争霸 2 的 DeepMind API 看起来是一个很好的选择,但是你仍然会面临其他的挑战。

**解决方法:**找到带有您可以使用的 API 的游戏。我在研究生院的时候用育雏战争 API 为原版星际争霸写了一个机器人。这是一个巨大的黑客攻击,我设法让它与 Java 一起工作,但我非常幸运,这个项目没有被暴雪关闭。很高兴看到开源社区继续发展 BWAPI 和 Java 版本

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bot debugging from an early BWAPI-Java prototype.

电脑很贵

OpenAI 正在花费大量的计算能力来训练机器人,DeepMind 训练围棋机器人的努力也是巨大的。这是 OpenAI 在博客文章中提到的一个问题,但这也让学术界感到沮丧。学生不太可能有大量的云计算资源来训练表现专业水平的机器人。

**变通:**找到你能解决的子问题。这实际上是 OpenAI 以前做的事情,通过专注于 1on1 匹配,然后通过放松越来越多的约束,慢慢进展到 5v5。我在最初的星际争霸 AI 比赛中加入了一场受技术限制的比赛,但它没有完整的游戏选项那么受欢迎,部分原因是没有了解这个版本游戏的人类对手可供参与者训练。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

One of the sub-problems in the original StarCraft AI Competition.

培训用数据

我的论文研究的目标之一是建造一个从职业玩家那里学习的星际机器人,但现在一段时间过去了,我意识到一种不同的方法可能会更有效。我可以为机器人如何行动指定一个奖励函数,然后让它自我训练,而不是向我的机器人展示如何表演。但是,我没有一个好的模拟环境,只能依靠当时从网上搜集的稀疏的训练数据。当你在处理子问题时,这尤其是个问题,比如 Dota2 中的 1on1,专业回放根本不存在。

**变通办法:**从网络上挖掘数据集,比如 TeamLiquid 等网站的专业回放。这对于 sub 问题不起作用,但是你可以用你自己的游戏来启动 replay 集合。我使用第三方工具来解析回放,然后用 BWAPI 构建了一个导出工具。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Exhibition match at the first StarCraft AI Competition.

后续步骤

我为游戏 AI 的学者和爱好者提供了一个悲观的观点。看起来你需要连接和强大的计算能力来推进游戏人工智能。这很有帮助,但这并不意味着没有伟大的方向你就会取得进步。下面是我的一些建议,让人工智能竞赛变得更加开放:

  • 开放 API 让机器人与人类对手对战
  • 提供重放数据的语料库
  • 与开源和云工具集成

由于 Keras 等工具和像 Colaboratory 这样的环境,使得与其他研究人员在模型上合作变得更加容易,现在很容易建立和运行深度学习环境。

在某种程度上,我最初呼吁研究开放的人工智能问题失败了。这是一个公开的问题,但我并没有完全鼓励参与者公开他们解决问题的方法。现在,伟大的协作工具已经存在,这是公开解决人工智能问题的好时机。

本·韦伯是 Zynga 的首席数据科学家。我们正在招聘!这篇文章是基于我在学术界的经验的观点,不代表 Zynga。

改变工程师的思维模式:从如何到为什么

原文:https://towardsdatascience.com/the-engineering-mindset-6b9d9368207e?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在一个数据泛滥、信息泛滥的世界里,我们可以在家里舒适地从看不见的云上发现外面的天气;是时候后退一步,问一些重要的问题了。

作为这篇文章的前言,我想提一下,我是技术的倡导者。认为一个没有技术有效解决我们问题的理想世界存在是愚蠢的。也就是说,指数级增长会带来难以预料的结果。这就是为什么在当今社会意识是关键。技术幕后的神秘绿人到底是谁?

介绍:工程师思维

当一名工程师在工作中遇到问题需要解决时,他首先想到的问题通常是如何?我将如何创建此解决方案?我将使用什么样的技术?应该有多高的性能?这个可以优化吗?效率似乎是感兴趣的话题。然而,这里的问题是,没有人问为什么是。我为什么要造这个火箭?为什么我的公司资助战争?为什么我不能和家人分享我的工作?

计算机伦理领域的先驱 James H. Moor 简洁地解释了这个问题:

“多年来,计算机一直被用来计票。现在,选举过程正变得高度计算机化……在上次美国总统选举期间,电视网络不仅在加州投票结束之前,而且在纽约投票结束之前就预测了结果。事实上,当宣布获胜者时,半数以上的州仍在进行投票。问题不再是“在一场公平的选举中,计算机计票的效率有多高?而是“什么是公平的选举?“有些人在投票前就知道结果,这合适吗?问题在于,计算机不仅将每位候选人的选票制成表格,还可能影响这些选票的数量和分布。不管是好是坏,我们的选举过程正在改变。”

是时候改变工程思维了,不要只问怎么做。相反,我们必须停下来问 为什么

我们什么时候应该问为什么?

我想说,我们应该一直问为什么,尽管为了提供具体的指导,我将讨论我们应该保持警惕的三个技术领域。

  1. 机器学习偏差
  2. 数据收集和隐私
  3. 人工智能

从机器学习偏差开始

在过去的一年里,我致力于公平模型的数据科学研究。为了更全面地了解这个主题,我强烈推荐 Hanna Wallach 关于大数据、机器学习和社会科学的文章。

对我来说,一开始是对数据偏差的介绍,但很快演变成了一个关于机器学习危险的大开眼界的项目。我专注于修正在信用评分和贷款审批领域种族偏见的 ML 预测因子。但我意识到,还有一个更大的系统性问题不容忽视。

这个问题从 ProPublica 的风险评估案例研究中可以看得最清楚。在这起事件中,机器学习被用来预测罪犯成为惯犯的可能性。这种可能性被汇总成一个叫做风险评估的分数。这些评估在整个监禁过程中都要用到,有时甚至在法官做出最终决定之前交给他们。

这种情况的问题是,这些预测器的训练数据充满了冗余编码的偏差和歧视。事实证明,与白人罪犯相比,更多的非裔美国罪犯被给予了不公平的高评价。这个机器学习预测器无意中延续了种族主义的犯罪不公。

想象一下,如果创造这些预测器的数据科学家花时间注意到这个问题。尽管高性能的预测器仍然可以延续几代人的歧视,但重点是高度面向 ML 模型的优化和准确性。

它只是将问题从*“我如何优化这个模型的性能?”* To,“我为什么要创建这个模型?”如果更多的思考放在工作的目的上,预测者的社会分支可能不会那么容易被忽略。

数据收集和隐私

随着 GDPR 的全面展开,数据隐私已经成为科技行业内一个敏感的话题。很明显,在缺乏隐私的情况下,处理某人的数据可能会导致意想不到的后果。从不准确的数据中解读出的相关性和趋势会间接地将人们归类到一个他们无法抹去的角色中。[参见:被遗忘的权利

数据隐私官员开始质疑数据处理和删除的道德含义,但还没有围绕收集敏感数据的讨论摆在首位。在资本主义社会,公司利益相关者对收入的兴趣显然高于隐私。在美国,GDPR 变成了合规游戏,因为科技巨头害怕被罚款。历史上,美国公民的数据透明度一直是一种公关噱头,伴随着 GDPR 对欧洲公民的要求。

首席信息官们开始担心加州隐私法案,因为他们不能再依靠美国客户数据来弥补欧洲基于隐私开发的收入损失。缺少的对话包括在服从和原则之间的动机转换。

不要问,“*我们如何在遵守 GDPR 法案的情况下停止收入损失?”*我们必须问,“为什么我们的收入首先依赖于敏感数据的收集?”

忽略前者而问后者会让高管们暂停下来。或许为基于广告的收入模式收集敏感数据并不是唯一的解决方案。也许这将激发人们考虑一种根本不需要收集数据的基于订阅的替代方案。

人工智能

人工智能很容易成为伦理辩论的目标,原因很简单,因为机器人让人类感到恐惧,因为它们只不过是想象中的虚构物。随着神经网络研究的飞速发展,恐怖谷正成为一个旅游目的地。抛开对终结者的恐惧不谈,我们感兴趣的话题在于,劳动力自动化不再是过去的担忧。机器人正在取代我们的工作,创造了一个新的失业世界。

当我听我的同事们讨论最新的机器人厨师或自动驾驶汽车时,我看到他们的眼睛充满了可能性。创造这些突破性生物的工程师们对一项技术创新如此兴奋,他们没有意识到他们可能正在编码自己的未来。现在, Miso Robotics 已经创造了一个汉堡翻转助手,但是在几年内,这些汉堡可以很容易地成为建筑设计或代码行。

人类认为,机器人永远无法取代护士的温柔触摸,或音乐家的创造性灵魂。可惜,他们已经有了。思维模拟理论的研究目前正在进行中,这是对机器人同理心的推动。帮助机器人更好地理解人类的开创性尝试。这是一个误用工程思维的完美例子。

我问过为什么,我喜欢这个答案…这样够了吗?

我们再来仔细看看模拟心智理论。这一理论如果正确地付诸实践,将使机器人能够预测周围人的预期需求和行动。配备 SToM 的人工智能理论上能够更好地理解人类,在预测帮助他们的最佳方式之前模拟他们可能的行动。这篇论文解释了机器人如何能够解释他们决策背后的推理。随着神经网络变得越来越复杂,这个概念变得越来越困难。

这项研究似乎在伦理上是积极的。赋予机器人与人类共情的能力,并为它们的决策提供透明度,这听起来好得令人难以置信!这个理论让机器人理解我们,更重要的是,让我们理解它们

现在想想移情决策对成功至关重要的工作。自动化从来不是这些领域的担忧,因为机器人无法站在人类的角度思考问题。随着心理模拟理论的出现,移情就业不再是人类的保证。

很明显,这项研究试图解决人工智能的伦理问题。但是工程思维占了上风,深深埋藏的负面影响在不久的将来很容易浮出水面。Moor 甚至认为,劳动自动化可能会重新定义我们对工作的整个概念。

“传统工作可能不再被定义为通常发生在特定时间或特定地点的事情。对我们来说,工作与其说是做一件工作,不如说是指导计算机去做一件工作。随着工作观念开始改变,与旧观念相关的价值观将不得不被重新审视。”

结论

21 世纪的技术扩张时代已经被定义为如何。人类已经突破了自动化、预测和机器人的界限。我们已经创造了一个世界,在这个世界里,创业公司只有在追求收益而非道德的情况下才能生存。工程师们甚至在意识到他们自己工作的含义之前,就被分配了工作并创造了最佳解决方案。

早就应该进行系统性变革了。袖手旁观只会使我们已经陷入的问题永久化。作为工程师,是时候停止询问我们如何创造了。说,*“我不做,别人会”*是借口。相反,花点时间停下来想一想。真的觉得。然后问问你的老板、同事,最重要的是,问问你自己:

为什么?

基本数据科学文氏图

原文:https://towardsdatascience.com/the-essential-data-science-venn-diagram-35800c3bef40?source=collection_archive---------17-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Cross-posted on KDnuggets

几年前,德鲁·康威提出并分享了他现在无处不在的数据科学维恩图。这很有帮助,我们都受到了启发。谢谢你康威医生。

许多变种随之而来,我在这里提出我自己的改进。希望它们也能有所启发。我提议增加两项内容:统计应用的区分(多元)。非多元)以及学科精华 ( ,各技能集的主要贡献或作用)。

首先,让我说,我的维恩图,像所有的维恩图一样,有内在的缺陷。为什么?因为它是一个二维图,说明了什么是固有的多维动态。这部分体现在下角的免责声明中,没有显示沟通(听觉+视觉)和软技能的维度。创意坚韧自省诚实等属性也从图形中缺失。

需要

统计学广泛处理方差结构的量化,其令人高兴的结果是能够建立描述性、解释性、预测性和规范性模型(数据科学的输出)。因此,在数据科学维恩图上记录统计方法中最大的方差来源并不可耻:多变量统计方法*(评估≥ 3 个变量)之间的差异。【单变量&双变量】统计方法。*

是的,我在这里暗示这比被监督的之间的差别更大。无监督统计建模、参数非参数建模、。我这一主张所基于的方差度量是人类对高级统计方法的认知的显著差异。需求是人们应该更加意识到多元分析在第四次工业革命中发挥的核心作用。

这种划分的一个含义是,“传统研究”在很大程度上没有充分利用多元统计。根据你的学科,这个暗示可能不成立。不幸的是,对于许多学科来说,它确实成立。可以说,这一事实是如此多的行业容易受到干扰的部分原因。

这方面的一个例子是持续过度依赖决定系数(R 平方),这种情况在许多循环中持续存在。R-squared 对异常值没有抵抗力,仅与目标变量相关,可能会随着串行相关数据膨胀,并且在许多其他方面可能不可靠。尽管如此,它还是被大量使用——部分是因为 Excel 和几乎所有其他绘图工具使它变得容易获得。虽然 R 平方可以是一个有用的工具,但它仍然是一个必须正确使用的工具(例如,用于评估 bi 变量线性关联)。

多变量问题需要多变量工具,而大多数业务挑战本质上都是多变量的。在学习如何正确应用计算多元统计(⊆ " 机器学习")方面,许多分析师和技术专业人士还有很长的路要走。因此,他们仍然容易受到竞争对手的干扰,这些竞争对手利用多变量算法从数据中获得更好的洞察力……或者他们自己采用无效策略造成的干扰(例如创新者的困境,其典型特征是忽视低端市场、低利润的机会,而这些机会可能会催生未来的竞争)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The Essences of Contributed Expertise

本质含义

这三个专业领域也可以用他们所提供的更简单的术语来表述(,他们的 本质 ): 直觉有效性 ,以及 自动化 )。自动化也可以称为升级*。他们的融合为我们提供了改进的 洞察力 。正如所描绘的,洞察力也可以简单地来自拥有有效直觉的重叠(自动化不是先决条件)。历史上的大部分时间都是如此。当前对高级分析的大肆宣传主要是通过自动化数据收集、处理和分析来加速洞察。*

“偏见”的危险存在于“传统研究”区域,是数据科学维恩图此次更新的主要灵感。统计上的“偏差”是排除或忽略重要的变量,就像口语中的意思一样。由于大多数人不熟悉处理多变量分析,当多变量问题作为双变量或单变量问题处理时,偏差的危险最容易出现。如上所述,偏见的存在使组织容易受到新来者的破坏,新来者的多元方法使他们成为更有洞察力的竞争对手。

还要注意,对应于“机器学习”的重叠区域缺乏直觉(,是“daft”——一种明显的偏差形式)。一些人无疑会对此提出抗议。但是想想看,在我们与物理世界和社会的几十年互动中,人们获得了一种没有任何人工智能模型能够接近获得的直觉水平(举例,知道任何人工智能应用程序知道并欣赏盐的味道吗?).ML 模型只知道我们告诉他们的(我们提供的数据),模型输出最终会反映出来。ML 模型可以变得非常擅长我们训练它们做的事情,但它们仍然需要由人类来训练。(注意:即使是年轻的人类也需要年长的、更智慧的人类来训练。)从广泛经验中获得的背景建立直觉*。背景很重要。*

标记为“传统软件”的领域很难描述。这又回到了试图用二维图形概括多变量系统的局限性。这种重叠也可以被用来描述机械自动化(这无疑构成了全球经济的重要组成部分)。为了讨论的目的,在大多数白领智力活动的背景下,可以说在执行风险评估时,这个领域可能缺乏严密性。

操作顺序

在大多数情况下,在如何整合每个专业领域的顺序中,有一个固有的操作顺序或“最佳实践”。参与的顺序通常是直觉首先然后验证*,然后自动化。我们通常会在直觉首先引导我们产生一个想法后,测试这个想法是否有效。同样,我们不应该升级(自动化)实现,除非它们首先被认为是有效的。*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上述提议的顺序有例外吗?当然可以!机器学习输出引起领域专家注意的关联并不罕见,而他们以前忽略了或没有意识到这一点。也有很多案例,领域专家的启发式方法已经在自动化系统中实现,并且在数据收集变得可能时得到验证。让我们也不要忘记自动化在帮助我们首先收集数据方面的作用,这些数据可以在以后用领域专业知识和统计严谨性进行评估。

σ

总而言之,这个新的文氏图告诉我们一些我们已经知道,但可能还没有正式表达出来的事情。这是一个简单的模式,因此可以帮助人们更好地确定工作流的优先级。例如,它鼓励数据科学家通过首先与领域专家交谈来开始他们的工作——这已经被吹捧为最佳实践。如果你是那种不满足于列出做什么做什么还想了解为什么做的人,了解事情如何发生的本质会有所帮助。**

大约 70 年前,塞缪尔·威尔克斯写道:“有一天,统计思维将像读写能力一样成为高效公民的必要条件。”在不久的将来,多元统计思维可能会成为远远更多职业的必备条件。如果我对数据科学维恩图的重复使用对任何人有所帮助,我会认为这是值得的。

世界是我们造就的,它需要变得更聪明 。如果你喜欢这篇文章,考虑与朋友分享。

(注:这些文氏图图形可能与属性一起使用。上图的初始迭代于 2017 年初首次发布在 www.adret-llc.com和 LinkedIn 上。)

附录

(2020 年 11 月)

自动化的效果在本文最初的草稿中没有给予足够的重视。某些形式的自动化对于维持我们这个星球上 70 多亿人的生活是必要的。与此同时,某些其他形式的自动化对社会构成了巨大威胁——也就是说,那些被不人道和不可持续地部署的自动化。为了理解自动化的风险,我推荐两个资源:书籍 【数学毁灭的武器】 和电影 《社会困境》

错误信息正以算法的速度向我们袭来。某些坏演员已经发现,他们可以通过用虚假的淹没民众来掩盖他们自私的行为。在更阴险的情况下,他们通过算法利用我们与家人和朋友的关系向我们提供错误信息。虽然每分钟就有一个白痴诞生,但如果他们在脸书或 YouTube 上花太多时间,每就会产生一个白痴。人类现在正与训练有素的机器学习黑匣子进行竞争,这些黑匣子旨在优化利润或灌输宣传。人类经常会输。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(image source unknown)

就连朗朗上口的短语“假新闻”(不幸的是,部分来源于事实)也被用来引导人们从半审查的新闻来源转向充斥着疯狂阴谋论的社交网络平台。考虑到社交网络因此获得的额外流量,如果这些社交网络最终推广了主流媒体(MSM)新闻都是假的这一错误观念,那就不足为奇了。

来自物理自动化的威胁对社会来说也是可怕的。美国中产阶级已经受到无数制造业工作外包的冲击,现在又面临着由能干而灵活的机器人承担大量额外工作的威胁。从开卡车到煎汉堡,从查阅法律文件到诊断癌症,从绘画到作曲,越来越多的职业被证明容易受到自动化的影响。(事实上,就在几年后,这份声明可能需要另一份增编。)

由于自动化趋势进一步加剧了社会不平等和/或文明,它们会破坏社会本身的稳定。考虑到社会不稳定的危险(想想法国大革命期间断头台的猖獗使用),所有监督自动化工作的决策者都应该整体考虑。优化不应该仅仅是金钱上的努力,还应该存在于社会可持续发展的框架中。它可能会帮助每个人保持冷静的头脑…并正确地安装在他们应该在的地方。

熟悉受害者三角(又名 戏剧三角 ,一种 交易分析 的工具)的心理动力学的人都知道,逃离其中苦难漩涡的唯一方法是 负责 解决问题。在数据分析的情况下,这意味着 责任 来平衡直觉、有效性评估、和实现自动化 …对我们的组织和我们的社区都是如此。

数字网络生物的伦理

原文:https://towardsdatascience.com/the-ethics-of-digitally-networked-beings-82de76fec3b3?source=collection_archive---------17-----------------------

“算法无法领悟真理。他们只是重复过去。”—凯西·奥尼尔

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自从我读了凯茜·奥尼尔的*数学毁灭的武器,*以来,基于算法的决策中的伦理问题一直在我的脑海中挥之不去,它提出了一个令人信服的论点,即我们的算法通过将人类偏见编码到我们的技术中,正在延续、巩固甚至放大不公正的模式。我目前正在阅读的弗吉尼亚·尤班克斯的《T2:不平等的自动化》(T3)只会加深这些担忧。

我们正在做什么来防止技术造成伤害?我想知道。我开始研究当前的努力,发现了许多从事伦理和人工智能领域工作的组织——人工智能研究所深度思维伦理学会、 人工智能合作伙伴,仅举几例。凯茜·奥尼尔创办了一家审计算法的公司,而像 AI4ALL 这样的非营利组织正在从另一个角度解决这个问题,通过为未被充分代表的人才建立管道来增加人工智能的多样性和包容性。

在这个过程中,我偶然发现了 伦理上一致的设计:用自主和智能系统优先考虑人类福祉的愿景 ,这是电气和电子工程师协会(IEEE)的一个项目。IEEE 是一个由工程师、科学家和相关专业人员组成的大型专业组织,参与编写该文件的 250 名专业人员被描述为来自“六大洲的参与者,他们是来自学术界、工业界、公民社会、政策和政府的思想领袖。”该指南目前是一个提案,被命名为“第二版——公众讨论”提交意见的截止日期已经过了,但是反馈(超过 72 个人/组织的超过 316 页的反馈)已经公布在网上,所以我也通读了一遍。该文件的最终版本将于 2019 年发布。

执行摘要的开头是:

随着自主智能系统(A/IS)的使用和影响变得无处不在,我们需要建立社会和政策指南,以便这些系统保持以人为本,服务于人类的价值观和伦理原则。

我带着兴趣、欣赏和紧迫感读了下去,无论是在合作和所涉及的专业知识方面,还是在文件本身的范围方面,我都对这一努力的规模印象深刻,这一范围从经典伦理到性爱机器人,从福祉指标到自主和智能系统的法律地位。

我不想在这里总结 263 页的提案草案和对它的广泛评论。相反,我选择了一些我认为特别发人深省的段落。

例如,起初,我对文件语言中的预设印象最深,这些预设让我感到惊讶,例如:“如果自治系统是我们信任的、有创造力的伙伴”,或者“人类将面临更大的压力,以有效地与这些系统‘合作’。”我一直认为技术是一种工具,但这些描述意味着一种不同的关系,一种更加合作和平等的关系。这份文件承诺为技术与人类价值观的结合提供指导,但有时我发现它令人担忧。关于混合现实的一个候选推荐(“其中真实世界和虚拟世界对象一起呈现在单个显示器内”)如下:

就混合现实的性质将如何影响我们的社会互动开展广泛的教育,以避免广泛的负面社会后果。

在这句话的结构中嵌入的不仅仅是潜在的伤害,还有这样一种想法,即在没有广泛教育干预的情况下使用混合现实可能会产生巨大而有害的影响。当我读到这一行,也是关于混合现实的时候,我感到了类似的不适:

通过这种方式,个人可以“满足”自己的社会需求,而无需回报他人的需求。这种通过完全沉浸式技术人为“满足”基本社会需求的方式,可能会对社会结构产生意想不到的影响

社会的基本结构?光是这个索赔的范围就让我很不舒服。该案文尽管仍是草稿,但却是由一个专家小组提出的,并得到了一个大型和非常有声望的组织的赞助。换句话说,我非常认真地对待在此表达的关切和建议。在某一点上,指南建议,好像我们已经忘记了,“广泛的关于积极的人际关系/接触的益处的教育课程。”甚至在提议的标签系统中对图像的选择也让我犹豫了:

政府批准的标签系统,如在含有有毒化合物的家用清洁用品上发现的骷髅和交叉骨,可以用于这一目的,以提高用户在与 A/IS 互动时意识到的机会。

在第 102 页,“真实”这个词的特点让我觉得如此愤世嫉俗,以至于我怀疑自己是否误读了这句话。

对于个人来说,要在算法时代实现并保持个人信息的平等,有必要包括一个主动的算法工具,作为他们在数字和“真实”世界中的代理人或监护人。(“真实”是指物理或公共空间,用户不会意识到自己处于面部识别、生物识别或其他工具的监视之下,这些工具可以跟踪、存储和利用他们的数据,而无需事先征得同意或许可)。

我们是否创造了一个需要监护人的世界,或者一个相信我们的在线或离线行为都是隐私的错觉世界?我想我们可能有。但这是我们想要的世界吗?这一愿景与我们的福祉一致吗?即使我们想避免,我们能避免吗?

虽然我对那些从小说中熟悉的想法感到正式到来——以及需要讨论——感到震惊(一个候选建议涉及围绕死亡的新“社会规范”,例如,包括“向家人和朋友发送卡片,让他们知道某人的意识已经从碳基转移到硅上”,但我也觉得这些指导方针正在竞相赶上我们已经达到的水平。我阅读并同意对透明度的呼吁以及个人理解和控制其数字信息的需要,但我们目前也在使用多年来未能满足这些标准承诺的技术。

“根据皮尤最近的研究,91%的美国成年人认为消费者已经失去了对公司如何收集和使用个人信息的控制,”迈克·奥克特在为麻省理工科技评论撰写的一篇文章中写道。正如 IEEE 指南正确指出的那样,“通过 A/IS 轻松或随意共享的数据可用于做出个人可能不希望共享的推断。”斯坦福大学的研究就是一个例子,其中公开发布到约会网站的照片被用来训练神经网络来检测性取向。

“弱势群体需要保护,”IEEE 指南指出。老年人和智力受损的成年人被确定,但这些人口统计数据只构成了我所认为的我们最脆弱人口的一部分。“根据美国教育部和国家扫盲研究所的数据,美国约有 3200 万成年人不识字,”瓦莱丽·斯特劳斯在 2016 年为《华盛顿邮报》撰写的一篇文章中写道。“经济合作与发展组织发现,50%的美国成年人不能阅读八年级水平的书籍”,“19%的成年人不能阅读报纸,更不用说填写求职申请了。”我想我可以在“报纸”这个词旁边加上“服务协议条款”,没有人会反对,尽管大多数人,包括我自己,很少阅读它们。

“‘我已经阅读并同意条款’是网络上最大的谎言。我们的目标是解决这个问题,”服务条款上这样写道;没看,一个“用户权利倡议对网站条款&隐私政策进行评级和标注,从很好的A 级到很差的E 级”我发现了这个组织,因为它与 IEEE 指南有联系,我去了那个网站了解更多。谷歌收一个 B 类;脸书和推特——许多人经常使用的社交媒体网站——还“没有上课”,因为即使是这些关心的志愿者也没有“充分审查条款”

“六年前,34%的青少年每天使用社交媒体超过一次;《常识》杂志最近的一份报告称:“如今,70%的人使用手机,其中 16%的人“几乎经常”使用,另外 22%的人一小时使用几次。”。与其争论青少年是否是一个弱势群体(我会说是的,但这是基于我对年轻时自己的回忆,而不是一项正式的研究),我想指出这些青少年已经创造的数字记录,一个可能永远留在他们身后的“数字足迹”(我也有一个,但我的数字足迹在晚年才开始加剧)。准则认识到这一点:

PII 被定义为基于个人独特的物理、数字或虚拟身份可以合理地与个人联系起来的任何数据。因此,通过每一次数字交易(显式的或观察到的),人类都在生成自己身体的独特数字影子。

你只需要去剑桥大学的 Apply Magic Sauce ,一个“从人类行为的数字足迹中准确预测心理特征的个性化引擎”,看看陌生人可能会从我们的社交媒体使用中推断出我们的什么。该技术承诺:“通过分析你在线行为的各个方面,我们的预测 API 引擎可以让你看到其他人如何看待你,预测一系列变量,包括个性、幸福度、智力、创业潜力等。”“我们的工具旨在帮助人们了解数字自我对其他人来说可能是什么样子,以及这可能会告诉你你到底是谁。”

我到底是谁?这一说法让我想起了 IEEE 指南中的另一句话——这句话来自经典伦理学的一个章节——它也让我停下来思考,因为它指出人类正开始“将我们的存在转变为数字网络存在”换句话说,不仅仅是技术,人类本身也在进化;我们与技术的关系已经改变了我们的本质。

“亚里士多德阐明的幸福是一种实践,它将人类福祉定义为一个社会的最高美德。IEEE 指南解释说:“大致翻译为“繁荣”,幸福生活的好处始于有意识的沉思,伦理方面的考虑帮助我们确定我们希望如何生活。”该准则的任务声明如下:

确保参与自主和智能系统设计和开发的每一个利益相关者都受到教育、培训,并有能力优先考虑伦理因素,从而使这些技术为人类造福。

该指南倡导“整体经济繁荣”,而不是“生产率提高或 GDP 增长等单向目标”这种智慧在约翰·兰彻斯特的《纽约客》 的文章中有所体现,他在文章中讨论了一种治疗失明的方法:“这个项目取得了巨大的成功,因为它防止了成千上万的人失明,但有一个问题:参与其中的经济学家无法证明这项冒险是值得的。一项成本效益分析是“不确定的”:接受帮助的人太穷了,以至于保护他们视力的好处没有产生太多的金钱影响。"

本着造福人类而不仅仅是底线的理念,该指南建议我们使用反映福祉的指标,如社会幸福,以更广泛地了解技术的影响。包容性和多样性反复出现,无论是在我们必须考虑的哲学体系方面,还是在技术评审委员会中应该找到的背景和经验范围方面,还是在创建文档本身的过程中。一次又一次,我在这篇文章中听到的信息是技术必须为我们服务;技术应该与我们的福祉相一致。技术应该帮助人类繁荣。

我发现自己在思考自动驾驶汽车。如果将社会福祉考虑在内,我不认为自动驾驶汽车会成为如此多当前伦理和人工智能辩论的试金石。相反,我们应该投资于安全、快捷、廉价的公共交通,并找出最佳的新路线。但是我们有了自动驾驶汽车,现在我们正在努力解决围绕它们的问题,在我们部署它们之前,它们应该有多安全,我们如何判断,它们将如何影响人类和我们的环境,以及汽车本身应该如何做出选择。我们可能正在成为数字化网络生物,但我们也在要求我们的数字技术做出传统上只属于我们自己的决定。IEEE 指南内容如下:

自动驾驶汽车在决策中对一个因素的优先顺序需要反映其目标用户群体的价值优先顺序,即使这一顺序与个别设计师、制造商或客户的顺序相冲突

2017 年对纽约市居民的一项调查发现,80%的受访者选择“转向以避免撞到行人。”只有 5%的人优先考虑车内乘客(15%的人说“不知道”);一篇 2016 年的汽车和司机报道称,“梅赛德斯-奔驰只是想给它的自动驾驶汽车编程,以拯救车内的人。每次都是。”梅赛德斯-奔驰自动驾驶汽车会被禁止在纽约街道上行驶吗?一辆汽车能根据它的位置自动切换进入或退出杀死行人模式吗?当我点击了一个名为“玩这个杀手级自动驾驶汽车伦理游戏”的 TechCrunch 故事的链接,发现自己在麻省理工学院的道德机器上时,我想到了这些。事实上,当我坐在电脑前选择谁能活下来——怀孕的行人或没怀孕的行人,三名乘客或过马路的单身女人——以及谁会死的时候,我觉得自己好像在玩游戏。我既不是司机也不是行人,我是被排除在外的决策者,在两条车道中选择一条,哪怕只是因为我没有选择直接右转撞墙。

IEEE 指南包括一个词汇表,其中包含术语以及作者确定的在四个专业领域使用的“通用定义”:计算学科;工程;政府、政策和社会科学;伦理和哲学;以及“普通语言”。如果没有确定共同的定义,术语表欢迎提出建议。例如,对于“透明”这个词,普通的语言定义是“容易被看穿、识别、理解或察觉(OED)”;足够的照明来赋予理解;”在工程和计算学科领域,还没有提供透明性的通用定义。当我看到占位符文本时,“我们欢迎推荐!”我再次想到了自动驾驶汽车。该准则指出:

A/IS 的设计应以透明度和问责制为主要目标。如果可能的话,嵌入在系统中的逻辑和规则必须对系统的监督者可用。然而,如果系统的逻辑或算法不能用于检查,那么必须有替代方法来维护透明度的价值。此类系统应接受风险评估和严格测试。

在最近为《卫报》 撰写的一篇文章中,安德鲁·史密斯指出,“目前正在测试的自动驾驶汽车可能包含 1 亿行代码,鉴于没有程序员能够预测现实世界道路上所有可能的情况,他们必须学习并接受不断的更新。”他指出,在汽车无缘无故加速后,对丰田凯美瑞的软件进行故障排除需要 20 个月的时间和两名专家,“揭示了程序员所说的“意大利面条代码”的扭曲质量,充满了算法的碰撞和争斗,产生了异常的、不可预测的输出。”

我想起了迪恩·波默罗(Dean Pomerleau)1991 年的自动驾驶汽车研究,这项研究似乎进展顺利,直到有一天他的车驶近一座桥,突然转向。“只有在广泛测试了他的软件对各种视觉刺激的反应后,Pomerleau 才发现了问题,” Davide Castelvecchi 为 Nature 写道,“网络一直使用绿草如茵的路边作为道路方向的指南,所以桥的出现让它感到困惑。”

我读过一些论点,认为自动驾驶汽车——通过消除分心、疲惫等导致的人为错误——将使我们的街道更加安全。车道可以被花园和带操场的停车场取代。我不认为这是一个糟糕的愿景,但我仍然担心我们如何到达那里,以及当我们到达那里时,谁将能够点击智能手机应用程序,从操场上抢一辆车回家,而谁(从更远的公园或低收入地区打电话,也许)不会。

明确的说,我想到自动驾驶汽车是因为它们的存在。他们在这里,尽管仍处于测试模式。我阅读 IEEE 的伦理上一致的设计不仅仅是为了指导我们的未来,也是为了支撑我们现在的世界,因为我们会问,我们到底在哪里?

凯茜·奥尼尔在今年早些时候接受《连线》杂志采访时提出了一个令人信服的观点:“我们仍然关注错误的事情。我们并没有衡量对民主造成的实际损害,因为民主很难衡量。相反,我们将关注无人驾驶汽车造成的行人死亡等问题。”

我承认。我一直在思考很多关于汽车的问题,但话说回来,即使是自动驾驶汽车也可以在反乌托邦的监控状态中发挥作用。经济学家报道说:“首先,AVs 将记录他们身边发生的一切。”。"犯罪发生时,警察会询问附近的汽车是否看到了什么。"麻省理工科技评论最近刊登了一篇报道,引起了人们对目前由无人驾驶自行车收集并与城市共享的数据的隐私问题的担忧。

与隐私相关的问题和建议在 IEEE 指南中非常普遍,从数字监护人到表达有意义的同意,再到识别数据滥用的隐私评估,以及承认政府可以访问并可能滥用我们的数据。指导方针如下:

自从技术公司和信号情报机构(如美国国家安全局和英国政府通信总部)之间的合作指控被披露以来,政府大规模监控一直是一个主要问题。

电子前沿基金会 (EFF),在其对草案的反馈中,以令人钦佩的清晰明了阐述了我们的情况:

只有像东德这样的社会,愿意为每 6.5 个公民招募一名线人,才有可能观察和关注所有公民的行动。但是,已经部署的监控技术和用于分析数据的机器学习的结合将意味着彻底的监控成为可能,而不需要投入如此巨大的金钱和劳动力。机器学习实现如此有效的大规模监控的潜力降低了威权主义的价格标签,并对自由开放的社会构成了新的威胁。

《大西洋月刊》最近用了整整一期来讨论这个问题,*民主正在消亡吗?*在他的作品中,杰弗里·戈德堡写道:

我们发现自己正处于一个巨大的、不受监管的、未经充分检验的实验中,以确定自由民主是否能够在社交媒体、生物技术和人工智能中生存。

皮尤 2017 年关于网络言论自由未来的报告也很值得一读,这份报告向我介绍了“武器化叙事”这个术语。有一句话特别引人注目,因为它引起了我最近阅读的许多其他东西的共鸣,这就是布鲁克林学院新闻和媒体研究主任约翰·安德松的观察:

卡斯·桑斯坦(Cass Sunstein)曾称之为“大众利益中介”的报纸、网络电视等的持续萎缩。这意味着我们的社会已经到了一个地步,人们可以选择和定制各种不同版本的“现实”,以适应他们现有的意识形态和其他偏见。在这种环境下,合作对话和共识的希望渺茫。

安妮·阿普尔鲍姆在一篇关于波兰向专制主义转变的文章中,也提到了技术在人类操控中的作用。她写道,今天两极分化的政治运动不需要 20 世纪的“列队行进、火炬点燃的游行、恐怖警察”。相反,人们只是被鼓励去面对另一个现实。“有时,替代现实已经有机地发展起来了;更多情况下,它是在现代营销技术、受众细分和社交媒体宣传的帮助下精心设计的。”

IEEE 指南包括情感计算领域(与情绪和类情绪控制相关的问题)以及虚拟和混合现实的建议,但在我阅读时,我意识到这些建议不仅针对孤立的游戏环境或个人助理,它们“推动”我们做出“健康的选择”,还针对我们的“真实”世界,在这个世界中,我们可能没有意识到自己被监视和操纵。 在这个世界里,像脸书和 Twitter 这样的公司通过算法塑造我们看到的内容,机器人传播错误信息,试图说服我们或把我们推向我们可能不会去的方向,90%的人点击由像谷歌这样的搜索算法返回的前两个结果之一。 如果我们正在进化成数字网络生物,世界也在进化以适应我们笨拙的新形式。

《自然》杂志一篇题为“人工智能研究中有一个盲点”的文章中,Crawford 和 Calo 写道,“从医院到法庭,自动自治系统已经部署在我们最重要的社会机构中。然而,还没有商定的方法来评估这种应用对人类的持续影响。”

在关于福祉和旨在复制人类任务、行为或情感的人工智能技术的一节中,IEEE 指南指出:

拥有复杂操作技术(所谓的“大推动”)的人工智能将能够指导个人完成整个行动过程,无论是复杂的工作流程、免费内容的消费还是政治说服。

本节中给我印象最深的候选建议是,需要“确定人工智能/信息系统对人类福祉的影响问题的学术研究状况”,并将研究汇总到“人工智能/信息系统社区的集中存储库中”,这似乎只是因为它是我们思考过程中的一个早期步骤。"

由于其他原因,我也一直在考虑集中式存储库。在最近为大西洋撰写的一篇文章中,哈拉里指出民主和独裁是不同的数据处理系统。“民主将处理信息和决策的权力分配给许多人和机构,而独裁将信息和权力集中在一个地方,”他写道。这种想法让我很不舒服,因为我意识到我们产生了多少数字数据,而我们对如何使用这些数据的控制又是如此之少。我想到了中国的公民分数。以下是达琳·斯托姆在电脑世界中的故事概述:

新的“社会信用系统与 13 亿中国公民的国民身份证相连,根据他们的行为对“你社交图谱中朋友的活动——你在社交媒体上确定为朋友的人”进行评分。公民的信用分数,或者说“公民分数”,会受到他们自己和他们朋友的政治观点的影响。该系统利用“信息时代的所有工具——电子购买数据、社交网络、算法分类——来构建社会控制的终极工具,”美国公民自由联盟言论、隐私技术项目的高级政策分析师 Jay Stanley 说。

*《科学美国人》 *的一篇文章写道:“根据最近的报道,每个中国公民都将获得一个所谓的‘公民分数’,这将决定他们在什么条件下可以获得贷款、工作或去其他国家的旅游签证。”。在这篇文章中,作者还指出,“特斯拉汽车公司的埃隆·马斯克、微软公司的比尔·盖茨和苹果公司的联合创始人史蒂夫·沃兹尼亚克都警告说,超级智能对人类来说是一个严重的危险,甚至可能比核武器更危险。”

IEEE 指南中让我印象深刻的一行不是候选人推荐,而是一行背景信息,在一个专门讨论幸福和意外后果的章节中分享。该生产线将智能轮椅视为智能轮椅,在链接文件中描述为使用“机器视觉和学习技术……来帮助防止与障碍物碰撞,并通过自适应提示提供提醒和导航帮助”:

例如,一个寻求提高使用轮椅的人的福祉的团队发现,当提供使用智能轮椅的机会时,一些用户对更多移动的机会感到高兴,而其他人则认为这会减少他们的社会接触机会,导致他们的福祉整体下降。

与推椅子的人的接触比智能轮椅所承诺的机动性更受重视。我想知道这项研究的受试者有多少人际交往。在福祉部分,指导方针还指出:

只需花费很少的资源,一个陪伴机器人就能提供重要的心理帮助。一方面,这让社会更有爱心,但另一方面,对人工陪伴的依赖表明了这方面社会资源的缺乏。

在这里,“缺乏社会资源”这个词让我觉得它代表了对我们当前制度的更详细、更直白的描述。我们的社交网络中有一个洞,我们通过这个洞扔进了科技,并带来了闪闪发光但往往未经证实的美好承诺。机器人伴侣的想法也出现在情感计算部分,指导方针写道:

人与人之间的关系目前被认为更有回报,但也比使用未来的机器人性工作者更难维持。

该指南包含一整节专门介绍性爱机器人的内容,承认“这些系统会干扰人类伴侣之间的关系动态,引起嫉妒或厌恶感。”我读了反对性爱机器人运动的立场文件,并被提醒权力和性的动态是多么复杂,即使只限于人类。本节中的候选人建议之一是:

商业营销的 AI 不应该被认为是法律意义上的人,也不应该作为人进行营销。

自主智能系统的法律地位是一个我没有花太多时间思考的问题,直到我阅读了 IEEE 指南,其中有一节讨论了 A/IS 技术应该如何由法律来描述的问题。例如,在给予法人地位方面,准则规定:

这种地位起初似乎很显著,直到考虑到给予公司、政府实体等的长期法人地位——它们都不是人,尽管它们由人管理。

注意到的其他选择是将 A/IS 视为“其人类开发者和用户的纯粹产品和工具”或“完全没有先例的东西,这就提出了一个问题,即一种或多种类型的 A/IS 是否可以被赋予一种中间的——也许是新的——类型的法律地位。”

我想到了 HitchBot,一个在费城被斩首的搭便车机器人人形迎宾机器人,一个愤怒的顾客在日本软银商店购物时踢了他一脚。“根据警方的报告,该男子说他对一名店员的态度感到愤怒。‘胡椒机器人’现在移动速度更慢了,它的内部计算机系统可能已经受损。”当一个孩子看到一个成年人攻击一个看起来像人类的机器人时,她会学到什么?击打人形机器人如何改变或反映我们对彼此的看法?指导方针指出:

我们的结论是……A/IS 还不值得任何形式的“人格”——然而,A/IS 是否能够或应该被授予这种地位的事实表明了技术以及相关的法律和伦理问题的增长速度

然而,给我印象最深的一句话是这样的:“作者希望这篇文章能为立法过程提供信息,并激励更多的法律界人士参与进来现在*。”*

斜体的现在在我看来像是在呼救。

我欣赏 IEEE 指南提案的一个地方是“进一步阅读”部分,它包含了一个文章和论文的列表,我阅读了其中的许多文章,有时还会在本文中引用。对于任何希望更好地了解我们在这些问题上的想法的人——我相信我们每个人都是这场讨论的利益相关者——该文件提供了一个文献速成班。

我发现不祥的事情之一是包括自主武器。指导方针如下:

职业道德准则的制定是为了恰当地解决自主系统的发展和自主系统造成伤害的意图。

对人类造成伤害与人类的繁荣是不一致的。将这一讨论纳入准则破坏了文件的整个前提,并使之有问题。我知道这项工作正在进行。我也读过一些无意伤害人类的自主武器。迈克·韦纳写道:

现在,来自伍斯特理工学院的研究人员已经开发出一种能够独自猎杀狮子鱼的自主机器人。但是这个机器人不仅仅是识别和杀死入侵的鱼——用锋利的长矛钩住鱼并把它放倒——它还允许渔民把死鱼取出来,收获并出售。

我们在哪里划线?一个自治系统能拿什么命?

在他们的文章《中,大数据研究中的人类主体在哪里?雅各布·梅特卡夫和凯特·克劳福德指出,“道德准则往往在危机事件后出现。”当我让我们的世界遵守这些被提议的指导方针,思考我们的现状和未来时,我经常想起这句话。

我非常感谢那些为 IEEE 指南投入如此多时间和精力的人们。这是一次重要的谈话,我们都应该收听,我相信你的声音会让我们受益匪浅。

— — — —

IEEE 自主智能系统伦理全球倡议。符合伦理的设计:用自主和智能系统优先考虑人类福祉的愿景,第 2 版。IEEE,2017。https://standards . IEEE . org/industry-connections/EC/autonomous-systems . html

数据分析的演变

原文:https://towardsdatascience.com/the-evolution-of-analytics-with-data-8b9908deadd7?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

近来,我们在信息技术领域取得了巨大的进步。在技术生态系统中取得的一些革命性成就确实值得称赞。数据分析是最近一二十年最常用的词。因此,了解它们为什么相互关联、市场中的哪些角色目前正在演变以及它们如何重塑业务非常重要。

对于那些已经意识到其潜力的人来说,技术通常被视为一种恩惠,但对于那些跟不上技术快速发展的观众来说,它也可能是一种诅咒。每个时代都有其突破的时刻和同等份额的受害者(或者我更愿意称之为附带损害)。时至今日,每一个受货币驱动的行业都完全依赖数据和分析来生存。

这篇博客试图审视这些不同的阶段:简化各种流行词汇,叙述从未解释过的场景,并关注前方的道路。所以,事不宜迟,拿起你的“作弊日”大餐&让我们沿着记忆之路走一走。

Analytics 1.0对商业智能的需求:这是数据仓库的兴起,客户(业务)和生产流程(交易)被集中到一个巨大的存储库中,如 eCDW(企业整合数据仓库)。在获得对重要业务现象的客观、深刻理解方面取得了真正的进步,从而使管理者在做出决策时能够基于事实超越直觉。

使用 ETL 和 BI 工具捕获、转换和查询 eCDW 周围的数据。在此阶段开发的分析类型主要分为描述性(发生了什么)和诊断性(为什么会发生什么)。

然而,在这个时代观察到的主要限制是,数据的潜在能力仅在组织内使用,即商业智能活动仅处理过去发生的事情,而不提供对未来趋势的预测。

分析 2.0 →大数据 : 随着公司走出舒适区,开始追求更广泛(如果不是更好的话)的方法来实现复杂的分析形式,上一个时代的某些缺点变得日益突出。令人惊讶的是,客户对这一新战略反应良好,并要求从外部来源(点击流、社交媒体、互联网、公共倡议等)获取信息。对强大的新工具的需求以及通过提供这些工具获利的机会很快变得显而易见。不可避免地,“大数据”一词被创造出来,以区别于纯粹由公司内部交易系统产生的小数据。

公司对员工的期望是帮助工程师平台用快速处理引擎处理大量数据。他们没有预料到的是来自一个新兴的个人团体的巨大反响,或者今天更为人所知的*“开源社区”*。这是分析 2.0 的标志。

在社区前所未有的支持下,像大数据工程师& Hadoop 管理员这样的角色在工作领域不断增加,现在对每个 IT 组织都至关重要。科技公司匆忙建立新的框架,不仅能够吸收、转换和处理 eCDW/数据湖周围的大数据,还能在其上集成预测(可能发生的事情)分析。它使用描述性和诊断性分析的结果来检测趋势、聚类和异常,并预测未来趋势,这使它成为一个有价值的预测工具。

在当今的技术生态系统中,我个人认为术语大数据已经在许多场合被使用、误用和滥用。所以从技术上来说,*‘大数据’*现在真正的意思是’所有数据’——或者仅仅是 数据

**分析 3.0 →数据丰富的产品:**先驱大数据公司开始投资分析,以支持面向客户的产品、服务和功能。他们通过更好的搜索算法、推荐、购买产品的建议和高度有针对性的广告吸引观众到他们的网站,所有这些都是由植根于大量数据的分析驱动的。大数据现象的爆发像病毒一样传播。因此,现在不仅仅是科技公司和网络公司可以通过分析数据来创造产品和服务,几乎每个行业的每个公司都可以做到这一点。

另一方面,大数据技术的广泛接受带来了喜忧参半的影响。虽然精通技术的巨头通过赚更多的钱稳步前进,但大多数其他企业&非技术公司以不了解数据为代价遭受了悲惨的损失。因此,引入了一个研究领域数据科学,它使用科学方法、探索过程、算法和系统从各种形式的数据中提取知识和见解。

事实上,一个跨学科领域被定义为“统一统计学、数据分析、机器学习及其相关方法的概念”,以便用数据“理解和分析实际现象”。换句话说,精确的数据结合良好的训练模型会产生更好的预测结果。下一代定量分析师被称为数据科学家,,他们同时拥有计算和分析技能。

科技行业因实施数据科学技术而受益匪浅,并充分利用了预测 & 说明(采取什么行动)分析的全部力量,即消除未来的问题或充分利用有希望的趋势。公司开始不仅在传统意义上竞争分析——通过改善内部业务决策——而且通过创造更有价值的产品和服务。这就是分析 3.0 的精髓。

如今,分析的使用方式发生了范式转变。公司正以超乎想象的速度扩张,识别颠覆性服务,鼓励更多的 R&D 部门——其中许多是战略性的。这需要新的组织结构:职位、优先级和能力。在同一屋檐下,一个由数据驱动角色(数据科学家、数据工程师、解决方案架构师、首席分析师)组成的紧密团队是取得成功的保证。

分析 4.0自动化功能:

一直以来有四种类型的分析:描述性,报告过去;诊断,利用过去的数据研究现在;预测型,利用基于过去数据的洞察来预测未来;以及规定性的,它使用模型来指定最佳的行为和行动。虽然,从广义上讲,分析 3.0 包括了上述所有类型,但它强调的是最后一种类型。它还引入了——通常是小规模地——自动化分析的概念。

Analytics 3.0 提供了一个将决策流程扩展到行业优势的机会。通过机器学习创建更多的模型,可以让一个组织的预测变得更加精细和精确。话虽如此,部署这种定制模型的成本和时间并不完全负担得起,因此需要更便宜或更快的方法。通过智能系统实现自动化的需求终于到来,而这种隐约出现在地平线上的想法(曾经被认为是遥不可及的)就是 Analytics 4.0 产生的原因。

毫无疑问,人工智能、机器学习和深度学习的使用将深刻地改变知识工作。我们已经看到了他们在神经机器翻译、智能回复、聊天机器人、会议助手等方面的创新能力,这将在未来几年得到广泛应用。这里涉及的数据来源于由本地类型组成的大量异构源,这需要复杂的训练方法,尤其是那些可以自我维持(提出建议、改进决策、采取适当行动)的数据。采用数据挖掘技术和机器学习算法以及现有的描述性-预测性-规范性分析在这个时代取得了丰硕成果。这就是为什么自动化分析被视为分析成熟度的下一个阶段的原因之一。

分析 5.0分析的未来和下一步是什么???:

分析 4.0 充满了乌托邦社会的承诺,由机器运行,由热爱和平的经理和技术人员管理。我们可以将自动化的威胁重新定义为增强 : 结合智能人类和智能机器以实现整体更好结果的机会。

现在,不要去琢磨“人类目前所从事的哪些工作将很快被机器取代?”我更乐观地质疑“如果有思维更好的机器来辅助,公司能取得什么样的新成就?或者,我们如何通过改进的人工智能疏散程序来防止灾难易发区的死亡人数?或者为什么人工智能驱动的电子学校不能在贫困地区实施?”

大多数正在探索*“认知”*技术的组织——自动化决策过程的智能机器——只是在试水。一些人正在做试点,探索这项技术。而其他人则致力于建立一个消费者人工智能控制的平台。这些平台使用个人人工智能代理的想法,这些代理与其他人工智能服务或所谓的机器人进行通信,以完成工作。不再需要人工干预,只需要一个人工智能系统来指导你的日常活动。

看到这些技术中的任何一项在未来取得巨大飞跃,我都不会感到惊讶。当然,这其中有一些不确定因素,但与许多人不同,我对未来相当乐观。路的尽头总有东西在等着;如果你不愿意看到它是什么,你可能一开始就不应该出现在那里。

“一切都应该尽可能简单,但不能更简单”

T5【爱因斯坦】T6

数据新闻的演变

原文:https://towardsdatascience.com/the-evolution-of-data-journalism-1e4c2802bc3d?source=collection_archive---------12-----------------------

我正在写一篇关于 Trinity Mirror 数据单元在过去五年中的发展的文章,因此从去年一月开始,我已经收集了一些头版新闻。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些故事来源广泛。有些来自数据部门,深入到定期发布的地方级别数据集,这是我们工作的基础。有些是来自 FOI 的请求;有些是擦伤造成的;有些是很好的老式的基于想法的调查:“我想知道是否…”

他们的共同点是,他们都是由数据单元编写的故事(或与同事共同编写的关于个人三位一体镜像标题的故事),如果没有我们,他们不会讲述这些故事。

当我们是一个数字优先的单位时,把这样的摊子放在头版看起来很奇怪,但有指向它。数据新闻不再是外来的新奇事物,也不应该期望被当作一种事物来对待。数据新闻需要不断爆出伟大的故事,没有它就不会被讲述的故事。它需要像新闻业的其他部分一样遵循同样的节奏。它需要接受同样的压力:编辑压力、商业压力、参与压力。

数据记者需要像其他记者一样判断自己。我打破了多少故事?他们有多好?有多少人在阅读它们并参与其中?数据新闻让我能够以更好的方式讲述故事和分享信息吗?更重要的是,我有支持这种说法的受众指标吗?

创新让数据新闻登上了头版。交付日复一日地出现在头版*。创新是建立一个时髦的互动,让读者探索和理解一个重要的问题。交付就是这样做,并让大量的人实际使用它;然后第二天造另一个,第三天又造一个。*

变化的速度如此之快,以至于新闻业的岁月就像狗的岁月:对我们来说,一年就像其他行业的五年、十年、十五年。

数据新闻不再觉得年轻了。数据新闻仅仅存在不再是创新。我们需要讨论交付——以及行业和我们的读者真正想要的交付类型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值