卷积实际上是如何进行的?
PyTorch & TensorFlow 用来加速卷积的两个简单技巧。
Photo by Hosea Georgeson on Unsplash
卷积已经成为现代神经网络的一个基本部分,因为它们能够捕捉局部信息并通过权重共享减少参数的数量。由于几乎所有基于视觉的模型(和一些 NLP 模型)都使用这种或那种形式的卷积,显然我们希望尽可能快地进行这些运算。
为了强调对快速卷积的需求,下面是一个简单网络的分析器输出,该网络具有一个 2D 卷积层,后跟一个全连接层:
Profiler Output for a Simple Conv Network
线性层(addmm
)后面的卷积层负责大约 90%的总执行时间。因此,开发一些技巧来尽可能加快计算速度也就不足为奇了。
在这篇博客中,我们将看看 PyTorch 和 TensorFlow 用来显著提高卷积速度的两个技巧。我们将使用 2D 卷积,因为这是最容易可视化的,但完全相同的概念适用于 1D 和三维卷积
朴素卷积实现
让我们从 2D 卷积的一个简单实现开始。我们将使用一个简单的 2x2 内核和一个 3x3 输入矩阵(带一个通道):
**input_matrix** array([[3., 9., 0.],
[2., 8., 1.],
[1., 4., 8.]], dtype=float32)**kernel** array([[8., 9.],
[4., 4.]], dtype=float32)**bias**
array([0.06], dtype=float32)
Naive 2D Convolution
简单的实现很容易理解,我们简单地遍历输入矩阵并拉出与内核形状相同的“窗口”。对于每个窗口,我们对内核进行简单的元素级乘法,并对所有值求和。最后,在返回结果之前,我们将偏差项添加到输出的每个元素中。
通过用 PyTorch 自己的conv2d
层检查输出,我们可以快速验证我们得到了正确的结果。
naive_conv_op = conv_2d(input_matrix, kernel, bias)
print(naive_conv_op)torch_conv = nn.Conv2d(1, 1, 2)
torch_conv_op = torch_conv(input_matrix)
print(torch_conv_op)**Output:
naive_conv_op** array([[145.06, 108.06],
[108.06, 121.06]])**torch_conv_op** tensor([[[[145.07, 108.07],
[108.07, 121.07]]]])
这是它们的执行时间:
%%timeit
conv_2d(input_matrix, kernel, bias)%%timeit
torch_conv(input_matrix)**Output:
Naive Conv:** 26.9 µs ± 1.34 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)**Torch Conv:** 59.5 µs ± 935 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
现在让我们检查当内核大小保持不变,输入矩阵的大小缓慢变化时,执行时间是如何变化的。
Naive Convolution vs PyTorch Convolution
我们实现中的 2 个 for 循环负责 O(n)执行时间,当输入大小增加到 250 x 250 以上时,朴素 Conv 每个矩阵需要 1-3 秒。如果我们有一个像 Inception Net 这样的巨大网络,有数百个卷积和数千个大型输入矩阵,朴素卷积将是一个绝对可怕的想法。
但是,请注意 PyTorch 自己的实现可以很好地适应输入矩阵的大小。显然,PyTorch 做卷积的方式不同。
招数 1 : im2col
在将每个窗口与内核相乘时,我们执行了两个操作:
- 增加了条款
- 把它们加在一起。
….我们对输入矩阵中的每个窗口都这样做。
现在这里要问的重要问题是:我们能对整个操作进行矢量化吗?
答案是肯定的,这正是im2col
帮助我们做的(代表图像块到列)
简单地说,im2col
是一种技术,我们将每个窗口展平,然后将它们堆叠成矩阵中的列。现在,如果我们将内核展平为一个行向量,并在两者之间进行矩阵乘法,我们应该会在对输出进行整形后得到完全相同的结果。
Im2Col
Im2Col-Reshaping
让我们试一试:
Naive Implementation of Im2Col
im2col(input_matrix, kernel)**Output:** array([[3, 9, 2, 8],
[9, 0, 8, 1],
[2, 8, 1, 4],
[8, 1, 4, 8]])
现在我们展平内核并进行矩阵乘法:
output_shape = (input_matrix.shape[0] - kernel.shape[0]) + 1im2col_matrix = im2col(input_matrix, kernel)
im2col_conv = np.dot(kernel.flatten(), im2col_matrix) + bias
im2col_conv = im2col_conv.reshape(output_shape,output_shape)
print(im2col_conv)torch_conv = nn.Conv2d(1, 1, 2)
torch_conv_op = torch_conv(input_matrix)
print(torch_conv_op)**Output:
im2col_conv** array([[145.06, 108.06],
[108.06, 121.06]])**torch_conv_op** tensor([[[[145.07, 108.07],
[108.07, 121.07]]]])
现在我们来看看它是如何扩展的:
矢量化无疑有所帮助,但仍有改进的空间。在我们进入下一个技巧之前,让我们看看为什么矢量化会有帮助。
为什么会这样?
所有现代 CPU 和 GPU 都带有优化的矩阵代数库,允许代码利用硬件加速。这些库归入 BLAS 或基本线性代数子程序的总称。当我们对代码进行矢量化并调用np.dot()
时,它允许 numpy 使用 BLAS 库,从而提高执行速度。
事实上,在早期的探查器输出中,您可能会看到:
MKLDNN 代表深度神经网络的数学内核库,这是英特尔的 BLAS 库。自从我在英特尔 i7 上运行 PyTorch 模型后,PyTorch 自动调用了英特尔的 BLAS 库。如果你在 Nvidia GPU 上运行这个,PyTorch 会使用 cuBLAS (Nvidia 的 BLAS 库)。
下一个技巧是去除 2- for 循环,高效地创建im2col
矩阵。
诀窍 2:记忆跨越
在im2col
中创建窗口时,我们仍然使用 2 for 循环来索引输入矩阵,这会降低执行速度。为了理解如何改进这一点,我们需要看看 numpy 数组是如何存储在内存中的。
就像所有其他数组一样,numpy 数组作为连续的块存储在内存中。每个 numpy 数组还有一个.strides
属性,告诉我们需要跳转多少字节来访问下一个元素。
例如:
x = np.arange(10, dtype = 'int64')
print(x)
print(x.strides)**Output:
x** array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])**x.strides** (8,)
每个元素都是int64
,即 64 位或 8 字节,这就是为什么x.strides
告诉我们需要跳跃 8 字节来访问数组中的下一个元素。
当处理 2D 数组时,我们得到两个步幅值,告诉我们在列方向和行方向跳跃多少字节。
Credit: AndyK on StackOverflow[2]
x = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(x)
print(x.strides)**Output:
x** array([[1, 2, 3],
[4, 5, 6],
[7, 8, 9]])**x.strides** (24,8)#Jump 24bytes to access next row, 8bytes to access next column
现在有趣的部分来了,numpy 让我们能够通过使用一个叫做np.lib.stride_tricks.as_strided
的函数来改变任何 numpy 数组的步长。基于我们提供的跨距值,这个函数简单地改变了我们在内存中查看数组的方式,并生成了一个新的“视图”。
这里有一个例子:
x = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(x)x_newview = np.lib.stride_tricks.as_strided(x, shape = (5, 4), strides = (8,8))
print(x_newview)**Output:****X**
array([[1, 2, 3],
[4, 5, 6],
[7, 8, 9]])**X_newview** array([[1, 2, 3, 4],
[2, 3, 4, 5],
[3, 4, 5, 6],
[4, 5, 6, 7],
[5, 6, 7, 8]])
当开始下一行时,我们使用as_strided
仅跳转 8 个字节(1 个元素),而不是跳转 24 个字节(3 个元素)来开始下一行。使用shape
参数,我们也可以根据需要设置输出形状。
注意:如前所述,as_strided
改变了我们看待内存中数组的方式。这意味着如果我们改变“视图”中的值,它将改变内存中的值,从而改变原始矩阵中的元素。
X_newview[1,3] = -99
print(X_newview)
print(X)**Output:
X_newview** array([[ 1, 2, 3, 4],
[ 2, 3, 4, -99],
[ 3, 4, -99, 6],
[ 4, -99, 6, 7],
[-99, 6, 7, 8]])**X** array([[ 1, 2, 3],
[ 4, -99, 6],
[ 7, 8, 9]])
由于as_strided
不使用任何循环来创建这些“视图”,我们可以使用它来有效地生成卷积窗口。我们需要做的就是计算正确的步幅值和输出形状,剩下的工作由as_strided
来完成。
然而,如果我们提供了错误的步幅值,as_strided
将访问数组之外的内存位置并返回垃圾值。幸运的是,scikit-images
库中的view_as_windows
函数通过在后台使用as_strided
自动计算形状和步幅值,为我们完成了所有繁重的工作:
from skimage.util.shape import view_as_windowsinput_matrix = np.array([[3,9,0], [2, 8, 1], [1,4,8]])
print(input_matrix)kernel = np.array([[8,9], [4,4]])
print(kernel)windows = view_as_windows(x, kernel.shape)
print(windows)**Output:
input_matrix** array([[3, 9, 0],
[2, 8, 1],
[1, 4, 8]])**kernel** array([[8, 9],
[4, 4]])**windows** array([[[[3, 9],
[2, 8]], [[9, 0],
[8, 1]]], [[[2, 8],
[1, 4]], [[8, 1],
[4, 8]]]])
现在我们只是重塑:
output_shape = (input_matrix.shape[0] - kernel.shape[0]) + 1
windows = windows.reshape(output_shape**2, kernel.shape[0]*2)
print(windows)**Output:
windows** array([[3, 9, 2, 8],
[9, 0, 8, 1],
[2, 8, 1, 4],
[8, 1, 4, 8]])
下面是完成所有这些工作的最后一个函数:
Im2Col with Memory Strides
现在我们可以做矩阵乘法,方法和之前一样:
output_shape = (input_matrix.shape[0] - kernel.shape[0]) + 1
mem_strided_mat = memory_strided_im2col(input_matrix, kernel)
mem_strided_conv = np.dot(kernel.flatten(), mem_strided_mat) + biasmem_strided_conv = mem_strided_conv.reshape(output_shape, output_shape)
print(mem_strided_conv)torch_conv = nn.Conv2d(1, 1, 2)
torch_conv_op = torch_conv(input_matrix)
print(torch_conv_op)**Output:
mem_strided_conv** array([[145.06, 108.06],
[108.06, 121.06]])**torch_conv_op** tensor([[[[145.07, 108.07],
[108.07, 121.07]]]])
让我们看看它与迄今为止所有其他实现相比如何:
Plot for Mem Strided Im2Col
使用as_strided
大大提高了我们的实现速度!事实上,它几乎和 PyTorch 一样快。
此外,如果您在分析器输出中注意到,PyTorch 在卷积之前使用自己的as_strided
函数:
内存权衡
因为我们需要为输入矩阵的每个窗口创建列,所以 im2col 矩阵最终会比简单的实现消耗更多的内存。
Memory Consumption of Strided Im2Col
然而,速度上的提升(见下表)远远超过了内存消耗增加带来的困难。
摘要
这里总结了所有实现的执行时间。当输入大小改变时,内核大小(2 x 2)保持不变。我在英特尔 i7 处理器上运行了所有这些程序。
Final Results Table
令人难以置信的是,仅用两个简单的技巧,我们就能获得比简单卷积快 150 倍的性能提升。PyTorch 实现仍然比我们的内存步进式 im2col 实现快 2 倍。这很可能是因为 PyTorch 有自己的张量实现,可能会针对更大的矩阵进行优化。事实上,对于 50 x 50 以下的矩阵,我们的实现比 PyTorch 更快。
虽然我们在这里只使用 PyTorch, TensorFlow 在执行卷积( docs )时也执行完全相同的一组操作。
最后,当使用填充、步长或 1D/3D 卷积时,我们的实现会发生怎样的变化:
填充:如果我们添加填充,对我们的实现没有影响,因为填充通常在卷积之前应用。然而,必须正确计算输出形状。
步幅:这里我们假设步幅为 1。更大的步幅只会以更大的跳跃滑动窗口,这意味着必须重新计算as_strided
中的strides
。然而,概念是相同的。(事实上, *view_as_windows*
有一个 *step*
参数,它也可以处理步幅。)
更多过滤器:在我们的例子中,我们假设内核只有一个过滤器。如果我们有更多的过滤器,每个过滤器将被拉平,给我们一个矩阵,而不是向量。接下来,我们将这个矩阵乘以 im2col 矩阵。这意味着我们将把矩阵乘以矩阵而不是矩阵乘以向量来获得输出。
1D 或 3D 卷积:im2 col 矩阵中的列会变得更短或更高,因为窗口的大小会改变(也取决于内核)。
我希望你喜欢并发现这很有用!如有任何问题或意见,请随时与我联系。
Gist with all code:https://Gist . github . com/anirudhshenoy/089 a 70 deed 944d 0 ca 7 ab 0 b 6 a5 e b5 a 7 f 1
参考文献:
[1]第 11 讲 CS231N:费-李非&安德烈·卡帕西&贾斯廷·约翰逊http://cs 231n . Stanford . edu/slides/2016/winter 1516 _ Lecture 11 . pdf
[2]https://stack overflow . com/questions/53097952/how-to-understand-numpy-stamps-for-lender
[3] TensorFlow Conv2D 文档: https://www.tensorflow.org/api_docs/python/tf/nn/conv2d
保险公司是如何实施人工智能(AI)的?
保险公司正在使用人工智能为客户提供更好、更快、更便宜的服务。
Image by Gerd Altmann from Pixabay
人工智能(AI)已经成为保险行业的热门词汇。尽管如此,该行业在人工智能实施方面已经取得了重大进展,尽管我们仍处于早期阶段。在本文中,我们将了解:
- 为什么保险行业需要人工智能解决方案
- 保险公司已经在这方面做了什么,以及;
- 在可预见的未来,人工智能将如何影响行业。
人工智能概述
最简单地说,人工智能(AI)是一套计算机化的工具,旨在实现通常需要人类智能才能实现的目标。
从商业角度来看,人工智能可以用来以更快、更便宜和更准确的方式进行操作。人工智能可以帮助自动化劳动密集型流程,从而降低成本和节省时间。人工智能还可以用来更好地了解客户——公司可以使用人工智能来分析他们掌握的客户数据,以预测客户行为,了解偏好,优化价格和产品供应。
人工智能由许多相关技术组成,其中包括:
- 机器学习:涉及训练计算机识别数据模式和/或预测结果。其他 AI 技术都是机器学习的应用。机器学习通常用于制定量化交易策略。
- 深度学习:机器学习的一种应用,模型可以从数据中分析并得出结论,在没有经过训练或给出明确指令或框架的情况下解决问题。这些模型自己学习。
- 神经网络:设计用来模仿人脑并识别数据模式的算法。他们可以识别、分类和分析不同的数据,并可以发现对人类程序员来说太复杂而无法编写代码的模式。深度学习和神经网络的一个有趣例子是 Goolge 的 QuickDraw ,这是一个草图游戏,它使用用户草图的大规模数据库来准确猜测你在画什么。
- 自然语言处理:帮助计算机理解、解释和回应书面文本或语音。聊天机器人通常使用这项技术。
人工智能还有更多的子集,但关键的要点是:
- 人工智能算法用于分类和研究数据,并识别关系
- 当应用于数据集时,人工智能可以用于模式识别、优化和预测
- AI 可以对不同格式的数据进行分类和分析:文本、语音、图像、视频等。它还可以处理结构化(即标记数据)和非结构化数据。
- 机器学习算法通过输入大量带标签的数据集进行学习。一旦他们能够从已知的数据集中识别出正确的结论,他们就可以应用于现实世界的问题。
保险业对人工智能的需求
保险业是一个古老且高度监管的行业。或许正因为如此,与其他行业相比,保险公司接受技术变革的速度一直较慢。保险业仍然沉浸在缓慢且需要人工干预的手动纸质流程中。即使在今天,客户在获得理赔或签署新保单时,仍面临耗时的文书工作和官僚作风。客户也可能最终支付更多的保险费,因为保单不是为他们的独特需求量身定制的。在我们大多数日常活动都是在线、数字化和便捷的时代,保险并不总是一种愉快的客户体验。
也就是说,我们开始看到保险公司在全球范围内推动增强其技术能力,以便他们能够更快、更便宜、更安全地开展业务。在过去的几年里,有一些保险公司大举投资人工智能解决方案的突出例子。
麦肯锡估计如果人工智能技术完全应用于保险业,每年的潜在价值高达 1.1 万亿美元。其中,受益最大的业务领域是:
- 销售和营销:机器学习可以用来更有竞争力和相关性地为保单定价,并向客户推荐有用的产品。保险公司可以根据个人需求和生活方式为产品定价,这样客户只需支付他们需要的保险费用。这增加了保险对更广泛的客户的吸引力,其中一些客户可能是第一次购买保险。
- 风险:神经网络可用于识别欺诈模式,减少欺诈索赔。根据联邦调查局的数据,美国非健康保险欺诈估计每年超过 400 亿美元,这可能会使家庭每年额外花费 400-700 美元。机器学习还可以用于改善保险公司的风险和精算模型,这可能会导致更有利可图的产品。
- 操作:使用神经网络的聊天机器人可以被开发来理解和回答客户通过电子邮件、聊天和电话提出的大量问题。这可以为保险公司释放出大量的时间和资源,使其能够投入到更有利可图的活动中。
保险公司如何采用人工智能?
Four areas where AI can help the Insurance industry. Image by author, with background by Gerd Altmann from Pixabay
世界各地的保险公司如何实施人工智能来改善他们的底线和客户体验的例子很多。还有许多初创公司正在为保险公司和客户提供人工智能解决方案。我将在这里介绍几个有趣的案例。
健康保险
在健康保险的成本和复杂性不断增加的世界里,Accolade Inc .的 Maya 智能平台使用机器学习来帮助患者和雇主选择最相关的和最具成本效益的健康保险覆盖范围。据报道,Accolade 为超过 110 万客户提供服务。
英国公司 Kirontech 声称其软件 KironMed 使用机器学习来分析医疗索赔,并检测可能意味着医疗保险欺诈或浪费(未充分利用的服务)的模式。据报道,该公司已经筹集了 350 万美元的首轮融资。
2018 年, SwissRe 和 Max Bupa Health 与印度健身科技初创公司 GOQii Health 达成合作。GOQii 使用来自可穿戴设备和他们自己的人工智能驱动的“健康引擎”的数据来跟踪健康指标,并向个人用户提供健康生活建议和风险报告。当与这些人工智能和技术驱动的创业公司合作或收购它们时,保险公司押注这将导致更少的索赔支出,并为健康保险客户带来更具吸引力的保费。
汽车保险
早在 2017 年,美国保险公司 Liberty Mutual 通过其创新孵化器 Solaria Labs 推出了一个新开发者门户。这个开放的 API 门户将公共数据与专有保险数据结合起来,为客户创造更好的保险产品。据报道,其中一个产品是一个移动应用程序,允许发生事故的司机使用智能手机摄像头实时评估他们的汽车受损情况。该应用程序还将提供维修成本估计。驱动该应用程序的人工智能将使用数以千计的车祸图像进行训练。
,中国金融科技公司中国巨头阿里巴巴集团的一部分,**发布了一款名为丁孙保的软件,用于分析车祸损失并处理索赔。丁孙宝使用机器视觉,使司机能够使用智能手机摄像头拍摄他们受损的汽车。然后,该应用程序将照片与其图像数据库进行比较,以确定损坏的严重程度,估计维修成本,并分析事故对司机未来保险费的影响。重要的是,蚂蚁金服声称该应用程序在6 秒内评估损害并处理索赔,而据报道,人类索赔理算员需要大约 6 分 48 秒。
经营效率
美国保险公司好事达(Allstate)与厄尔利信息科学(EIS)机构合作开发了一款名为 ABIe(发音为“陈细洁”)的虚拟助理。ABIe 旨在回答好事达保险代理人的常见问题,这些代理人从销售一种保险产品转向销售另一种保险产品。ABIe 使用自然语言处理每月处理 25,000 个查询。
当在产品线之间切换时,许多销售代理面临着陡峭的学习曲线,好事达发现其呼叫中心被他们自己的销售代理关于新产品的问题所淹没。这导致实际客户在呼叫中心等待的时间很长,从而导致潜在的商机损失。像 ABIe 这样的解决方案可能会带来巨大的变化。
人工智能在保险业的未来
人工智能有可能将客户的保险体验从令人沮丧和官僚主义转变为快速、按需和更实惠的方式。量身定制的保险产品将以更公平的价格吸引更多的客户。如果保险公司将人工智能技术应用于他们所掌握的海量数据,我们将很快开始看到更灵活的保险,如按需付费保险,以及根据事故、客户健康等情况自动调整的保费。
我们将看到保险变得更加个性化,因为使用人工智能技术的保险公司将能够更好地了解他们的客户需要什么。保险公司将能够通过加快工作流程来实现成本节约。随着人工智能驱动的分析开辟新的业务和交叉销售机会,他们还将发现新的收入来源。
最重要的是,上述人工智能解决方案可以让客户更容易与保险公司互动。这可能导致人们更有可能购买保险。
到目前为止,美国 2019 年的预测食品趋势如何?
深入分析
每到年底,行业专家、当地企业、记者,基本上每个人都会试图预测下一年哪些食物会受欢迎。从下一个大饮料,到新的“甘蓝”,甚至到新的热门餐厅趋势,各种各样的事情都被预测到了。像《T2》这种由 Eater 制作的名单有很多,它基本上整合了像《T4》、《纽约时报》、《优步快餐》、《全食超市》和许多其他公司制作的名单。
食品趋势,或者更确切地说是时尚,经常是转瞬即逝的,尽管有些会留下来,但每个人都想走在他们的前面,尤其是那些能从短暂的炒作中获取最大利润的公司。因此,随着 2019 年第一季度的结束,我认为看看这些预测迄今为止是如何保持的会很有趣。当然,3 个月并不算多,但仔细观察现在的趋势可以帮助预测今年年底哪些食物会成为最受欢迎的食物。
竞争者
首先,我从消费者列表中选择了 30 种我认为会很有趣的产品。当你浏览列表的时候,试着在你的脑海中给它们排序,或者至少想想哪一个是你现在认为最重要的,哪一个是最不重要的。
这 30 种产品排名不分先后,分别是:
为了比较这些产品的受欢迎程度,从 Google Trends 收集了类似时间段的数据,即 2018 年和 2019 年的 1 月初至 3 月底。现在,在我们继续前进之前,应该对以下结果持保留态度,因为 Google Trends 数据并不代表实际的搜索数量,而只是该查询的相对受欢迎程度。事实上,谷歌趋势计算和调整流行指数的方式是通过审查搜索的随机样本。
此外,仅仅因为像“海藻”这样的词被谷歌搜索,并不一定意味着它被搜索是因为这个人实际上对海藻作为一种食物感兴趣,而是可能有许多其他原因。然而,我要说的是,对于这些搜索词中的大多数,相关的热门查询都与食物有关。如果你仍然对谷歌趋势数据的工作方式感到困惑,这里有一个有用的帖子。
抛开这个小小的免责声明,让我们再来看看这个列表,但是这次,是按照平均受欢迎指数的百分比增长降序排列的。你的预测正确吗?
赢家和输家
名单上有 30 个选项,受欢迎指数下降 14.5%的最后一个选项是 seitan,一种由面筋制成的肉类替代品。蜂花粉也没有落后太多,为-14.4%,仅比 seitan 高 0.1%。然而,乳制品替代市场的竞争者燕麦牛奶以惊人的 187.5%的受欢迎指数增幅位居榜首,而 celtuce 以+96.5%的受欢迎指数位居第二。
整体而言,考虑到有相当多的项目是普通人可能不认识的,这个列表看起来可能会令人望而生畏。所以,让我们把它分解开来,仔细看看。
前 3 名
1.燕麦牛奶
现在有人可能会问,燕麦牛奶到底有什么大不了的?好吧,问问任何一家咖啡馆,甚至只是燕麦牛奶爱好者,他们正等着得到一些 Oatly 的咖啡师版燕麦牛奶。以防你没听说,在他们的网站上已经完全断货了。更疯狂的是,6 包 32 盎司(或者 1L,如果你是一个公制单位的人)的 Oatly 的咖啡师版燕麦牛奶在 Oatly 的网站上标价 25 美元,而在亚马逊上,在写这篇文章的时候,一包 2 盎司,是的只是两盎司的价格在 49.95 美元到 54.95 美元之间。另外,如果你想知道的话,一包 6 个的价格是 139.81 美元*,加上 19.99 美元的运费。*
燕麦牛奶的严重短缺导致价格飙升,但不要担心,奥特利说他们将在 6 月 12 日重新进货。但是请记住,数量是有限的,每个顾客只允许一箱。如果你错过了机会,你可以在最近的全食超市或其他出售他们产品的参与商店购买他们的其他产品,如冷冻燕麦牛奶或低脂燕麦牛奶。抱歉,那是什么?那里也卖完了?哼。真的有那么好吗?等等,燕麦牛奶到底是什么?燕麦牛奶到底是怎么回事?
燕麦牛奶…那是什么?
乳制品替代品在过去几年里越来越受欢迎,杏仁奶和豆奶现在不再被认为是放在某个隐蔽角落的新奇产品,而是不仅成为超市货架上的主食,也成为咖啡馆和家庭的主食。然而,燕麦牛奶在美国发展缓慢,直到后来发生了一系列导致燕麦牛奶严重短缺的事件,这将在后面解释。
Photo by Oatly
那么如果杏仁奶在技术上是杏仁坚果汁,豆奶是豆奶汁,那么燕麦奶是什么呢?嗯,燕麦牛奶是先将燕麦和水混合在一起,然后用粗棉布挤压,去除燕麦残渣。是的,就这么简单……但是谁会想到燕麦会是一种很好的牛奶替代品呢?里卡德·斯特教授,就是他。
早在 90 年代,瑞典食品科学教授 Rickard ste 和他的团队开发了一种生产液体燕麦基料/饮料的工艺。然后他们成立了 Oatly 公司,并使用现在已获得专利的工艺生产燕麦牛奶。当然,Oatly 使用的过程并不是简单地将燕麦和水混合在一起。Oatly 生产燕麦牛奶有 7 个步骤,在不同的步骤中,他们使用酶溶解蛋白质并分解淀粉,然后过滤、热处理液体并包装。
制作燕麦牛奶最重要的步骤之一实际上是第一步,称为碾磨步骤,在这里他们将燕麦和水混合在一起。(我知道,我只是说他们做的不仅仅是这些,但是请听我说完!)在这里,他们对燕麦进行干燥或湿热处理,这样做是为了保持饮料中的β-葡聚糖含量。热处理使β-葡聚糖酶失活,β-葡聚糖酶是一种分解可溶性纤维β-葡聚糖的酶。那么,为什么我们要在燕麦牛奶中加入β-葡聚糖呢?除了它带来的健康益处,即降低胆固醇和调节血糖水平,它还赋予燕麦牛奶浓厚的质地。这对那些喜欢在咖啡中加入植物牛奶的人来说尤其重要,对咖啡师来说更是如此。
咖啡师混合
如果你曾经在网上购买过植物奶,你会发现有普通的杏仁奶、豆奶或燕麦奶,还有杏仁奶咖啡师混合奶或燕麦奶咖啡师版。那么,为什么咖啡师会有特别版呢?这是因为人们希望这些乳制品替代品在加入咖啡时表现得和普通牛奶一样……但事实并非如此,因为它不是牛奶。
Photo by Califia Farms, Oatly & Alpro
这些“牛奶”在加入咖啡时肯定会分离出来,更值得注意的是,它们不像普通牛奶那样有奶油般的口感。这就是为什么如果你看任何杏仁或豆奶产品的标签,你会看到结冷胶或刺槐豆胶等成分。这些口香糖是添加到产品中的增稠剂,使其更粘稠,不,不要担心,对你没有坏处。
然而,燕麦牛奶不需要增稠剂,因为它含有β-葡聚糖,可以很好地自然结合水,从而使燕麦牛奶更稠。现在,仅仅因为这些植物基牛奶更稠并不意味着它们不会从咖啡中分离出来,它只是提供了与普通牛奶相同的口感和质地。为了确保牛奶在咖啡中不凝结,碳酸钙或柠檬酸钾等成分开始发挥作用。它们通常被添加来强化含有矿物质的产品,但是一旦加入咖啡中,它们也可以防止牛奶分离。这是因为这些成分充当缓冲剂,因此酸度水平的变化意味着植物蛋白不再凝结,牛奶在咖啡中不会凝结。增稠剂和缓冲成分之间微妙的平衡使得咖啡师版本的牛奶与众不同。咖啡师混合饮料中的一种或两种成分通常含量较高,这可能也是它们价格较高的原因。
Photo by Oatly
另一方面,Oatly 的燕麦牛奶使用了不同的成分,一种叫做磷酸二钾的成分,由于盐的碱性,他们将其描述为酸度调节剂。这种特性有助于防止牛奶从咖啡中分离出来。还添加了菜籽油来增加脂肪含量,使燕麦牛奶具有奶油般的质地,模仿普通牛奶的质地。
因此,一些咖啡师将燕麦牛奶描述为奇迹牛奶,因为当他们用它来制作拿铁艺术时,它会“表现良好”。它在咖啡师中的受欢迎程度是燕麦牛奶成功的主要原因。尤其是在美国。
营销和燕麦牛奶的严重短缺
燕麦牛奶最近的人气飙升可能会让一些人感到困惑,但当回顾植物牛奶市场发生的事件时,就很容易理解燕麦牛奶是如何开始传播其影响力的。
杏仁奶和豆奶长期以来一直是乳制品替代品的宠儿,但杏仁奶成为了 2015 年加州干旱的替罪羊,豆奶多年来一直被围绕转基因生物和雌激素的争议所包围。因此,市场的不确定性让一个新的竞争者加入了竞争。燕麦牛奶。但是话说回来,任何数量的其他植物牛奶,如大米牛奶,豌豆牛奶或大麻牛奶都可以利用这种不确定性,那么燕麦牛奶是如何胜出的呢?
就像我之前说的,一个词。咖啡师。
2016 年,当 Oatly 在美国首次亮相时,Oatly 的美国总经理迈克·梅瑟史密斯(Mike Messersmith)和他的团队曾接触过咖啡店,并给了他们咖啡师版燕麦牛奶的样品进行测试。现在,想象你是一名大约 2016 年的咖啡师,用大豆和杏仁牛奶制作拿铁咖啡。这些牛奶替代品有效,但它们并不伟大,它们不是牛奶。但是接下来是燕麦牛奶。你喝一口。嗯,它尝起来很中性,不像杏仁和大豆那样掩盖咖啡的味道。有意思。在将牛奶蒸出泡沫后,你仍然持怀疑态度,但当你开始将牛奶倒入咖啡中时,你会意识到它仍然不像牛奶,但它肯定比杏仁和大豆好。它更浓,更浓,更合适,艺术!这次你不必挣扎着去做了!你抿了一口咖啡,注意到咖啡浓郁的味道是如何散发出来的,而不是品尝杏仁或大豆的味道。你必须告诉你的其他咖啡师朋友,你的顾客!你必须告诉所有愿意听的人。
至少,我认为事情是这样发展的,但主要的一点是,咖啡社区很快就有了新的植物牛奶,就像这种神奇的牛奶一样。从那时起,它才真正开始起飞。起初是在几家咖啡店,后来几家变成了数百家,数百家变成了数千家。接下来你知道,他们也在超市的货架上!然后,突然,他们不在了。超市货架上没有,咖啡店里也没有。其实都卖完了。这是太多的需求,太快了,Oatly 很难跟上,事实上,他们仍然是。他们正在尽最大努力,并计划在新泽西的米尔维尔开设他们的新工厂,以帮助应对需求。希望下次你去当地的咖啡店或杂货店时,你会找到它。
通过咖啡店将燕麦牛奶引入美国市场是 Oatly 的明智决定。说“是的,当然,为什么不呢?”要容易得多当你的咖啡师问你今天是否想尝试燕麦牛奶而不是大豆或杏仁时,与去超市买一整盒或一瓶燕麦牛奶而不是你的常规选择相比。后者是豌豆牛奶尝试过的策略,根据数据,它似乎不太管用。
豌豆…牛奶?
是的,你没看错。豌豆牛奶。不,它不是糊状的绿色液体,也不像蔬菜的味道。这种饮料是用黄豌豆制成的。豌豆被磨成面粉,然后在面粉中加入水,制成豌豆牛奶。有人说它的味道堪比杏仁奶,但后味刺鼻,也有人说它尝起来像豆奶。
发明豌豆奶的公司 Ripple 成立于 2015 年,该产品已经上市好几年了。然而,它并没有燕麦牛奶那么成功。
Photo by Dr. Archer Atkins at archerfriendly.com
豌豆奶比杏仁和豆奶含有更多的蛋白质和奶油(它的成分列表中也有增稠剂),因此,它可能是乳制品替代市场中一个崭露头角的有力竞争者,但它仍然没有在咖啡店中出现。考虑到豌豆牛奶的受欢迎程度在 2019 年下降了 1.4%,它也没有像燕麦牛奶一样引起人们的兴趣。
也许对豌豆牛奶的想法还有一些疑虑。毕竟,我敢肯定,当你们第一次读到豌豆奶这几个字的时候,你们中的大多数人都会联想到一种绿色糊状液体的形象。这或许是余味让人们远离了豌豆牛奶。燕麦牛奶没有显示出放缓的迹象,看起来豌豆牛奶可能不得不加快步伐,以占领不断增长的植物牛奶市场的更大份额,随着 Ripple 最近推出他们的咖啡师风格的植物牛奶,他们可能会这样做。他们现在要做的就是让咖啡社区支持他们。谁知道呢?咖啡师可能会引领无奶牛奶行业的又一场革命。
2.塞尔图斯
这种粗茎绿叶蔬菜有许多名字,如莴笋和茎用莴苣,但是将这种蔬菜介绍到美国的 W Atlee Burpee 创造了 celtuce 这个名字,它来自芹菜+莴苣的组合,然而一些人仍然称它为芹菜莴苣。有时,这种蔬菜也被称为中国生菜,因为它主要出现在中国菜肴中。不过,中国人自己称这种蔬菜为“沃孙”或“孙青”。
Photo by Vmenkov, Wikimedia Commons
在中国的不同地区发现了不同类型的莴苣,这种类型决定了菜里是主要用茎还是叶和茎都用。据说叶子炒起来很好吃,但是茎似乎是这种蔬菜的焦点。据说茎脆脆的,甚至尝起来有点坚果味。在中国烹饪中,茎被切成片,腌制或爆炒,都可以做出美味的菜肴。
大多数时候,在美国,这种蔬菜出现在高端餐厅的菜单上,因为这种蔬菜在当地超市并不常见。相反,你通常会在当地的亚洲杂货商那里找到它们,还有其他你可能以前没听说过的产品。
Celtuce 被推荐到许多年终食物趋势预测名单上,主要是因为它出现在无数高级餐厅的菜单上(例如:亲属关系,梅利塞 &等)。).他们预测这一趋势现在将渗透到大众中。尽管你很难在杂货商那里找到生菜,但考虑到它们是一种相当容易种植的作物,这种奇特的蔬菜似乎更频繁地出现在农贸市场。然而,不仅仅是 celtuce 越来越受欢迎,事实上,绿党似乎在 2019 年第一季度表现良好。
蔬菜的崛起
曾经有一段时间,肉类是至高无上的,但最近蔬菜似乎抢走了人们的注意力。仅仅在十年或二十年前,菜单上的素食和纯素选择还很少,但现在这已经成为一种常态。如今,人们正在寻找更多的方法将蔬菜纳入他们的饮食中,好奇的尝试不同的绿色蔬菜来代替常规的生菜和西兰花。不过,这并不是说肉类已经完全失去了它的地位,但蔬菜肯定正在攀升。看看 2019 年风靡一时的一些蔬菜。
除了甜菜之外,所有蔬菜在这两年间的受欢迎程度都有所增长。然而,大比例的增长并不意味着它在整体上更受欢迎。以 celtuce 数字为例。2019 年与 2018 年相比,更多的人对生菜感兴趣,但这并不意味着更多的人对生菜而不是甜菜感兴趣。甜菜总体上仍然很受欢迎,只是今年对它感兴趣的人比去年少了。
但是,到底是什么导致了消费者寻求更多蔬菜的转变呢?答案是 keto。看到许多蔬菜,相关的疑问是这些蔬菜是否符合酮饮食,低碳水化合物,高脂肪饮食,它必须是酮。随着越来越多的人遵循酮饮食,很明显,低碳水化合物蔬菜流行,而高碳水化合物蔬菜过时了,这可能也解释了为什么高碳水化合物甜菜的受欢迎程度下降了。然而,这个理论的一个例外是木薯,它是一种高碳水化合物蔬菜。
准确地说,木薯今年的受欢迎程度增加了 30.1%。这主要是由于木薯粉的兴起,以及它可以用来制作玉米饼的事实。与玉米粉相比,木薯粉不含谷物和麸质,因此许多人会做出改变。虽然高碳水化合物面粉不符合酮饮食的要求,但它符合另一种流行的饮食要求,称为 peganism,代表旧石器时代的素食主义。
旧石器时代的饮食已经流传了一段时间了。如果你不太确定它是什么,旧石器饮食是一种饮食计划,你可以吃旧石器时代的食物,那时人类是猎人和采集者。这意味着他们的饮食包括瘦肉、鱼、蔬菜和谷物。佩甘主义本质上是这种饮食的一个分支,你可以从两种饮食中吸取要点。这是旧石器时代的饮食,但重点是纯素食主义。所以北京狗主要吃蔬菜、谷物等。但是与纯素食主义者不同,他们被允许吃肉和奶制品,尽管吃得很少。
我知道,我知道,有这么多的饮食趋势时隐时现,有时很难跟踪什么是时尚,什么不是。为了让事情变得更简单,我们来看看今年有望成功的三种节食方法。到目前为止,看起来不错。
从上面可以看出,酮仍然是最受欢迎的饮食,但是素食主义和半素食主义也呈上升趋势。虽然没有照片,但旧石器时代的饮食减少了 0.3%,这表明这些非常注重消费蔬菜的饮食似乎在 2019 年处于领先地位。
虽然半素食主义也称为灵活饮食,与其他饮食相比,本季度的增长百分比最低,但随着时间的推移,它很可能会加速增长。这是三种饮食中唯一没有严格限制的。灵活饮食和其他饮食一样,要求你食用更多的蔬菜,但它并不谴责肉类或奶制品的消费,相反,它赞同在你的饮食中引入更多的植物和谷物,鼓励你从植物和豆类如扁豆等中获取大部分蛋白质。本质上,这就像素食主义,但没有承诺。随意素食主义,如果你愿意的话。
这些饮食,以及远离肉类的普遍趋势对公众对这份清单上的项目的兴趣有很大的影响。事实上,这也可以解释下一件物品的价格上涨。
3.福尼奥
原产于西非,这种谷物被誉为下一个藜麦。它有两种类型,黑色 fonio 和白色 fonio。然而,后者是更受欢迎的一种。传统上,在塞内加尔,它的制作类似于米饭,和一种花生酱一起食用。
Photo by Yolele Foods at yolelefoods.com
像藜麦一样,它是标准白米的替代品。与大米相比,fonio 的蛋白质和纤维含量更高。它还富含氨基酸,特别是蛋氨酸和半胱氨酸,这两种氨基酸在许多其他常见的谷物中通常是缺乏的。fonio 中的铁、镁、锌和 B 族维生素也高于大米。这一点很重要,因为那些选择不吃肉的人有时很难从饮食中获得足够的营养。
虽然肯定比大米好,但它如何与最受欢迎的大米替代品之一藜麦相提并论?
当单独比较时,fonio 的受欢迎程度增加的百分比更高。然而,就一般的恶名而言,藜麦绝对是更受欢迎的一种。考虑到过去几年它一直备受关注,这并不奇怪。
尽管从技术上讲,藜麦是种子而非谷物,但它被誉为超级食物已经有一段时间了。它富含蛋白质和纤维,富含营养。与 fonio 相比,它实际上纤维含量更高,在大多数情况下,取决于产品,蛋白质含量也更高。不过,两者都不含麸质,所以这对所有患有乳糜泻的人来说都是一种解脱。但如果 fonio 打算从藜麦中夺取冠军,那么 fonio 在哪里明显脱颖而出呢?
矿物,那就是。
Data from Gatom Foods
钙,铁,镁,锌。Fonio 在这四种矿物质的含量方面胜过藜麦,但这有什么关系呢?这些矿物质到底对我们有什么用?
嗯,红细胞的形成需要铁,而身体的免疫系统需要锌。另一方面,钙确保你的骨骼保持强壮和健康,而镁是能量代谢所必需的,有助于肌肉收缩和血液凝固。
确保你达到这些矿物质的平均需求对身体有益。然而,由 NHANES 进行的 2007-2010 年美国全国调查显示,美国人普遍摄入这四种矿物质不足。镁的摄入量最高,有 52%的人口摄入低于估计的平均需求量,而钙、锌和铁的摄入量分别为 44%、11%和 7%。
随着越来越多的美国人转向素食或纯素食,这令人担忧。考虑到肉类是镁和铁的良好来源,而牛奶通常是普通饮食中钙的主要来源,将这些产品从你的饮食中剔除可能会给大多数人带来麻烦。然而,通过转向 fonio 这样的产品,人们可以在保持素食/纯素食的同时获得所需的营养。
除了矿物质,素食者/纯素食者在割肉时也很难获得足够的蛋白质,因为他们习惯了低蛋白蔬菜,如花椰菜、芦笋和其他绿叶蔬菜。这就是为什么他们转向藜麦或 fonio 等谷物,以确保他们获得足够的蛋白质。其他素食主义者友好的选择是受欢迎的,如豆腐、清汤和最近的植物性肉类。让我们快速看看这些肉类替代品是如何相互竞争的。
豆腐和清汤曾因其高蛋白含量而成为肉类的首选替代品,但今年它们却发现自己退居二线,受欢迎程度分别下降了 0.4%和 14%。
随着越来越多的消费者转向无麸质食品,由麸质制成的食品 Seitan 的受欢迎程度大幅下降。另一方面,由发酵大豆制成的豆腐长期以来一直是最受欢迎的,但随着植物性肉类的兴起,受欢迎程度略有下降。然而,请记住,与清汤和肉类相比,豆腐仍然更受欢迎。不过,这种情况可能很快就会改变。
肉而不是植物
Beyond Meat ,一家专注于植物性肉类的公司今年人气飙升,围绕该行业的普遍炒作导致搜索量增加。与 2018 年相比,该术语的增幅高达 58.2%。现在你们中的一些人可能会对植物性肉类这个术语感到挠头,因为这怎么可能呢?哦,但确实如此,而且它正在席卷全国。
Beyond Burger, Photo by Beyond Meat
近年来,由于虐待动物等问题,肉类行业受到了严厉的批评。拥挤的笼子和虐待动物的视频在社交媒体上被无情地分享,关于肉类生产对环境影响的帖子在网上流传。从低效的土地利用,到生产牲畜饲料所需的水,再到牲畜的温室气体排放,生产肉类似乎有很多环境问题。然而,对许多人来说,放弃肉是很难的,因为没有味道像它的替代品。
进入植物性肉类。首先是看起来像牛肉饼的肉饼。然后是肉丸、香肠、玉米卷肉,每个月似乎都有新产品。像 Impossible Foods 和 Beyond Meat 这样的公司是以植物为基础的肉类行业的先驱,新公司不断涌现。但是,让我们倒回去一点,因为有趣的是他们有所有这些产品,但是他们到底是如何让植物看起来和吃起来像肉的呢?
嗯,对于肉饼,不可能食品使用大豆分离蛋白,而超越肉类使用豌豆分离蛋白(因此它是一种无大豆产品)。这些是肉饼的基础,也是肉饼蛋白质含量高的原因。然后像菜籽油、椰子油或葵花籽油这样的成分有助于给它多汁的质地,这是我们在吃肉时习惯的。马铃薯淀粉、甲基纤维素、黄原胶、阿拉伯胶等。帮助将馅饼粘合在一起,防止其碎裂。它也有助于提供正确的纹理,以模仿牛肉馅饼。
最重要的是,这些植物性肉饼甚至像牛肉饼一样流血。它们有红肉所具有的那种典型的红粉色。为了达到这个目的,不可能食品公司使用了血红素。他们使用大豆豆血红蛋白来说明问题,他们通过使用基因工程酵母来大量生产大豆豆血红蛋白,从而使其比从大豆中提取大豆血红蛋白更具可持续性和时间效率。这种化合物不仅赋予了肉红色,也使肉饼尝起来像红肉。据《不可能的食物》报道,血红素是一种在动物组织中大量存在的化合物,是它赋予了生肉血腥的味道。在烹饪过程中,血红素起催化作用,从而赋予肉以肉的味道和香味。所以,真的,他们一石二鸟…或者三鸟,因为血红素赋予了颜色、味道和香味。
另一方面,Beyond Meat 采取了不同的方法,非转基因方法。他们用甜菜汁提取物给他们的肉饼看起来又红又肉。果汁被压榨,然后脱水以浓缩颜色。至于味道,他们从肉中分离出赋予肉的味道和香味的分子,然后将它们与植物中发现的类似分子进行精确定位和匹配。然后这些用来给他们的馅饼一种类似于红肉的味道。也许总的来说,这是一个漫长的过程,但有些人一提到转基因或任何与基因工程有关的东西就退缩了,因此,作为一种无转基因产品,吸引了那些寻求符合他们信仰的产品的顾客。
采取行动
起初很难让人们给植物性肉类一个机会。质地不对,有一种奇怪的余味。但是随着时间的推移,新的配方出现了,公众似乎被这种产品所吸引。从松脆的肉饼,到多汁的甚至像肉一样流血的肉饼,这个行业发展迅猛。曾经在精选餐厅发现的新奇产品,现在出现在大型快餐连锁餐厅的菜单上,如汉堡王的不可能的巨无霸,小卡尔的超越汉堡和德尔塔克的超越塔克。甚至连 LinkedIn 自己的杰夫·韦纳也是不可能汉堡的粉丝。
LinkedIn’s CEO, Jeff Weiner and his thoughts on the Impossible Burger.
预测趋势并不容易,但在这种情况下,分析师和记者似乎都做对了。就在上周,Beyond Meat 以每股 25 美元的发行价上市。到当天收盘时,价格已经飙升至 67.75 美元的 163%。这使得 Beyond Meat 成为大约 20 年来表现最好的 IPO。所以现在,每个人都想分一杯羹。
随着植物性肉类被消费者广泛接受,越来越多的公司正在考虑发布他们的产品。泰森食品公司预计他们的产品将在未来几个月内发布,全食超市将很快供应 Lightlife 的植物汉堡,肯定会有许多公司宣布效仿。尽管竞争对手竞相分一杯羹的威胁迫在眉睫,Beyond Meat 的首席执行官伊桑·布朗(Ethan Brown)似乎并不担心。事实上,他喜欢这样。他对 Vox 的 Sigal Samuel 说:“我认为竞争是好的——它有助于提高对这个行业的认识。也许他是对的。这个行业似乎每天都吸引着越来越多的关注。然而,有传言称,另一家竞争对手正试图从传统肉类行业夺走市场份额。实验室培育的肉,显然是真正饲养奶牛的可持续替代物。当大众可以买到植物性肉类时,它会成为过去吗?我想我们还得再等几年才能知道。
潮流还是时尚?
预测食物趋势没有真正的科学。其中涉及到一些分析,并且做了很多猜测,因为人类,我们经常是不可预测的一群。对于食品趋势,有时很难判断哪个会持续多年,哪个会在几个月后被遗忘。有时候只需要一个视频就能改变这一切。到今年年底,我们都会变成喝燕麦牛奶、嚼通心粉、嚼 fonio 的人吗?很难说。
无论如何,这些食物趋势预测列表将继续在每年年底被炮制出来,许多人将蜂拥而至阅读它们……只是在一月中旬到来时忘记了大部分项目。然而,我认为关注这些列表是很有趣的,看看一些食物最终是如何战胜其他食物,巩固其作为一种食物趋势的地位。它们似乎总是凭空出现,但如果你仔细观察,它们背后总有一个故事。
方法论:
该项目使用了谷歌趋势的数据。在相互比较之前,提取了美国地区 2018 年和 2019 年 1 月至 3 月的每个项目的数据。图表是用 Tableau 制作的,并用 Photoshop 编辑。
人工智能(AI)如何为网络安全解决方案增添新视野?
AI For Cybersecurity
麦卡锡和明斯基将人工智能描述为由机器执行的任务,如果由人类执行,将需要大量的智能。做出精确的决策需要所有行为品质的集合数据。这些行为品质是计划、解决问题、推理和操纵。
对人工智能的大规模投资
丰田为 AI 投入 1 亿美元资金;瑞银试图将人工智能引入其投资银行的运营,而风投则梦想用人工智能取代所有人,以降低价格。许多人经常因为从未使用过人工智能或缺乏相关知识而感到尴尬。
许多网络安全供应商使用这个术语,以便通过给客户留下深刻印象来增加销售额。在本文中,我们将共同探讨更多关于网络安全和人工智能的内容。
人工智能对商业有许多 好处 人工智能可以大致分为两种类型。下面给出了两个宽泛的分类:
狭义人工智能
狭义的人工智能是指如今我们在计算机中随处可见的“智能系统,它们被教会了完成特定任务的方法,但没有被编程来完成这些任务。”与人类不同,这些系统只学习正确的方法来完成特定的任务,这就是为什么它们也被称为“苗条人工智能”。
通用人工智能
通用人工智能是将通用人类能力存储到软件中,以便它在遇到问题时可以找到解决方案。它有时被称为“强人工智能”,因为它可以一次性存储和处理大量数据,并提供解决方案。它就像人脑一样工作,因为它通过处理可用的信息来做出决定。
网络安全:概述
网络安全是指旨在保护网络和信息免受破坏或未经授权访问的技术和做法。随着政府、企业和军事组织在计算机上收集、处理和存储大量信息,网络安全至关重要。
这些数据中的相当一部分可能是敏感的;它可以是知识产权、财务数据、个人信息或任何其他类型的数据,未经授权的访问或暴露可能会给人们带来严重的后果和问题。
组织在全球范围内将大量数据传输到不同的系统。存储在系统中的这些数据很容易被攻击并从系统中提取出来。这会导致超出我们想象的问题。近年来,我们发生了一些数据盗窃案件,这些案件的发生是因为本组织本身采取的网络安全措施不足。网络安全确保这种规模的数据盗窃不会发生。因此,它有助于个人隐私。
人工智能在网络安全中的作用
网络攻击者正在投资自动化以发起攻击,而许多组织仍在探索手动工作,以结合内部安全发现并将其与外部威胁信息联系起来。对于我们目前部署的这种安全系统,发现入侵可能需要更长的时间,在此期间,攻击者将利用漏洞危害系统并获取知识。
为了应对这些挑战,许多组织正在探索在其常规网络风险运营中使用人工智能。不能否定人工智能在网络安全中的作用。
通过人工智能,可以快速识别和分析新的漏洞和弱点,以帮助减轻进一步的攻击。它有能力最小化对人类的压力。一旦检测到入侵,当需要他们干预时,他们就会收到警报。
人工智能在网络安全中的优势
人工智能可以变得更聪明
一个有用的类比是思考为你的组织工作的最好的专业人士。如果你用这个员工来训练你的机器学习和人工智能程序,那么 AI 就会像你的明星员工一样聪明。现在,如果你花时间用你的 100 名最好的员工来训练你的机器学习和人工智能程序,结果将是一个像 100 名最好的员工的大脑加在一起一样聪明的解决方案。人工智能 vs 机器学习也是近年来的热门话题。
艾从不休息
人工智能在网络安全方面为数不多的优势之一是,AI 从不休息一天,也不会在连续工作数小时后感到疲劳。因此,我们可以在这里得出结论,人工智能有助于以最高的效率、最高的速度和最高质量的产品完成工作。
预防网络威胁和避免攻击是理想的,但阻止这些事件的发生几乎是不可避免的。一旦他们这样做,快速反应是至关重要的,无论是在尽量减少攻击造成的伤害,还是从其影响中恢复过来。有了“思考机器”,快速反应可能会被写入它的系统。
人工智能迅速发现威胁
致力于发现潜在威胁的算法可能会实时执行,以提供对攻击的即时响应。现有的安全软件系统数据库和算法具有有限的范围,并且通常无法跟上新威胁媒介的快速发展和突变的步伐。
设计到智能安全系统中的自适应或机器学习算法,有可能在威胁发生时发现并应对威胁——甚至是动态威胁。这些智能安全设备可能具有持续学习的内在能力,以检查当前的数据池并从中进行推断,预测未来的威胁和可接受的响应。
人工智能对网络安全的影响
扩大阻力
人工智能也有可能增加系统对持续攻击的抵抗力。如果一家公司使用大量的硬件设备,如台式机和手机来交流和传输信息,那么通过网络攻击从系统中获取信息的可能性就非常高。
能够应对每一个外来威胁
为了应对这种攻击,可以部署由人工智能支持的机器驱动机制来应对每一个到来的威胁,因为它会实时呈现自己并采取应对措施。观察到人工智能对网络安全的一些影响。
策划应对威胁的有效策略
在通常的安全设置中,对威胁的实时响应通常会受到速度的限制,有时还会受到攻击本身不断变化的性质的限制。因此,需要分析大量数据,以便制定应对措施和制定适当的策略。
人工智能在网络安全中的意义
人类安全分析师通常无法单独处理这些任务,他们的网络威胁响应系统需要一定程度的自动化。如今,人工智能系统及其机器学习算法和实时反制措施是保证不断发展的安全格局的第一阶段。
世界各国政府基于人工智能采取了许多措施。如今,政府在他们的系统中使用人工智能组件来检查并消除任何威胁。这是用人工智能完成的。
虽然这听起来很简单,但这是一个非常复杂的过程,需要数百人参与这个项目。从事该项目的大量人员让人们了解了人工智能在网络安全中的重要性。这确保了国家安全不受威胁。
网络安全中人工智能的例子
2016 年 10 月,白宫发布了一份关于“为人工智能的未来做准备”的报告。这份报告谈到了我们应该采取的管理人工智能的策略。组织了一些活动来讨论这项技术,以便让越来越多的人了解这项技术,并让新技术不断涌现。
这些会议极大地帮助了许多以前不知道这个话题的人,现在他们对这个话题有了全面的了解。这也导致了许多人工智能的实际应用,被视为世界的未来。
由于技术相对较新,我们不太确定它的未来。科学家不知道将来会出现什么问题,也不知道他们会如何处理。即使世界已经看到了如此多的人工智能在网络安全中的例子,这种困惑仍然存在。
在未来,人工智能将需要某种高科技监控,以确保它执行它应该执行的建设性任务,而不是成为破坏的工具。人工智能应该以这样一种方式发展,它们很容易受到网络攻击。
一位首席科学家的话
一位首席科学家曾经在采访中说过,一个 AV 研究者,在他的整个职业生涯中,曾经看到过一万个病毒。然而,这些天他们每天遇到 50 多万个。他说,他的安全公司采用人工智能来防止这种攻击。除此之外,人工智能作为一种安全工具,在目前网络安全行业面临人力资源缺乏的情况下,可以证明是有帮助的。全球超过 40%的组织声称,他们正面临着 web 安全领域专业人才短缺的问题。
向前移动
我们在处理人工智能时面临许多问题,为了实施人工智能,每个组织都必须需要强大的人工智能解决方案。有伦理和法律问题需要考虑,例如谁将为自主机器的行为负责,自主机器自己决定它将要采取的行动。
然而,凭借其提供的各种优势,人工智能在网络安全方面的未来看起来很有希望。要想知道未来几天它会如何改变世界,我们还得等上几年,也许几十年。
人工智能如何永远改变了扑克
职业扑克玩家 Daniel“Kid Poker”negre anu 最近讨论了人工智能如何通过给人们一种不用冒险花钱就可以学习扑克策略的方法来彻底改变扑克。他指出,越来越多的人能够成为专业级选手,因为人工智能能够帮助他们找出在某些情况下应该做什么,而以前这些策略是通过反复试验来学习的。
“我在 90 年代末开始玩扑克时,它的样子与你今天看到的非常不同。人工智能和不同软件程序的进步,你可以用它们来解决过去老派赌徒只能通过试错来解决的问题。现在有实际证据表明,在这种情况下,这是你应该做的。这是以前从未有过的。很多最高级别的顶级球员利用这一点来提高他们的比赛水平”
丹尼尔“儿童扑克”尼格雷努
Photo by Dylan Clifton on Unsplash
**扑克。**一款适合任何名人的经典赌博游戏。具体来说,我想重点介绍一下德州扑克,这是一种变体,每位玩家发两张面朝下的牌,分三个阶段发五张公共牌(翻牌圈三张,转牌圈一张,河牌圈一张)。在每一轮,每个玩家都有过牌、跟注、加注或弃牌的下注选项。回合发生在翻牌圈发牌之前和每次发牌之后。在所有下注结束时,使用公共牌和自己的两张牌组合的最好的五张牌的玩家赢得该轮下注的所有钱。
在德州扑克中赢一手牌有两种方法:
- 如果所有其他玩家都弃牌,那么最后一个没有弃牌的玩家将赢得所有的钱。
- 如果所有下注结束后仍有至少两名玩家剩余,则拥有更好的五张牌的玩家赢得所有的钱(称为摊牌)。
因为玩家可以通过让所有其他玩家弃牌来赢得一手牌,所以即使你的牌很弱,德州扑克也提供了获胜的机会。考虑以下策略:
- 如果你有一手烂牌(就像是一手烂牌,什么都赢不了),你可以弃牌,放弃任何赢钱的机会,或者你可以下注一大笔钱来诈唬,让其他玩家认为你有一手很强的牌。如果你能让其他玩家相信你的牌很强,你也许能让他们弃牌。当然,如果他们也有一手很强的牌,那你就输了。
- 如果你有一手不错的牌,你也可以下大注并诈唬来保护你的牌,但你也必须确定其他玩家是否有比你更差的牌可以击败。如果是这样,你想通过下足够的注,让其他玩家跟注,但不要下太多注,让他们弃牌,从而最大限度地增加你的收入。
- 如果你有一手好牌(比如一手绝对不会被击败的超级好牌),你应该下足够的注,让其他玩家跟注,但不要下得太多,以免他们弃牌。
一般来说,策略是基于你认为其他玩家会怎么做。从这个意义上说,扑克是一个非常心理化的游戏(人工智能不太懂的东西)。
Photo by Markus Spiske on Unsplash
**人工智能。**结识新朋友时的热门话题!当你给机器大量的数据时,它们可以在这些数据中找到模式来学习如何解决问题。这里的问题是他们依赖数学方法来解决问题。就拿象棋这样的游戏来说吧。国际象棋是非常权威的。除了最初的几个步骤,在国际象棋中总是有一个最好的步骤,这就是为什么国际象棋人工智能能够消灭甚至最好的大师。就国际象棋而言,机器将计算每一步棋的结果,并选择最有可能获胜的一步。
然而,虚张声势的引入使事情变得复杂。在德州扑克中,有游戏的心理方面(即使仍然有数学方面),这是机器很难学习的。与国际象棋不同,在国际象棋中,可以根据当前的走法和对手可能的走法来确定最佳走法,德州扑克要求偶尔跟随你的感觉(即使逻辑说不);例如,当另一个玩家下大注,而你说“我不相信你”时,如果你的数学获胜概率似乎小于 50%,有时跟注和总是弃牌一样好。
那么,如何改变人工智能以适应每个不同玩家的策略呢?因为了解你的对手如何玩对于成为一名优秀的扑克玩家来说是至关重要的。有些玩家是“紧牌”玩家,他们只在自己原来的两张牌高于平均水平时才玩一手牌,并且只有在自己有非常强的牌时才会跟注。其他玩家是“松散型”玩家,他们会玩任何牌,而且通常只拿着像样的牌跟注(例如丹尼尔·内格里诺)。关键是把游戏分成更小的部分,并随着游戏的进展调整策略。因此,人工智能可以使用机器学习来找到对手策略中的弱点,并加以利用。
还有一个问题是你不知道对手的牌。在国际象棋中,双方都知道棋盘的确切状态。在扑克中,两个玩家都不知道确切的状态,因为有两张隐藏的牌。这使得任何人都很难预测比赛的最终结果。也很难把运气考虑进去,因为扑克确实是一种碰运气的游戏。你可以从最好的一手牌(一对 a)开始,但是如果五张公共牌是同一花色的 5、6、7、9 和 10,你就会发抖。
虽然没有具体的方法来解释这一点(玩扑克的人工智能总是一个近似的解决方案),但研究人员试图通过制作游戏和抽象来解决这个问题,其中相似的手牌被组合在一起。这使得人工智能可以更容易地考虑到其他玩家可能有这么多手牌。
Photo by Keenan Constance on Unsplash
**扑克和人工智能的现状。**现在的人工智能其实已经可以打败职业扑克选手了。向人工智能咨询策略也变得越来越普遍。这又回到了丹尼尔·内格里诺所说的——与以往相比,越来越多的人能够使用人工智能来改善他们的策略。虽然老派扑克玩家会通过输钱来学习,但当代玩家通过与他们的机器对抗来学习。这对扑克界有着巨大的影响;2019 年世界扑克系列赛有 8 千名参赛者,比以往任何时候都多。用不了多久,一个人工智能就会赢得世界扑克大赛…
其他一些有趣的资源:
人工智能如何加速药物发现
人工智能 (AI)正在接管每一个行业。我们有了电,我们有了互联网,现在,我们有了人工智能。
艾在现代
人工智能的目标是使用计算机模拟人类智能。人类(至少到目前为止)比计算机聪明得多。我们可以解决复杂的问题,比如造桥。我们可以通过观察一个人的肢体语言来理解对方的感受和情绪。计算机做不到这一点,至少,用几百万行代码给它编程是做不到的。
计算机非常擅长快速进行计算。你可以在商场花 1000 美元买到的现代个人电脑或 Macbook 将包含一个运行速度为 3.0 GHz 的处理器。那就是每秒三十亿次运算。
这些天来,通过教计算机新概念,计算能力正被用来构建人工智能,就像我们可以教人类新技能一样。现代人工智能是数据驱动的,这意味着人工智能通过消耗数据来积累知识。
为了教会现代人工智能系统汽车是什么样子,我们可以给它看几张不同型号、形状和颜色的汽车照片。然后,人工智能将从这些例子中学习组成汽车的特征——汽车的形状、车身、零件、整体外观。当它看到一辆新车时,它会知道这是什么,因为它以前见过类似的东西。
这种通过展示大量例子来教授人工智能系统的概念,正被应用于几乎每一个现代行业。人工智能正在接受训练,以浏览法律文件,为潜在客户撰写完美的销售计划,并预测股票。我们所要做的就是向人工智能展示各种案件的大量法律文件、对客户的推销以及股票市场数据,让它学会如何使用它们。
药物发现的科学
药物研发领域涉及新药的搜索、发现和实验。通常,这可以通过以下两种方式之一实现:
(1)在天然方法中科学地鉴定活性成分,该活性成分执行与我们希望我们的药物相同的功能。例如,Advil 中的活性成分是布洛芬,它可以减少导致体内炎症和疼痛的激素
(2)侥幸心理。当苏格兰科学家亚历山大·弗莱明度假回来后,发现他不小心把一个细菌留在了实验室一个敞开的培养皿中时,青霉素被偶然发现了。当他检查培养皿时,他发现在细菌中间形成了一个完美的圆形霉菌,完全没有被污染。这种霉菌后来被归类为青霉素,并拯救了数百万人的生命。
药物发现的方法(2)是好的。我们希望这样的幸运事故每天都发生在我们身上!但是方法(1)是我们唯一可以依靠的解决方案。做一个真正的,科学的寻找解决方案。这就是人工智能可以帮助的地方。
人工智能可以帮助药物研发
众所周知,科学可能很复杂。尤其是像药物发现这样的实验性研究。科学家们对体内不同的化学物质如何反应和协同工作有了很好的了解。但是对于药物来说,我们面对的是风险更高的人体,实验的成本也更高。
一个从事药物发现的科学家可能会在多年的工作中进行数百次有计划的精心设计的实验。它始于实验室,在那里化学物质与其他化学物质在类似培养皿或试管中进行测试。一旦这些测试“通过”,实验就会继续在啮齿动物身上进行——通常是小鼠和大鼠。然后是狗和黑猩猩。最后但同样重要的是,人体试验。
这些程序非常严格,通常需要数年才能完成。成本可能高达数十亿美元,而且很有可能失败。其中任何一个阶段的失败都会让我们回到原点。有成千上万种化学组合,大部分工作是实验性的,一些成功的基础来自经验证据。
人体试验中的病人经常暴露在无法预测的副作用下。即使试验最终成功,也要经过监管部门的批准。它可能会也可能不会获得在美国来自美国食品和药物管理局 (FDA)的批准。
现代人工智能在有大量数据和/或大量重复动作的应用中特别有效。这使得药物研发成为首选。多年来收集的大量测试数据和进行的大量重复实验。
药物发现最具挑战性和最耗时的部分之一是,实际的发现。以完全正确的比例获得正确的化合物是一个巨大的挑战。如果能解决这个问题,就能节省多年的实验、测试和人体试验。
这是大多数药物研发公司的人工智能关注的焦点。使用人工智能来检查药物的组合,学习关于它们的。对于这种应用,什么是好的药物?糟糕的一个?如果我这样使用这种药物,会发生什么?在某种程度上,人工智能可以进行科学家通常会进行的完全相同的实验,只是在计算机模拟中。这样,它可以在很短的时间内经历多次实验。这对科学家、社会、时间、金钱和健康都是一个巨大的节约。
展示用于药物发现的人工智能
Atomwise 开发卷积神经网络(CNN)对某些药物进行大规模基于实验的搜索。为正确的应用开发正确的药物是一种微妙的平衡,既有效又安全,没有副作用。通常,这需要许多实验,但我们仍然不能 100%确定这种药物永远是 100%安全的。Atomwise 通过训练 CNN 自动进行实验,有效地将这项工作转移到计算机和人工智能系统中。这使得科学家们可以进行更多的实验,数百万次,以选择更可靠的可行药物子集。
与 Atomwise 相似的著名创业公司有 Deep Genomics 、 Schrodinger 和 Recursion AI 。
PathAI 专注于疾病的精准诊断。病理学家在医疗保健中发挥着非常重要的作用。他们将从本质上分析像组织样本这样的东西,以便进行诊断并确定下一步的行动,特别是在潜在疾病存在的情况下。由于这样的过程需要一个专家——病理学家,它很快变得昂贵、耗时,甚至在某些情况下容易出现人为错误。
PathAI 提出的解决方案是训练人工智能进行这种诊断。人工智能甚至不需要能够完美地诊断每一个组织。但它能做的是大大减少病理学家的工作量。让人工智能检查所有的组织样本。由于它是在计算机上运行的,它在工作量方面受到的限制较少,可以进行非常复杂的分析。然后,AI 系统可以传递组织样本的子集,这些样本被认为是“感兴趣的”,并且不会用它对其诊断非常有信心的样本来打扰病理学家。人工智能也可以被训练来指出组织内的“感兴趣区域”,它认为病理学家应该给予额外的关注。所有这些确实有助于简化科学家和病人的流程。
与 PathAI 相似的著名创业公司有 Paige。艾和野山羊。
有几家初创公司致力于增强和优化临床试验,旨在使整个过程更加有效。Athelas 公司正在开发一种设备,可以从一滴血中分析癌症的生物标记,从而可以快速分析疾病状态。 Imagia 的软件分析放射图像,以预测患者疾病的进展和对潜在治疗的反应。 WinterLight Labs 有一个通过分析简短的语音样本来评估和监控认知健康的系统。它可以用于在整个临床试验和实验过程中跟踪患者的认知状态。
关于将人工智能应用于药物发现的公司的更多信息,请查看 BenchSci 关于药物发现的文章初创公司和制药公司。
喜欢学习?
在 Twitter 上关注我,我会在这里发布所有最新最棒的人工智能、技术和科学。我也很乐意在 LinkedIn 上与你联系。
注来自《走向数据科学》的编辑: 虽然我们允许独立作者根据我们的 规则和指导方针 发表文章,但我们不认可每个作者的贡献。你不应该在没有寻求专业建议的情况下依赖一个作者的作品。详见我们的 读者术语 。
人工智能如何影响我们的日常生活
以及你每天是如何遇到它的
Photo by Franki Chamaki on Unsplash
人工智能和机器学习在幕后被用来影响我们的日常生活的方式多得惊人。
人工智能在我们生活的每个领域都有帮助,无论我们是试图阅读电子邮件,获取驾驶方向,获得音乐或电影推荐。
在本文中,我将向您展示人工智能在日常活动中的应用示例,例如:
- 社会化媒体
- 数字助理
- 自动驾驶和停车车辆
- 电子邮件通信
- 网络搜索
- 商店和服务
- 离线体验
人工智能如何改善社交媒体
人工智能使用户更容易找到朋友和商业伙伴并与之交流。
推特
从推文推荐到打击不当或种族主义内容,以及增强用户体验,Twitter 已经开始在幕后使用人工智能来增强他们的产品。他们通过深度神经网络处理大量数据,随着时间的推移了解用户的偏好。
脸谱网
深度学习正在帮助脸书从其非结构化数据集的更大部分中获取价值,这些数据集是由近 20 亿人每分钟更新状态 293,000 次创建的。它的大部分深度学习技术都建立在 Torch 框架上,该框架专注于深度学习技术和神经网络。
照片墙
Instagram 还利用大数据和人工智能来定向广告,并打击网络欺凌和删除攻击性评论。随着平台中内容数量的增长,人工智能对于能够向用户显示他们可能喜欢的平台信息、打击垃圾邮件和增强用户体验至关重要。
聊天机器人
聊天机器人识别单词和短语,以便(希望)向有常见问题的客户提供有用的内容。有时候,聊天机器人非常准确,就好像你在和一个真人说话一样。
例如,下图中的聊天机器人对话显示了人工智能正被用于安排美发师约会。
Chatbot conversation. Photo by the author
人工智能如何通过数字助手每天帮助你
数字助理
苹果的 Siri、Google Now、亚马逊的 Alexa 和微软的 Cortana 都是数字助手,可以帮助用户执行各种任务,从查看他们的日程安排和在网络上搜索一些东西,到向另一个应用程序发送命令。人工智能是这些应用如何工作的重要组成部分,因为它们从每一次用户交互中学习。
人工智能如何通过停车和驾驶每天帮助你
自动驾驶和停车车辆
自动驾驶和停车汽车使用深度学习(人工智能的一个子集)来识别车辆周围的空间。技术公司英伟达(Nvidia)利用人工智能赋予汽车“观看、思考和学习的能力,因此它们可以在几乎无限的可能驾驶场景中导航”。该公司的人工智能技术已经在丰田、奔驰、奥迪、沃尔沃和特斯拉生产的汽车上使用,肯定会彻底改变人们的驾驶方式,使车辆能够自动驾驶。
人工智能如何改善电子邮件通信
Gmail 中的智能回复
智能回复为用户提供了一种回复电子邮件的方式,只需简单地说一句“是的,我正在努力。”或者“不,我没有。”只需点击一下按钮。智能回复是根据每封电子邮件的内容定制的。用户可以通过键入手动回复来回复,也可以选择一键智能回复。
例如,如果你向某人发送一封关于即将到来的游戏的电子邮件,而他们回复让你知道他们有兴趣去看游戏,Gmail 提供了“智能回复”选项。
Gmail 中的电子邮件过滤器
谷歌使用人工智能来确保你收件箱里几乎所有的邮件都是真实的。他们的过滤器试图将电子邮件分为以下几类:
- 主要的
- 社会的
- 促销
- 更新
- 论坛
- 罐头猪肉
该程序可以帮助你的电子邮件变得有条理,这样你就可以更快地找到重要的通信方式。例如,Gmail 将电子邮件分为 4 个不同的类别,并将垃圾邮件发送到单独的文件夹。
人工智能如何帮助网络搜索
人工智能被用来帮助谷歌搜索已经有一段时间了。
谷歌预测搜索:
当你开始输入一个搜索词,谷歌会推荐给你选择,这就是人工智能在发挥作用。
Google Predictive Searches. Photo by the author
预测性搜索基于 Google 收集的关于您的数据,如您的位置、年龄和其他个人信息。使用人工智能,搜索引擎试图猜测你可能试图找到什么。
谷歌的算法
谷歌搜索引擎通过研究搜索中使用的语言学随着时间的推移而发展。它的人工智能从结果中学习,并随着时间的推移进行调整,以更好地满足用户的需求。
例如,搜索“什么是神经网络,它们与突触有什么关系”,谷歌会在顶部突出显示“最佳答案”,然后是回答该问题的来源列表。
Photo by the author
谷歌算法的目的是向搜索者提供尽可能好的结果。为了做到这一点,谷歌使用 AI 来尝试确定内容的质量,并将其与用户的查询进行匹配。
人工智能如何改善你在网上商店和服务的体验
产品推荐
亚马逊和其他在线零售商使用人工智能来收集关于你的偏好和购买习惯的信息。然后,他们通过推荐适合你习惯的新产品来个性化你的购物体验。
下面是一个人工智能推荐 Amazon.com 的例子。
AI-powered recommendations on Amazon.com. Photo by the author
音乐推荐
音乐服务使用人工智能来跟踪你的收听习惯。然后,他们利用这些信息推荐你可能喜欢听的其他歌曲。
例如,Spotify 会根据你的收听习惯,为你的新发现、新作品和老作品提供建议。
Google Play 还提供个性化的音乐推荐。它的人工智能建议考虑了天气和时间等因素,以提供可以为活动设定情绪的音乐。例如,你可能会在周五晚上收到一个舞曲播放列表,或者在下雨天收到一个轻音乐播放列表。
地图和方向
当像谷歌地图这样的应用程序计算交通和建筑,以便找到到达目的地的最快路线时,这就是人工智能在工作。
在下面的例子中,谷歌地图根据通常的交通情况,根据从柏林到波茨坦的最快路线提供方向。路线上的橙色部分表示交通较慢的地方。
Photo by the author
商业航班
你可能会惊讶地发现,你友好的飞行员在驾驶舱里实际上很少飞行。2015 年对航空公司波音 777 飞行员的一项调查报告称,在一次典型的飞行中,人工驾驶飞机仅花费 7 分钟,其余大部分时间由人工智能技术完成。
据《连线》杂志报道,波音公司正致力于建造完全由人工智能驾驶的喷气式飞机——没有人类飞行员掌舵。
结论
人工智能让我们的生活每天都更有效率人工智能为许多程序和服务提供动力,帮助我们做日常事情,如与朋友联系,使用电子邮件程序,或使用拼车服务。
如果你对人工智能的使用持保留态度,那么知道我们大多数人多年来一直在日常生活中使用人工智能可能会令人欣慰。
如果你想联系我,顺便说一句,你知道一个好笑话,你可以在 Twitter 或 Linkedin 上联系我。
感谢阅读!😄 🙌
人工智能如何变革食品加工业务?
Photo by Priscilla Du Preez on Unsplash
人工智能正在吸引许多学科和领域的企业的注意,食品加工和处理(FP&H)就是其中之一。今天,FP&H 行业的上限高达 1000 亿美元,并将至少在 2021 年前继续以 5%的 CAGR 增长。
人工智能正在直接和间接地影响着食品和保健品行业。例如,它间接地帮助农民预测天气,这将帮助农民为食品加工公司生产高质量的原材料,帮助他们节省分拣产品的费用。AI 还帮助运输公司降低运输成本,使食品加工公司支付更少的运输费用。不管怎样,它都在帮助 FP & H 公司节省收入。
然而,从人工智能的直接好处来看,它在五个重要的应用领域帮助了计划生育和保健部门,它们是:
- 分拣包装和产品
- 食品安全合规
- 保持清洁
- 开发产品
- 帮助客户做出决策
人工智能在食品加工和处理中的应用
食品加工是一项复杂的业务。它包括对来自农场的食物或原材料进行分类,维护机器和各种设备,等等。最后,当最终产品准备装运时,人类检查产品的质量,并决定它是否准备装运。然而,在许多食品加工单位,这一过程是由人工智能自动化的。以下是人工智能的五大应用,它们直接影响食品加工公司,并帮助他们增加收入和提升客户体验。
1.分拣包装和产品
食品加工公司面临的第一个运营挑战是原料的分类。每一种土豆、番茄、橘子和苹果都是不同的,因此,它需要严格的分类,因为每一家食品加工公司都必须保持一定的质量才能在竞争中保持优势。如果不是通过人工智能和物联网等其他新兴技术实现自动化,这一过程需要大量的人力。
据挪威领先的分类和收集解决方案提供商 Tom ra T1 称,直到 20 世纪末,90%的食物都是由人类分类的。与其他只能将劣质水果和蔬菜从优质水果和蔬菜中分拣出来的食品分拣机不同,TOMRA 使用 X 射线、NIR(近红外)光谱、激光、相机和一种独特的机器学习算法来分析水果或蔬菜的不同方面,以进行分拣。
Kewpie 公司,一家日本食品加工公司,创造了一个基于人工智能的 TensorFlow 机器来识别来自农场的食物中存在的异常。像 TORMA 和 Kewpie 这样的公司不仅帮助食品加工公司增加收入,而且提高产量。
2.食品安全合规
安全是食品加工行业的一个大问题。即使是最小的污染是食品罐头工厂已经开始实施基于人工智能的摄像头来检测员工是否穿着合适的服装。然而,这是上海市卫生局在上海餐馆实施的大规模实施。该机构与 Remark Holding 合作,在 200 多家餐厅实施了人工智能摄像头,并计划扩展到 2000 多家餐厅。
支持人工智能的摄像机帮助餐厅经理监视餐厅员工,看他们是否按照食品安全法规穿着合适的食品保护装备。这有助于他们实时发现任何违纪行为。
3.保持清洁
保持清洁是食品工厂非常关心的问题。许多公司声称非常干净,因为他们的每一个过程都是自动化的,没有经过人工干预。如果机器和设备被污染了怎么办?消费者也变得聪明起来,他们知道每个过程都自动化并不意味着产品可以安全食用。他们需要更多的证据。
根据诺丁汉大学的数据,设备清洗几乎占食品加工厂能源和水供应的 30%。他们声称他们基于人工智能的传感器技术每年能够节省近 1.33 亿美元,并且节省时间(50%)、能源和清洁设备的水。
传统的清洁系统不包括任何传感器,这导致食物颗粒残留在设备容器中。该系统无法清洁新的自优化清洁系统可以清洁的小食物颗粒。它使用光学荧光成像和超声波传感技术将数据传递给机器学习算法,这将有助于监控设备中的微生物碎片和食物颗粒。
4.开发产品
食品加工业有其独特之处,因为一家公司可以提供如此多的产品。例如,饮料巨头可口可乐收购了 500 多个品牌,并向其客户提供 3500 多种饮料。但是,问题来了,公司如何决定下一步创造哪种口味?在 AI 之前,该品牌进行了调查和活动,以确定他们的客户想要什么。
目前,可口可乐公司保留了几个自助苏打水喷泉,允许顾客通过混合可口可乐公司提供的各种饮料来创造他们定制的饮料。成千上万个这样的喷泉分布在整个美国。数百名顾客使用这些喷泉来创造他们的个性化饮料。利用人工智能,他们分析并确定了大多数顾客将樱桃味汽水和雪碧混合在一起。这些数据帮助可口可乐推出了他们的新产品樱桃雪碧。
5.帮助客户做出决策
与食品加工公司类似,人工智能也可以帮助客户做出更好的购买决定。食品制造巨头家乐氏推出了熊裸体定制,允许顾客在 50 多种配料的帮助下制作他们的个性化格兰诺拉麦片。该系统使用 IBM 的厨师沃森存储了数千种可能的食谱,并将它们输入到人工智能算法中,该算法帮助客户识别这些食材搭配起来是否美味。
这个系统不仅帮助客户创建他们的个性化小批量格兰诺拉麦片,还帮助公司确定他们的下一个产品系列,类似于可口可乐。
结论
尽管处于初级阶段,人工智能正在重塑食品加工和处理业务。在接下来的几年里,它将彻底改变 FP&H 行业。人工智能将帮助这些公司增加收入,方法是加快生产过程,减少维护时间&因此减少生产停工时间,通过自动化几乎每个过程来减少失败的机会,并最终通过预测他们的喜欢、不喜欢和愿望来提供出色的客户体验。
移动应用程序开发服务提供商的钟声已经敲响,因为在不久的将来,将会有许多 FP & H 公司寻找人工智能解决方案提供商,这将有助于他们不仅留在竞争中,还能统治行业。
增强现实(AR)如何改变旅行和旅游业
根据 Statista 的报告,到 2025 年,全球增强现实 AR 市场预计将培育 59.1 亿至 1980 亿美元。 增强现实趋势 已经物化为不同业务的建设性工具。这让他们改变了顾客观察周围环境的方式。
AR 是最新兴的类型技术之一,在未来几年将会更有帮助。这种技术创新对那些在旅游行业工作的人来说是非常有益的。增强现实或 AR 提供了出色的销售体验和增强环境,这可以在旅游部门以多种方式得到增强。在这篇博客文章中,你将更好地了解 AR 在旅游行业中的影响。
AR 在旅行中的重要性
凭借吸引人类思维的力量,AR 正在改变营销人员的游戏,我们将探索 增强现实解决方案 如何帮助旅游行业。这项技术为旅游业打开了创新之门,以改善他们的客户体验。然而,旅行和旅游领域已经显示出增强现实的重大转变。
旅行和旅游业务是一个高度研究的部分。旅游业的顾客总是通过广泛的研究来计划他们的旅程、停留或要探索的食物地方。对于顾客来说,对数据和信息的追求不会停止,即使是在他到达他们的旅游目的地之后。此外,所有这些信息都在一系列移动设备中进行探索。
旅游业的增强现实
这就是 AR 为旅游业带来变革的地方。AR 能够通过提供互动广告吸引信息来增加搜索体验。通过开创性的移动应用程序,这些增强的体验可以通过简化旅行搜索和建立信任而广泛传播给旅行者。
甚至,旅游专家估计,通过接受 AR 的力量,可以建立不同的用户体验,这可能成为旅游领域和旅游业的福音。
增强现实如何应用于旅游和旅行领域
增强现实和旅游业是天生的一对。游客的主要活动是什么?旅行和抓住信息的每一部分,他们可以找到与目的地有关的信息。
当你去一个充满吸引力的城市旅游时,比如罗马或威尼斯,你可能会错过一个迷人的地方。增强现实移动应用程序可以作为现实生活中的导游。旅游领域的增强现实应用程序可以让旅行者通过相机取景器功能探索更多的目的地。当相机捕捉该地区的风景时,移动应用程序标记重要的地方并提供关于它的附加信息。
增强现实旅游体验
如今,客人们知道他们想去哪里旅游。人们有一种目的地感,可以使用智能手机准确地将他们带到他们想去的地方。然而,AR 可以有效地增强人们对交互式地图的旅行体验,使其更加贴合。当旅行者开始使用一种引人入胜的、易于使用的、有帮助的导航方式时,他们就不得不这样做。以下是增强现实在旅游和酒店行业的应用。
增强现实在旅游业的光明前景
旅游行业就是要创造独特的体验,而 AR 有望支持这一业务领域。这项技术可以用新的客户服务方式来支持旅游业。据推测,在未来的时间里,增强现实将彻底改变旅游业的商业模式。以下是增强现实如何为最终客户和旅游业带来价值的最新列表。
增强现实缩小语言差异
如果没有翻译为你带路,去外国旅游既困难又有吸引力。然而,通过 AR 技术,可以利用智能手机为不同类型的用户翻译外语。
AR 应用确保没有旅客迷路
在一个陌生的城市里发现自己的路是一件具有挑战性的事情。然而,AR 通过添加箭头等数字组件和其他适用的细节,让导航应用变得更加智能。通过将智能手机摄像头与谷歌地图集成和结合,AR 可以改善在新地方导航的旅行体验。
使用 AR 移动应用提高旅行便利性
由于缺乏正确及时的信息,旅行可能会变得混乱。通过 AR,旅游品牌正在扩大游客的移动应用,以改善他们的旅游体验。
旅游和酒店住宿的增强现实
酒店业是利用 AR 技术的最重要的领域之一。你可能会猜测酒店可以以何种方式使用 AR,并对各种选项感到惊讶。
酒店营销和广告中的 AR
通过使用 AR,您可以在探索酒店时建立包含住宿细节和价格的全方位房间游览。这是营销和宣传您的酒店的好方法,可以吸引目标客户探索全面的酒店服务。这就把曾经的客人变成了忠实的客人。
假设你在酒店房间里,需要搜索客房服务、要看的目的地、到目的地的距离以及其他旅游服务。因此,您可以立即获得您的智能手机或平板电脑,解锁酒店移动应用程序,指向标记,并访问所需的信息。
轻松自如,这实际上是旅游业的增强现实。例如,一些酒店在房间里有一个互动的挂图,客人可以用他们的手机浏览附近地区的旅游景点。
通过 AR 检测酒店的创新方法
今天的游客不会理会直截了当的小册子。AR 通过从印刷的小册子中获得 3D 动画,使得在新的层面上找到信息成为可能。酒店与基于内容的公司和营销机构合作,在杂志上创建和发布基于 AR 的广告。此外,酒店移动应用程序用户还可以扫描广告,打开演示视频。
沟通&使用 AR 与酒店互动
Pokemon Go 刺激了许多其他行业使用 AR,包括旅游和酒店业。增强现实应用程序有助于想象这种游戏化如何说服和吸引人们入住挑剔的酒店,尤其是最年轻的酒店。了解一些酒店如何为其客人提供移动应用程序,该应用程序通过辅助 AR 对象展示酒店的每个角落。
餐厅、酒吧、&咖啡馆的 AR
保持简洁,餐馆和酒吧可以在很多方面利用 AR 解决方案。通过 AR 应用程序,餐厅可以拥有引人入胜的 360 度互动菜单,展示每一道菜及其配料。几家餐厅的 AR 游戏使用 Pokémon Go 来吸引客户,并在移动应用程序的帮助下使用 AR 来提供餐厅、咖啡馆和附近酒吧的详细信息。
运输领域的 AR
想象你的飞机刚刚着陆,或者你在一个未知的地方走出一辆公共汽车、火车或汽车,你不知道从那里去哪里。然而,在这种情况下,如果你有一个带 AR 的旅行移动应用程序,你可以指向交通工具,以获得最佳方向、旅行路线、下一个目的地和旅行地点。
特别是对外国游客来说,这可能是相当愉快的,而他们的旅游和旅行。通过 AR,你可以将地铁地图变成多种语言的迷人指南。
游览中的 AR&旅游景点
利用增强现实发现旅游目的地和短途旅行,让传统的城市旅游变得更加神奇。我们可以回到过去,牢记时间观中地标的进步,从 3D 模型中获得乐趣,并获得有趣的导游。最好的例子是主题公园、花园和动物园。
根据华特·迪士尼首席执行官 Bob Iger 的说法,他们选择 AR 到 VR 耳机。根据他的说法,增强现实还具有社会性、互动性和关怀性。公园或动物园中的 AR 可以实现更好的游戏化、导航、感知和有趣的问答。博物馆中的 AR 使游客能够根据灭绝动物的结构骨骼,观看它们的完整现场演示。
关键要点
旅行总是一种创新和学习的经历。随着现代化的设备和工具,旅行和旅游中的增强现实对于酒店旅游、预订支持信息、无语言障碍以及高级导航来说非常有用。通过创新的移动应用程序提升旅行体验,增强现实已经令人赏心悦目。
作者简介:
Mrudul Shah 是 Technostacks Infotech 的首席技术官,techno stacks Infotech 是一家位于印度 &美国 的移动应用程序开发公司。他正在帮助他的整个开发团队和全球客户接触新技术,学习和分享 IT 技术新闻趋势的兴趣。
银行如何管理风险
风险价值、预期短缺和风险加权资产
大致来说,金融机构面临三种风险,监管机构试图对其进行监管。首先是市场风险,包括股票价格、利息、外汇、波动性等。然后是信用风险/交易对手风险或融资风险,最后是运营风险。我们在这里要考察的风险度量主要集中在前两个方面。开发风险价值(VaR)和预期短缺(ES/CVaR)是为了量化这些类型的风险。
如果你喜欢这篇文章并想了解更多,请务必关注我的简介 !
风险价值
首先,我们将有兴趣观察损失巨大的场景,即我们对可能损失分布的尾部感兴趣。在金融波动之后,最常见的风险度量是 VaR。VaR 是衡量市场风险的单一指标,即资产价值的变化,旨在帮助做出冒险的实际决策。这是在给定 1 — α %的概率和一定的时间范围 T 的情况下,最大预期损失的度量。
风险经理使用 VaR 来衡量和控制金融风险暴露的水平,这可以是在公司内部,由任何类型的资产或特定头寸组成的投资组合,因此可用于衡量弥补可能损失所需的资产价值。
上世纪 90 年代,美国证券交易委员会(SEC)规定,企业必须在财务报表中纳入市场风险的量化指标,而风险值(VaR)成为了这样做的主要工具。巴塞尔委员会甚至表示,银行可以依靠自己内部的风险值计算来设定资本要求。事实证明,这种对风险值的广泛依赖是错误的。VaR 度量的风险不包括所有风险中最大的风险;金融危机的可能性。
如果 L 是一个损失分布或潜在损失,具有某个范围 T 和连续分布函数 F_L,那么 VaR( α,T )度量由下式给出:
这只是一种比较花哨的说法,VaR 测度是最大的下限 c ,其中损失 L 大于这个 c 的概率小于或等于 1 — α 。对于连续损失分布,这相当于:
也就是说,我们在概率为 *α的情况下,*的损失不会超过 VaR( α )。
计算 VaR 时,必须考虑三个步骤。首先,必须指定分位数 α 。通常水平为 1%-5%,但更高的分位数可能用于投资银行的交易大厅进行日常风险评估,而更低的分位数可能用于养老基金的长期风险分析。二、持有期 T 。对于活跃的交易者来说,这主要是一个单日风险值。最后,必须确定概率分布。这是最重要的部分,我将在稍后回到这一点。一个典型的结论是“在 95%的概率下,投资者损失不会超过
VaR(α= 0.95)。
风险价值有利有弊。最大的缺点是不确定如果超过风险值度量将会发生什么——如果我们最终“在最后 5%”这使得风险值成为风险管理的可疑指标。这是一个分位数度量,实际上是一个描述最坏情况下最好情况的值,因此低估了潜在的损失。这似乎不适合用来衡量风险。另一种思考方式是,VaR 是“正常”市场日和极端事件之间的界限,这使得在金融危机期间或接近金融危机时使用 VaR 变得非常糟糕。VaR 通常是每天测量的,因为它是非常短期的测量,所以它假设明天或多或少会像今天一样。
在 2008 年的《全球风险专业人员协会评论》中,Einhorn 将 VaR 比作“一个安全气囊,除了发生车祸的时候,当它的使用在高管中产生一种虚假的安全感时,它可能是灾难性的。一个叫纳西姆·塔勒布的人也曾在国会作证,要求禁止 VaR。
那么为什么还要使用它呢?
首先,风险值之所以如此吸引人,是因为它是唯一普遍使用的风险衡量指标,几乎可以应用于任何类型的资产,而且它考虑了许多变量,例如多样化、杠杆和波动性,这些构成了公司每天都会遇到的风险。其次,这是一个优势,它可以衡量个人风险(单个投资组合)和公司范围的风险,这是一个净数字。高管通常在收盘后几分钟内就知道公司的风险值。
Simple illustration of VaR
上面的简单图示显示了带有红色 VaR 阈值的损失分布。例如,如果我们有一周的时间跨度 T ,95%的置信系数(即 α = 0.05)和 VaR(α= 0.05)= 500 万美元,那么在接下来的一周,损失超过 500 万美元的可能性只有 5%,我们损失不超过 500 万美元的可能性为 95%。请注意,它始终表示亏损,但 VaR 值报告为正数。负风险值意味着投资组合有很高的盈利概率。它没有告诉我们我们将在分布的右尾多远着陆,因此也没有告诉我们损失会有多严重。
那么在这种充满风险的情况下,有什么方法可以改善这种情况呢?
预期短缺
关于 VaR,大多数人关心的是“在过去的 5%”(或 1%)发生了什么,在之前的正态分布曲线的极端边缘。事实上,你在 95%的时间里不可能损失超过一定的数额,这并不能告诉你在另外的 5%的时间里会发生什么。你可能会损失 5000 万美元——没什么大不了的。它发生了。你也可能损失数十亿美元并破产。风险值无法衡量它会是什么。造成极端损失的原因是纳西姆·塔勒布所说的“肥尾”或“黑天鹅”事件(他写过几本关于这个主题的书)。这意味着我们不知道黑天鹅可能会在何时或如何出现,这是一个观察者无法预料的令人惊讶的事件;就像 90 年代末的网络泡沫或 2007-2008 年的金融危机。
风险值的替代方法是预期短缺。
预期短缺被定义为超出α-VaR 估计的尾部预期损失:
后者是 VaR_ γ ( L )对所有小于或等于 α 的 γ 的平均值。与上面的典型风险值结论相关,人们可以改为问"在期限 T 内,α最坏情况下发生的预期损失是多少?”。这个问题意味着 es 在计算时考虑了整个尾部分布。ES 恭维 VaR。如果将这两种风险度量结合起来,我们可以很好地估计资产或投资组合的风险。VaR 告诉我们边界在哪里,ES 告诉我们如果达到这个边界会有多糟糕,如下图所示。
Simple illustration of ES
风险度量很少为人所知,取而代之的是必须进行估计,这给了我们更多的风险和不安全感。正态损失分布和 t 损失分布可能有相同的 VaR 但不同的 ES,这意味着尾部很重要。
我们将看看两种方法。首先,一种非参数方法(意味着非正态分布或 t 分布)。这里我们对收益分布没有任何假设。历史回报的观察值从最小到最大排序,VaR_ α ( L )由该排序分布的分位数 α 确定。ES 将被计算为所有大于 VaR 的损失的平均值:
S 是某项资产头寸的当前规模,^q( α 是收益分布的估计上限α-分位数。因此,ES 估计值是所有超过 VaR 的 L_i 的平均值。
非参数方法非常简单,其优势在于我们没有任何分布假设。然而,这只有在未来看起来足够像过去的情况下才会起作用。
参数方法是基于某种分布的假设。一个投资组合的分布可以通过 3 种方法确定:
1。分析
建立一个模型,找到同时分布,并将模型与数据相匹配。例如,您可以从对数正态分布函数中找到 VaR。
2。模拟市场模型的结果,评估每种结果的投资组合,并估计分布。这通常是用蒙特卡罗模拟来完成的。方法很慢,但可能是最厉害的方法。它足够灵活,可以包括历史观测值,并且可以通过所谓的方差缩减方法进行改进。
3。基于数据模拟结果,评估每个结果中的投资组合,并估计分布。当数据量不是很大时很有用。它很耗时,但它的主要优势是捕捉到了最近的市场崩盘,这对风险衡量非常重要。
参数和非参数方法都有可批评的假设。对于小的 α 来说,非参数估计是不准确的,但是这可以通过假设一个多项式来改善,我在这里不包括它。此外, α 可以使用 Hill 估计器进行估计,这是一种最大似然估计:
其中 n ( c )为返回次数 Y_i ≤ c 。 c 被选择,但是它有一个偏差/方差的权衡。如果 n ( c )大,我们有更多的偏差,如果 n ( c )小,我们有高的方差。我们可以用一个小山图来描绘^a 和 n 的对比。然后,我们可以找到一个“稳定区域”,并粗略估计希尔估计值:
Hill plot
在本例中,(b)是(a)的特写,我们将选择 60 到 100 之间的 n ( c )的希尔估计值约为 2.2。
对于旧 S&P500 数据集,R 中的可变尾部分布示例如下所示:
data(SP500,package="Ecdat")
library("fGarch")# number of observations : 2783
# daily return S&P500 (change in log index)
n = 2783
## grab last 1000 obs.
SPreturn = SP500$r500[(n-999):n]
year = 1981 + (1:n)* (1991.25-1981)/n
year = year[(n-999):n]
n = length(SPreturn)
# fit t-distr to SPreturn
fitt = fitdistr(SPreturn,"t")
param = as.numeric(fitt$estimate)
mean = param[1]
df = param[3]
sd = param[2]*sqrt( (df)/(df-2) )
lambda = param[2]
x=sort(SPreturn)
q = quantile(x,.1)
a= 1.975## vector of alphas for plotting VaR
alpha = seq(.002,.2,.0001)
qalpha = qt(alpha,df=df)
VaR_par = -20000*(mean + lambda*qalpha)
VaR_norm = -20000*(mean(x)+ sd(x)* qnorm(alpha))par(mfrow=c(1,1))
plot(alpha, -20000*q * (.1/alpha)^(1/a),type="l",lwd=2,
xlab=expression(alpha),ylab=expression(paste("VaR(",alpha,")")),
ylim=c(0,1700),log="x" )
a.hill=2.2
lines(alpha, -20000*q * (.1/alpha)^(1/a.hill),lty=2,lwd=2)
lines(alpha,VaR_par,lty=5,lwd=2)
lines(alpha,VaR_norm,lty=3,lwd=2)
legend("topright",c("polynomial tail: regression",
"polynomial tail: Hill","t","normal"),lwd=2,lty=c(1,2,5,3))
情节是:
我不会在这里解释所有的细节,我也决定不解释多项式尾部,但它明确显示了尾部分布在查看不同的 α 时的重要性。
一致的风险措施
Artzner 等人(1999 年)定义了一个风险度量应该如何运作才能被认为是一致的。通过四个不同的公理,他们使用对风险本质的精确陈述,成功地形成了一致风险度量的概念。从而将复杂的现实转化为更简单的数学框架。
设 X 和 Y 是描述两个投资组合损失的随机变量。那么,如果一个风险度量ρ()(对资本的要求或“风险性”)满足 4 个约束,则称它是相干的。比例:
如果你的仓位翻倍,你的风险也会翻倍。
2。一神论:
如果损失 Y 总是小于或等于损失 X,则 Y 的风险一定小于或等于 X 的风险。翻译:
简单地说,现金可以从资本要求中扣除。
4。次可加性:
两个投资组合的风险度量应该小于或等于两个投资组合各自的风险度量,因为组合创造了多样化。例如,如果您为一家公司设定了资本要求和次可加性约束,该公司可以通过拆分资产来降低资本要求。上面列出的原则被视为正确风险度量的指南。
VaR 不考虑次可加性。
例如,假设一个投资组合的损失分布如下,VaR(0.5) = 50:
那么两个独立的投资组合将有损失分布:
这样就会有 VaR(0.5) = 1950 > 2×50,这显然与次可加性相矛盾。这两个投资组合在一起的风险大于这两个投资组合单独的风险。
对于 ES 不是这样的,它会是这样的:
ES(P1)= ES(p2)= 1590 og ES(P1+p2)= 2015.6<2×1590
ES 是一个连贯的风险度量。作为 es 满足次可加性的结果,你可以说不可能建立 ES 违反一致风险度量定义的例子。它对重尾、对尾分布的错误估计和异常值也更敏感,而且不像 VaR 那样容易解释。
A risk manager happily using VaR
关于 VaR 和 ES 的结束语
VaR 用一个数字概括了投资组合的风险,因此比其他风险衡量指标(如希腊指标)更肤浅。如果我们将 VaR 和 ES 结合起来,我们将有一个更可靠的风险度量,VaR 和 ES 非常依赖于参数的选择。尽管 ES 在理论上优于 VaR,但后者比 ES 更受青睐。这可能是因为计算 ES 首先涉及计算 VaR,因此潜在地给出了可能使结果无效的两个误差源。巴塞尔委员会在 2012 年提议从 VaR 转移到 es,因为:
与 VaR 不同,ES 通过考虑超过特定阈值的损失规模和可能性来衡量工具的风险……这样,ES 以更全面的方式考虑尾部风险。
及以后:
尽管批评集中在与 es 相关的复杂性、计算负担和回测问题上,但最近的文献表明,许多问题已经得到解决,或者已经被确定为不如最初预期的严重。
关键要素是 ES 将能够捕捉尾部事件。然而,今天它仍然不是那么简单。正如风险值一样,ES 将无法捕捉信贷和流动性风险,因为它与风险值相似。专家系统的验证过程要复杂得多,因此模型可能很难解释,很难知道模型何时何地出现故障。总而言之,金融风险及其监管极其复杂,也许过于复杂…
资本要求—风险加权资产(RWA)
在监管中,风险度量的使用可以帮助确定一些投资组合或公司在最坏情况下的资本要求。在信贷业务中,损失时有发生——总有一些借款人违约。某一年实际经历的损失每年都不一样。下图显示了一段时间内已实现的损失如何导致银行的损失分布。
银行永远不可能确定他们未来的损失,但他们可以预测他们预期经历的信贷损失的平均水平。在这个设置中,我们将预期损失(EL)定义为您预期在有 n 项资产的投资组合中得到的损失,如虚线所示。金融机构将 EL 视为开展业务的成本组成部分。
银行资本的功能之一是提供缓冲,以保护银行的债务持有人免受超过 EL 的峰值损失。上图中虚线上方的尖峰说明了这些峰值。峰值损失不会经常发生,但一旦发生,损失可能会非常大。高于 EL 的损失通常被称为意外损失(UL)。机构知道它们会不时发生,但它们无法提前知道发生的时间或严重程度。需要资本来覆盖这种峰值损失的风险。
银行必须仔细权衡持有资本的风险和回报。在最坏的情况下,尽管可能性极小,银行会失去整个信贷组合,但持有资本来抵御这一事件在经济上是无效率的。他们也有动机将资本最小化,因为这样可以释放资源,用于有利可图的投资。然而,银行持有的资本越少,其无法履行自身义务的概率就越大。
现在我们可以回到 VaR 了。
这看起来像我们以前见过的东西。看到预期损失的可能性更大,VaR 阈值是我们已经知道的。如果资本是根据 EL 和 VaR 之间的差额设定的,并且如果 EL 被收入所覆盖,那么银行在一年内保持偿付能力的可能性等于置信水平(1- α )。
预期损失可以写成:
EL = PD×EAD×LGD
或者如果表示为 EAD 的百分比,则为:
EL = PD*LGD
这里的三个因素是违约概率(PD)、违约风险敞口(EAD)和违约损失率(LGD)。PD 是债务人在一年内违约的平均百分比,EAD 是借款人违约时未偿金额的估计值,LGD 是借款人违约时银行可能损失的风险百分比,通常表示为 EAD 的百分比。
现在我们可以看看风险加权资产(RWA)。这是一个你可能遭受损失的资产价值的表达式,根据风险进行加权。它用于推导 UL 的监管资本费用,并基于巴塞尔委员会开发的特定模型。它用于确定银行为降低破产风险而必须持有的最低资本额。在 2008 年金融危机期间,许多金融机构损失了大量资本,一些机构破产。巴塞尔协议 III 设定了一些指导方针,以避免未来出现这种情况。每家银行必须按照风险类别将其资产组合在一起,以便要求的资本金额与每种资产类型的风险水平相匹配。资产风险越大,RWA 越高,所需的监管资本也越多。
看起来是这样的:
RWA = 12.5×K×EAD
K 是资本要求,给出为:
其中:
它乘以 EAD 和最低资本比率 8%的倒数,即乘以系数 12.5。
那是很多…但是它有四个组成部分。渐近单风险因子(ASRF)模型,这是第一部分,直到-PD LGD。
它是根据大数定律从“普通”信贷组合模型中得出的,可以证明这些 ASRF 模型是组合不变的,这意味着任何给定贷款所需的资本应仅取决于该贷款的风险,而不得取决于它所加入的组合。这是一项标准措施,鼓励银行使用最适合其内部风险管理需求的信贷风险模型。此处,LGD 作为 ASRF 模型的一部分包含在内。 N 是累积正态分布, N 是其逆。 R 为相关性,其固定置信水平为 99.9%。
2.相关性,r。资产相关性表明一个借款人的资产价值(例如一个公司所有资产价值的总和)如何依赖于另一个借款人的资产价值。主管已经推导出资产相关性函数为:
它由非常高和非常低的 PDs(分别为 100%和 0%)的 12%和 24%的两个极限相关性构成。这些限值之间的相关性通过指数加权函数建模,该函数显示了对 PD 的依赖性。其速度由一个所谓的“k-因子”设定,对于企业风险敞口,该因子被设定为 50。它也是由公司规模(最后一部分)调整的,公司规模是由年销售额衡量的。它影响年销售额在€500 万到€5000 万之间的借款人。对于€5000 万以上的借款人,规模调整为零,而对于€5000 万以下的借款人,其值为 0.04,从而将资产相关性从 24%降至 20%(非常高的违约概率)或从 12%降至 8%(非常低的违约概率)。它决定了风险权重公式的形式。相关性取决于资产类别,因为不同的借款人和/或资产类别对整体经济的依赖程度不同。
3.贷款的预期损失占违约损失率的百分比,即-PD LGD。LGD 在这里是预期损失的一部分。巴塞尔框架决定,银行只需持有针对 UL 的资本。在上面的 VaR、EL 和 UL 图中,风险权重现在只与 VaR 和 EL 之间的距离有关。在图中,由于 ASRF 模型将从原点到 VaR 的全部资本量交付,因此 el 必须从资本要求中剔除。这是通过采用 PD 和低迷 LGD 的乘积完成的,并产生“仅 UL”的资本要求。
4.到期调整,即最后一个括号后的分数。请注意,PD 是正常情况下的平均概率,LGD 处于经济低迷时期。 M 是成熟期。
资本要求在到期日不断增加,因为通常情况下,长期信贷比短期信贷风险更大,长期内更有可能出现衰退。b(PD)是一个用于到期调整的“平滑”统计回归模型。
好吧,那是很多。恭喜你通过了。
请注意,这并不意味着详尽或结论性的描述。我可能遗漏了很多信息。如果我错过了什么或者做错了什么,请随时纠正我(我可能就是这样)。金融风险是一个巨大而复杂的话题,风险管理远远超出了本文的范围。我不是风险经理,这纯粹是从我学生时代的课程中收集的。
如果你喜欢这篇文章并想看更多,请务必关注我的简介。
你的爱有多深?
Photo by DJ Johnson on Unsplash
对许多人来说,爱是神秘的领地。尤其是当我们谈论人类和人造人之间的爱时。
你可能会对此感到惊讶,但事实比小说更离奇。今年,一名日本男子正在庆祝与视频游戏角色姐崎宁宁结婚十年。2017 年,中国人工智能工程师皮格马利翁(Pygmalion)的当代化身嫁给了他制造的一个女性机器人。
所以有人可能会问,一个人被另一个实体吸引的先决条件是什么?
这个问题从时间的黎明就开始嘲笑哲学家,我将尝试通过联想来回答它,从最基本的特征开始——他们的人性。我们被展现人性的生物所吸引。有时,这只是外表的问题。在当今这个时代,逼真的头像已经取得了长足的进步。像新的虚拟现实色情初创公司 Holodexxx 这样的公司正在试点这项技术,该公司利用虚拟现实为他们的客户提供一种包括真实演员和替身在内的完全交互式和可定制的性体验。化身可以通过对真实的色情电影进行数字扫描来创建,也可以完全是虚拟角色。
由于化身可以按照规格来制作,我们开始接近什么是可接受的,什么是不可接受的。可能有些人会被一只粉红色蓬松的独角兽吸引,现在他们可以用虚拟现实来满足自己的欲望。但是,如果吸引力是针对一个虚拟的小孩呢?尽管在我们的现实社会中是非法的,但滥用药物的情况仍时有发生。在线世界也是如此,不幸的是,人们更容易遇到这种情况。1998 年,天空新闻的调查人员发现了一个名为仙境的恋童癖游乐场,隐藏在一个名为第二人生的虚拟世界里。
Photo by Jordan Merrick on Unsplash
甚至妓院也发现了机器人复制真人感觉的能力。总部位于巴塞罗那的性玩偶公司 LumiDoll 正在欧洲大陆开设妓院,为机器人性工作者提供可识别和可联系的角色;比如动漫灵感的蓝头发 Aki 或者天使般的 Lilly。该公司声称,用户很难区分娃娃和真正的女人,因为它们是用热塑性弹性体制成的,而热塑性弹性体是一种以柔软著称的聚合物。
但是身体方面只是人类亲密关系的一个方面。那么智力参与和有意义的交流呢?为了满足这些需求,科技界生产了聊天机器人。
聊天机器人是一种能够进行不同层次对话的计算机程序。有各种各样的选择,从虚拟的女朋友或男朋友到你内心渴望的任何东西。聊天机器人的智力相当值得怀疑,但对一些人来说,它足以成为他们闲暇时无压力交谈的伴侣。他们中的一些人甚至有很强的幽默感,让人们和他们保持联系。然而,嫉妒的恋人要小心了。微软的 Ruuh,一个 2017 年上线的虚拟朋友,在它的一生中有超过 300 亿次的对话,每天收到 600 条“我爱你”的消息!
然而,在我们开始举起干草叉之前,这可能是一个提醒我们自己的好时机,不是所有的机器都旨在取代人类。技术可以充当媒介,帮助一个人向另一个人传递亲密关系。一个简单的文本或视频聊天可以用来连接地球两端的两颗心。情侣们还可以在虚拟世界里见面,享受 360 度的自由。Lovotics 的 Kissenger 是一种可以传递真实亲吻的技术。一个人亲吻一个机器人,这个吻被传递给位于不同地方的另一个人。
这些新技术的可能性是无限的。这就是为什么在马耳他大学 AI 系,我们研究专注于移情的混合现实应用。我们的目标是创造更好的机器,不仅能满足个人的功能需求,还能满足情感需求。
正如我们已经看到的,有不同的方式与机器人互动,无论是物理的还是虚拟的。这并不意味着这些是爱的例子,但它们确实展示了某种形式的联系。可以肯定的是,我们与机器的关系将随着时间的推移而演变。他们变得越像人类,我们就越会发现人们以一种亲切的方式与他们交流。然而,我们应该问自己一个问题。
如果机器开始爱我们呢?
最初发表于认为【https://issuu.com】。
阿列克谢·丁力教授 是马耳他大学的 AI 教授。二十多年来,他一直在人工智能领域进行研究和工作,协助不同的公司实施人工智能解决方案。他的工作被国际专家评为世界级,并赢得了几个当地和国际奖项(如欧洲航天局、世界知识产权组织和联合国等)。他出版了几本同行评审的出版物,并且是马耳他的一部分。由马耳他政府成立的人工智能工作组,旨在使马耳他成为世界上人工智能水平最高的国家之一。
BERT 如何利用注意机制和转换器学习单词上下文关系
伯特简介
Photo by Ambitious Creative Co. - Rick Barrett on Unsplash
在 ELMo (来自语言模型的嵌入)和开放 AI GPT (生成式预训练转换器)之后,谷歌发布了一份新的最先进的 NLP 论文。他们将这种方法称为 BERT(来自变压器的双向编码器表示)。
开放人工智能 GPT 和伯特都使用变压器架构来学习文本表示。其中一个区别是 BERT 使用双向转换器(从左到右和从右到左方向)而不是双向转换器(从左到右方向)。另一方面,两者都使用双向语言模型来学习文本表示。然而,ELMo 使用浅层连接层,而 BERT 使用深层神经网络。
看完这篇帖子,你会明白:
- 伯特设计与建筑
- 模特培训
- 实验
- 履行
- 拿走
伯特设计与建筑
输入表示
BERT 使用三种嵌入来计算输入表示。它们是标记嵌入、片段嵌入和位置嵌入。“CLS”是表示序列开始的保留标记,而“SEP”是分隔片段(或句子)的标记。这些输入是
- 令牌嵌入:一般单词嵌入。简而言之,它用向量来表示 token(或 word)。你可以查看这个故事的细节。
- 另一个词中的句子嵌入。如果输入包括两个句子,相应的句子嵌入将被分配给特定的单词。如果输入只包括一个句子,将使用一个且只有一个句子嵌入。在计算 BERT 之前学习片段嵌入。对于句子嵌入,你可以查看这个故事的细节。
- 位置嵌入:指输入的标记序列。即使有 2 句话,也会累积位置。
BERT Input Representation (Devlin et al., 2018)
培训任务
说完输入表示,我就来介绍一下 BERT 是怎么训练的。它使用两种方式来实现它。第一个训练任务是掩蔽语言模型,而第二个任务是预测下一句话。
掩蔽语言模型
第一个预训练任务是利用掩蔽语言模型(Masked LM)。与传统的方向模型不同,BERT 使用双向作为预训练目标。如果使用传统的方法来训练一个双向模型,每个单词将能够间接地看到“它自己”。因此,伯特使用了掩蔽语言模型(MLM)方法。通过随机屏蔽一些标记,使用其他标记来预测那些被屏蔽的标记以学习表示。与其他方法不同,BERT 预测屏蔽令牌而不是整个输入。
因此,实验随机抽取 15%的令牌进行替换。然而,也有一些缺点。第一个缺点是掩码标记(实际标记将被该标记替换)在微调阶段和实际预测中不会出现。因此,Devlin 等人,所选择的用于屏蔽的令牌不会总是被屏蔽
- 答:80%的时候,它会被替换为[MASK] token
- B: 10%的时候,它会被其他实际的代币代替
- C: 10%的时间,它会保持原样。
比如原句是“我在学 NLP”。假设“NLP”是用于屏蔽的选定令牌。然后 80%的时候会表现为“我在学【面具】(场景 A)。”我用 10%的时间学习 OpenCV(场景 B)。其余 10%的时间,它将显示为“我正在学习 NLP”(场景 C)。尽管随机替换(场景 B)会发生并可能损害句子的意思。但是它只有 1.5%(仅屏蔽了整个数据集中的 15%的标记和这 15%中的 10%),作者认为它不会损害模型。
另一个缺点是每批只有 15%的令牌被屏蔽(预测),训练需要更长的时间。
下一句预测
第二个预训练任务是预测下一句话。这种方法克服了第一个任务的问题,因为它不能学习句子之间的关系。目标很简单。只区分第二句是不是下一句。举个例子,
输入 1:我正在学习 NLP。
输入 2: NLG 是 NLP 的一部分。
预期的输出是 isNextSentence 或 notNextSentence。
在为该任务生成训练数据时,将随机选择 50%的“notNextSentence”数据。
模特培训
在 BERT 中采用两阶段训练。使用通用数据集执行第一次训练,并通过提供领域特定数据集对其进行微调。
训练前阶段
在预训练阶段,从图书语料库(800 万字)(朱等,2015)和英文维基百科(2500 万字)中提取句子。
- 屏蔽 LM:每个序列将使用 512 个标记(2 个连接的句子),每批有 256 个序列。设定大约 40 个时期来训练模型。该配置是:
- 学习率为 1e-4 的 Adam,β1 = 0.9,β2 = 0.999
- L2 重量衰减 0.01
- 所有层的压差为 0.1
- 使用 gelu 进行激活
如前所述,选择两个句子用于“下一句预测”预训练任务。另一个句子被随机选取并标记为“不是下一个句子”的概率为 50%,而另一个句子实际上是下一个句子的概率为 50%。
这一步由谷歌研究团队完成,我们可以利用这个预先训练的模型,根据自己的数据进一步微调模型。
微调阶段
在预训练阶段,仅改变了一些模型超参数,如批量大小、学习速率和训练次数,大多数模型超参数保持不变。在实验过程中,以下数值范围适用于各种任务:
- 批量:16 个,32 个
- 学习率:5e-5,3e-5,2e-5
- 历元数:3,4
微调程序不同,取决于下游任务。
分类
Single Sentence Classification Task (Devlin et al., 2018)
对于[CLS]令牌,它将作为最终隐藏状态被馈送。标签©概率用 softmax 计算。之后,对其进行微调,以最大化正确标签的对数概率。
命名实体识别
NER Task (Devlin et al., 2018)
令牌的最终隐藏表示将被馈送到分类层。预测时将考虑周围的单词。换句话说,分类只关注令牌本身,而没有条件随机场(CRF)。
实验
Photo by Louis Reed on Unsplash
到目前为止,与其他最先进的 NLP 模型相比,BERT 提供了最好的结果。
Experiment Result on GLUE dataset (Devlin et al., 2018)
Experiment Result on SQuAD (Devlin et al., 2018)
履行
微调模型(再现实验)
在微调特定领域的数据集之前,我更喜欢先重现实验结果。你可以访问官方页面或者跟随它的指示
export BERT_BASE_DIR=/downloaded_model_path/bert
export GLUE_DIR=/downloaded_data_path/glue
export BERT_OUTPUT_DIR=/trained/model/bert/
- 执行以下命令开始微调
python run_classifier.py \
--task_name=MRPC \
--do_train=true \
--do_eval=true \
--data_dir=$GLUE_DIR/MRPC \
--vocab_file=$BERT_BASE_DIR/vocab.txt \
--bert_config_file=$BERT_BASE_DIR/bert_config.json \
--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
--max_seq_length=128 \
--train_batch_size=32 \
--learning_rate=2e-5 \
--num_train_epochs=3.0 \
--output_dir=$BERT_OUTPUT_DIR
- 我用了一台 20 核 CPU 的机器来重现它,花了大约一个小时来完成微调。
INFO:tensorflow:***** Eval results *****
INFO:tensorflow: eval_accuracy = 0.84313726
INFO:tensorflow: eval_loss = 0.5097478
INFO:tensorflow: global_step = 343
INFO:tensorflow: loss = 0.5097478
提取固定向量
而不是针对特定数据集微调预训练模型。我们还可以为下游任务提取一个固定的向量,这样更容易。这类似于埃尔莫所做的。
您可以访问官方页面或跟随其指示
- 生成一个样本文件到当前方向
echo 'Who was Jim Henson ? ||| Jim Henson was a puppeteer' > input.txt
- 执行以下命令提取字符向量
python extract_features.py \
--input_file=input.txt \
--output_file=$BERT_OUTPUT_DIR/output.jsonl \
--vocab_file=$BERT_BASE_DIR/vocab.txt \
--bert_config_file=$BERT_BASE_DIR/bert_config.json \
--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
--layers=-1,-2,-3,-4 \
--max_seq_length=128 \
--batch_size=8
- 输出文件包含以下对象
- features
- token: Token value (e.g. Who)
- layers
- index: Layer number (from -1 to -4) per token
- values: Vector values. Default model dimension is 768
参数
如果我们更多地了解如何改变参数,这将是有益的。以下是一些有用的参数解释:
data_dir
:数据方向
task_name
:具体用什么任务。特定任务处理器已准备就绪。可能的task_name
有“可乐”、“mnli”、“mrpc”、“xnli”。您可以通过扩展DataProcessor
类来实现自己的数据处理器。
do_train
:包含训练步骤。必须启用do_train
、do_eval
或do_test
中的任何一个。
do_eval
:包含评估步骤。必须启用do_train
、do_eval
或do_test
中的任何一个。
do_test
:包含测试步骤。必须启用do_train
、do_eval
或do_test
中的任何一个。
关于我
我是湾区的数据科学家。专注于数据科学、人工智能,尤其是 NLP 和平台相关领域的最新发展。你可以通过媒体博客、 LinkedIn 或 Github 联系我。
参考
Devlin J .,Chang M. W .,Lee K .,Toutanova K .,2018 年。 BERT:用于语言理解的深度双向转换器的预训练
张量流中的伯特(原创)
word2vec,glove 和 fastText Story(单词嵌入)
技术是如何让语言偏见永久化的
探索单词嵌入的数据集
Photo by Markus Spiske on Unsplash
尤其是在今年,科技行业因其对人工智能(AI)研发的不懈追求而受到广泛批评。这是因为该领域的主导范式被称为机器学习,其中计算机依赖于识别现有数据中的模式来执行特定任务。在机器学习中,许多算法通过接受一组数据、创建模型和生成预测来工作。
然而,当这些方法所依据的数据有偏差时会发生什么?我们时常在新闻中看到面部识别技术对少数民族、或推特机器人发表种族主义言论失败的故事。但事实是,我们不断听到偏见和人工智能,却没有广泛了解这些偏见是如何在我们使用的技术中编码的。
因此,我将解释被称为*单词嵌入、*的工具的一些缺点,因为它们被用于涉及计算机和人类语言或自然语言处理(NLP)的各种各样的任务,并且因为在不使用大量复杂的技术术语的情况下,探索和解释这些工具如何会有问题是相对容易的。首先,让我们了解更多关于 NLP 和单词嵌入是如何适应的,然后我们将了解嵌入本身如何有助于产生有偏差的结果。
NLP 领域依赖于一个关键范式:将*文本视为数据。*这种文本可以来自任何来源——电影评论、古诗,甚至是口语——并且可以用于任何任务,无论是检测文章是积极还是消极的语气,将短语翻译成另一种语言,甚至是进行在线搜索。然而,NLP 系统用于的所有任务都包括创建文本的数学模型。为了做到这一点,关键是要用数字表示输入文本中的每个单词,以便模型可以根据提供的文本生成输出,如相关网站的列表或准确的翻译。
单词嵌入本质上增加了在这些数字表示中捕获的每个单词的信息。最著名的算法之一的名字“Word2Vec”很好地体现了这一思想,其中一个单词被表示为一个向量,或者一组数字,它本身是由机器学习工具生成的。虽然 NLP 方法在 2010 年代初引入单词嵌入之前已经存在多年,但这些技术真正革新了该领域,使得本十年后期出现了一些重要发现。
单词嵌入如此有效的原因是它们能够编码文本中每个单词与每个其他单词之间的关系;这在以前的词语表达中是没有的。具体来说,这是通过一个概念来实现的,即*一个词是由它周围的词来定义的。*如果在训练语料库(从其“学习”嵌入的文本主体)中,两个单词在相似的上下文中被提及(例如“好”和“棒”),那么它们对应的向量也将是相似的。
为了找出为什么单词嵌入会有问题,我们需要看看它们所基于的模型是如何被评估的。拥有一种可靠的方法来评估机器学习模型与模型本身一样重要。查看单词嵌入是否准确的最常见方法是使用它们来评估类比。这是因为任务相当简单;从数学上来说,就是矢量的加减。
就拿的例子来说男人是为了女人如同的国王是为了 ______。给定这样一组输入,数据的快速转换将导致 queen 的嵌入。我画出了下面四个词的向量。
The vectors for “king” and “queen” have a similar relationship to the vectors for “man” and “woman.”
除了这些类比,简单的加减向量的步骤还可以捕捉语法关系,如单词是单数还是复数,甚至是关于世界的事实,如国家和首都。
然而,如果我们给我们的程序一个查询“男人对于女人就像医生对于 ______?”它最终输出“护士”这种偏见不仅限于性别,因为该系统认为“警察对于白人就像罪犯对于黑人一样”,以及“合法对于基督教就像恐怖分子对于伊斯兰教一样。”
因为单词嵌入会被输入到其他算法中,它们固有的偏见可能会导致特别有问题的情况——一名人力资源专业人员在 LinkedIn 等网站上搜索“工程师”,会看到男性工程师的排名可能高于他们同样有才华的女性同事,或者更危险的是,如果一个警察部门根据书面犯罪报告受命在一个主要是黑人的社区进行大量巡逻。
我们可以期望嵌入所“学习”的文本,维基百科和新闻文章,是相对公正的,但是单词本身可能在类似的上下文中被提及。例如,像“她”这样的女性代词可能更频繁地出现在“护士”一词周围,只是因为我们的文本可能更多地谈论女护士而不是男护士。然而,允许这些协会管理大规模的软件系统是相当危险的。
至此,我们得出了一个严肃的结论。如果我们不能有效地评估现代 NLP 的构建模块,我们如何能够信任使用它们的算法?
现在让我们更详细地看看数据集。我已经在几本 Python 笔记中做了这些分析,作为这篇文章的同伴,所以如果你想的话,请随意跟随!我也写了一篇关于前面讨论的更技术性的文章。如果你已经熟悉了这个概念,请查看 Github repo 中的阅读列表。
首先,我们比较一个单词和一对单词的向量。当我们将“工程师”与“男人”和“女人”进行比较时,我们发现“工程师”的向量更类似于“男人”的向量,而不是“女人”的向量。差别不是太大,但相当明显。然而,当我们将“工程师”与“亚洲人”和“非裔美国人”进行比较时,我们会发现“亚洲人”比“非裔美国人”更类似于“工程师”。
接下来,我们取一对向量,比如“男人”和“女人”,并查看代表与他们最亲近的人的向量。与“女人”最相似的向量也表示一个人,对应于单词“受害者”,其他与“女人”接近的向量表示职业,如“教师”和“妓女”,而与“男人”最相似的向量表示像“士兵”和“英雄”这样的词。当我们看“公民”和“移民”的向量时,与“公民”最相似的向量通常是专业职业,如“律师”和“商人”,但“农民”和“劳动者”更接近于“移民”。最后,当比较“基督教”和“伊斯兰教”的向量时,我们发现这两个向量都接近许多宗教术语,但“伊斯兰教”的向量更接近“激进”、“原教旨主义”和“极端主义”的向量。
我们进行的最后一项分析可能是最有趣的。向量不仅仅是数字的集合;它们也是在空间中表示这些数字的一种方式。因此,这依赖于人类的偏见来转换我们数据集所在的向量空间。我们着眼于量化特定类型偏差的向量。例如,对应于“他”和“她”之间的差异的向量可以表示“性别成分”这是因为向量的数值反映了“男性”和“女性”向量在数值上的不同。如果我们转换数据集,根据“他”和“她”之间的差异为每个向量分配一个分数,我们会发现与体育和军事有关的词得分较高,而描述表演艺术以及女性家庭成员的词得分较低。我画出了所有的向量,然后做了转换,得到了下面的结果。
Points to the right represent more “male” vectors and points to the left represent more “female” vectors.
让我们来看看这张图上的几个点。
“engineer,” “quarterback,” and “drummer” are in the “male” quadrant, while the “cook”, “violist,” and ”housewife”are in the “female” quadrant.
事实上,试图“去偏差”单词嵌入,使它们不包含有问题的关系是 NLP 研究的一个主要领域,将偏差转化为向量空间上的操作是这类工作的一个关键范式。
概括地说,我们已经学习了单词嵌入,以及它们如何在自然语言处理领域实现了许多发现,因为它们以数字形式编码了关于单词的重要信息。我们还讨论了对它们的评估方式是如何从根本上存在缺陷的,因为它们推断了单词之间的关系,这种关系延续了我们使用的语言中的偏见。最后,我们已经分析了数据集,并对导致这些推论的原因有了基本的了解。
当我们看到使用 NLP 技术的系统时,从网络搜索到虚拟助理,了解这些系统是根据人类生成的数据进行训练的,这对我们来说至关重要。这是因为技术经常被描绘成一种客观的理想,通过在白板上写计算来解决世界问题。然而,一旦我们的技术系统在应该由人类使用的产品中使用人类生成的数据,我们就需要意识到这些系统强化的偏差,以及如何修复它们。
大数据如何改变我们看待物质滥用的方式
当今世界滥用药物的问题非常严重,这是一个被广泛接受的事实。
解决这个问题当然不容易,但大数据可以提高可见性,从而在战斗中提供帮助。
追踪处方药滥用的证据
许多物质滥用者都知道一种被称为“医生购物”的做法,即患者在一个地区去看几个医生,出现通常用处方药治疗的症状,然后拿着阿片类药物等有效处方离开。
但是包括 Rite Aid 在内的连锁药店可以使用一个高科技系统来协助处方药监控。
这个系统汇集了各州有关药房法律的信息,它依靠机器学习等技术来帮助药剂师跟踪趋势,并发现他们可能会错过的处方药滥用迹象。
阐明物质滥用行为模式
街头毒品的绰号可以迅速改变,并取决于当地文化。类似地,人们获取毒品以满足渴望的地方也在变化。这些变化给那些努力帮助有物质滥用问题的个人的人,如成瘾咨询师,带来了困难。
然而,一个新的基于大数据的项目旨在消除这些挑战。
这一新系统着眼于社交媒体帖子中使用的短语和常见关键词等因素,以确定某些地区物质使用的共性。它还利用地理空间数据并创建热图来显示药物滥用特别严重的地区。
这种频繁更新的系统的替代方案涉及每年收集数据,这通常太慢,无法产生有意义的影响。
帮助各州量化大麻立法的效果
大麻在越来越多的州和国家逐渐合法化,这种转变让许多立法者和执法者意识到他们正在进入一个全新的领域。
复杂的一个重要原因涉及到在允许酒后驾驶的州确定什么构成酒后驾驶指控。
例如,在宾夕法尼亚州,一个人的血液酒精含量(BAC) 为 0.08–0.099%就属于一般损伤类别。
各州代表可以就酒精含量等同于饮酒后的醉酒达成一致,但是对于大麻来说还不是这样。一些工具可以检测出血液中是否存在大麻的致醉化学物质,但是不同数量的这些化学物质对人的影响不同。
多亏了大数据,立法者可以调查统计数据,并开始澄清一个人体内有多少大麻会使驾驶车辆变得不安全。这是一个需要解决的关键细节。在宾夕法尼亚州,人们可以将大麻用于医疗目的,但不能用于娱乐。
然而,最近的一项民意调查显示,在宾夕法尼亚州等 T2,人们支持娱乐用毒品合法化。
科罗拉多州的官员最近发表了一份报告,调查了出于娱乐目的大麻合法化的影响。这项研究包括来自几十个来源的数据,它得出的结论可能会让一些人感到惊讶。
例如,数据显示,从 2014 年到 2017 年,州巡逻队酒后驾车案件下降了 15% ,在此期间大麻是合法的。另一方面,大麻素检测呈阳性的人的死亡率上升了。
使毒品合法化不一定会使物质滥用更加突出,但它可以帮助州当局通过查看其他司法管辖区的结果来熟悉如果他们将大麻合法化会发生什么。
了解依赖者寻求帮助的可能性
预测一个患有酒精使用障碍(AUD)的人是否会寻求帮助并不简单,但研究表明,一个数据驱动的系统可以使用机器学习来做出更准确的判断。
其中一个模型在确定被诊断为 AUD 的个体是否寻求治疗方面有 86%的准确率。这一点至关重要,因为大多数 AUD 患者没有得到治疗。
与这个项目相关的研究人员认为,他们的工作可以导致关于一个人获得专业帮助来管理物质滥用的可能性的更正确的信息。一旦临床医生了解更多,他们就可以加强对最有可能接受治疗的人群的针对性。
通过医疗记录分析预测当前或未来的物质滥用
医生——就像前面提到的药剂师——处于监控药物滥用的最佳位置。通常,大数据有助于他们更快得出更有信心的结论。一项研究查看了6 . 99 亿份门诊病历和 1700 万份住院病历,根据人们是否有特定的预测因素来汇总物质滥用风险。
例如,因身体某些部位不适而接受止痛药处方的人,变得依赖的风险是普通人的三倍。科学家们还指出,那些患有精神健康疾病、需要住院治疗至少两次的人风险更高。
同样,无家可归或有经济困难或法律纠纷的人面临更大的药物滥用风险。
这些数据还可以为其他可能影响公共卫生工作和治疗干预的威胁提供信息。例如,与没有药物滥用史的人相比,有药物滥用史的人服药后自杀死亡的风险要高得多。
数据提供了急需的清晰度
没有简单、万无一失的方法来根除药物滥用问题。
但正如这里的例子所示,大数据和机器学习等相关技术可能有助于帮助研究人员取得前所未有的进展。
图片经由raw pixel
大数据有多大?
我们已经永远进入了数据时代。我们在线上甚至线下所做的一切都会在数据中留下痕迹——从 cookies 到我们的社交媒体档案。那么到底有多少数据呢?我们每天处理多少数据?欢迎来到齐塔字节时代。
IBM Summit supercomputer
1.齐塔字节时代
数据是用比特和字节来衡量的。一位包含值 0 或 1。八位构成一个字节。然后我们有千字节(1000 字节)、兆字节(1000 字节)、千兆字节(1000 字节)、太字节(1000⁴字节)、千兆字节(1000⁵字节)、千兆字节(1000⁶字节)和千兆字节(1000⁷字节)。
思科估计2016 年,我们的年度互联网总流量超过了 zettabyte,这是我们在万维网上上传和共享的所有数据,其中大部分是文件共享。zettabyte 是存储容量的度量单位,它等于 1000⁷(10 亿字节)。一个 zettabyte 等于一千 EB、十亿 TB 或一万亿 GB。换句话说——太多了!尤其是如果我们考虑到互联网还不到 40 岁。思科还估计,到 2020 年,年流量将增长到 2 千兆字节以上。
互联网流量只是全部数据存储的一部分,其中还包括所有个人和商业设备。对 2019 年我们现在拥有的总数据存储容量的估计各不相同,但已经在 10-50 吉字节的范围内。到 2025 年,据估计将增长到 150-200 兆字节。
毫无疑问,数据创建只会在未来几年加速,因此您可能会想:数据存储有任何限制吗?不完全是,或者更确切地说,是有极限的,但是是如此遥远,以至于我们不会很快接近它们。例如,仅仅一克 DNA 就可以存储 700 万亿字节的数据,这意味着我们可以在 1500 千克的 DNA 上存储我们现在拥有的所有数据——密集包装,可以放入一个普通的房间。然而,这与我们目前所能制造的相差甚远。正在制造的最大硬盘有 15tb,最大 SSD 达到100tb。
术语大数据是指对于普通计算设备来说太大或太复杂而无法处理的数据集。因此,这是相对于市场上可用的计算能力。如果你看一下最近的数据历史,那么在 1999 年,我们总共有 1.5 的数据,1gb 被认为是大数据。早在 2006 年,总数据量估计就达到了 160 年内增长了 1000%。在我们的 Zettabyte 时代,1gb 已经不再是真正的大数据,谈论从至少 1tb 开始的大数据是有意义的。如果我们用更数学的术语来说,那么谈论大数据似乎很自然,因为数据集超过了世界上创建的总数据除以 1000。
2.千万亿次浮点运算
为了让数据变得有用,仅仅存储它是不够的,你还必须访问和处理它。人们可以通过每秒指令数(IPS)或每秒浮点运算数(FLOPS)来衡量计算机的处理能力。虽然 IPS 比 FLOP 更广泛,但它也不太精确,并且取决于所使用的编程语言。另一方面,FLOPS 很容易想象,因为它们与我们每秒可以做的乘法/除法次数直接相关。例如,一个简单的手持计算器需要几个 FLOPS 才能正常工作,而大多数现代 CPU 都在 20–60 GFLOPS 的范围内(gigaFLOPS = 1000 FLOPS)。IBM 在 2018 年制造的破纪录的计算机达到了 122.3 petaFLOPS (1000⁵ FLOPS),比一台普通 PC(峰值性能 200 petaflops )快了几百万次。
GPU 的浮点计算性能更好,达到数百 GFLOPS(大众市场设备)。当你研究专门化的建筑时,事情变得有趣了。最新的趋势是构建硬件来促进机器学习,最著名的例子是谷歌的 TPU,它达到了 45 万亿次浮点运算(1000⁴浮点运算),可以通过云访问。
如果你需要进行大型计算,而你自己又没有超级计算机,那么退而求其次的办法就是租一台,或者在云上进行计算。亚马逊为你提供高达 1 petaFLOPS 的 P3,而谷歌提供速度高达 11.5 petaFLOPS 的一组 TPU。
3.人工智能和大数据
让我们把它们放在一起:你有数据,你有与之匹配的计算能力,所以为了获得新的见解,是时候使用它们了。要真正从两者中受益,你必须求助于机器学习。人工智能处于数据使用的前沿,有助于预测天气、交通或健康(从发现新药到癌症的早期检测)。
人工智能需要训练来执行专门的任务,看看需要多少训练才能达到峰值性能是计算能力与数据的一个很好的指标。OpenAI 在 2018 年有一份出色的报告,评估了这些指标,并得出结论,自 2012 年以来,以 petaflops/day (petaFD)衡量的人工智能训练每 3.5 个月翻一倍。一个 petaFD 包括在一天中每秒执行 1000⁵神经网络运算,或者总共大约 10 次⁰运算。这一指标的伟大之处在于,它不仅考虑了网络的架构(以所需操作数量的形式),还将其与当前设备上的实施(计算时间)联系起来。
你可以通过查看下面的图表来比较在人工智能的最新进展中使用了多少 petaFD:
chart by OpenAI
毫无疑问,领先的是 DeepMind 的 AlphaGo Zero ,使用了超过 1,000 petaFD 或 1 exaFD。就资源而言,到底有多少?如果你要用同样的硬件来复制你自己的培训,你很容易就会花费近 300 万美元,正如这里详细估算的。根据上面的图表,较低的估计是,1,000 petaFD 至少相当于使用最好的亚马逊 P3 1000 天。如果当前价格为每小时 31.218 美元,则 31.218 美元 x 24 小时 x 1,000 天= 749,232 美元。这是最低的界限,因为它假设一个神经网络操作是一个浮点操作,并且您在 P3 上获得的性能与在 DeepMind 使用的不同 GPU/TPU 上获得的性能相同。
这说明 AI 需要大量的力量和资源来训练。有一些机器学习的最新进展的例子,当时在计算能力或数据方面不需要太多,但大多数情况下,额外的计算能力是非常有用的。这就是为什么建造更好的超级计算机和更大的数据中心是有意义的,如果我们想发展人工智能,从而发展我们的整个文明。你可以想象类似于大型强子对撞机的超级计算机——你建造越来越大的对撞机,这样你就可以获得关于我们宇宙的更深层次的真相。计算能力和人工智能也是如此。我们不了解我们自己的智力或我们如何执行创造性任务,但增加 FLOPS 的规模可以帮助解开这个谜。
拥抱 Zettabyte 时代!并且更好的快速从中获利,因为 Yottabyte 时代已经不远了。
数字树(3)有多大
Let us see how big a forest can we grow with just three kinds of seeds and a few mathematical constraints!
曾几何时,我是如此天真执着,一口气把所有自然数数到一千。这是我从未试图打破的记录,希望在不久的将来也不会。我的意思是,作为一个孩子,这个数字对我来说意义重大,根据具体情况,它可能是一个相当大的数字。
所以,我很好奇一个大数字对你来说意味着什么——是一百万,十亿,一个古戈尔,还是一个古戈尔派克斯?
但是如果你考虑的是无限,那就不公平了。无穷大不是一个实数,它是一个没有尽头的深不可测的概念!
好吧,让我们玩一个游戏,给你三个不同的种子或节点,颜色分别是红色、黑色和绿色。
这个想法是,像在图论中一样,从这些节点构建树,使得第一个树包含单个节点,第二个树最多包含两个节点,第三个最多包含三个节点,等等。
在这个序列中,任何特定的树都不能包含其相应的先前的树。这里,包含强调拥有相似节点的两棵树也保留了最近的共同祖先。从数学上来说,较小的树被称为在较大的树内是INF-可嵌入的。
上述两棵树不能出现在序列中,因为左树可以嵌入右树中。
在上面的例子中,树是有效的,因为相似的节点共享不同的最近的共同祖先。
让我们考虑另一个例子来说明这一点:
你可能会觉得上面两棵树截然不同。然而,事实恰恰相反。考虑到相似的节点,它们各自最近的共同祖先也是相同的!
在继续之前,让我们总结一下约束条件:
- 第 n 个树应该包含最多个节点。
- 所有先前的( n - 1 )树都不应该在第n树中进行 inf 嵌入。
我希望你已经理解了规则。那么,让我们开始游戏:
在遇到一棵总是包含前一棵的树之前,你能构造多少棵最大可能的树?
假设我们只有一种节点可供我们使用,例如黑色。因此,我们可以建造的树的数量是一棵。因为第二棵树由于只存在一种节点而总是包含第一棵树。
通过为这个游戏定义一个函数,TREE(k) ∀ k ∈ [1,n]其中’ k '对应于不同种类节点的数量,我们可以声明 TREE(1) = 1。
类似地,通过采用两个不同的节点,例如红色和黑色,我们可以得到三个可能的树,如下所示:
任何其他的变异都会导致更少数量的树。因此,用数学术语来说,树(2) = 3。
现在,当我们考虑三个不同的节点时,有多少这样的树是可能的?
…拿出一张纸,试一试!
介绍树(3)
你有没有遇到过计算量大到不得不放弃的情况?好吧,你可以用你的一生来求解树(3),你甚至不会接近它的实际值。树(3)是如此庞大,如此难以理解的庞大,以至于没有人能够想象它,理解它,或者概念化它。
即使你试图掌握构成树(3)的位数,或者树(3)中位数的位数——你的大脑仍然会陷入黑洞,因为大脑中可以存储的熵是有一定的最大限度的。
你看,我们宇宙中最小的可能体积是 4.22 x 10^-105 立方米。这就是所谓的普朗克体积。从理论上讲,如果我们想把树(3)的每一个数字都放在这么小的体积里,我们仍然会耗尽宇宙中的空间。因此,我们永远无法在我们可观测的宇宙中展开树(3),更不用说这篇文章了。
至少,我们知道树(3)是有限的,甚至可以借助有限的算法来证明。然而,证明树(3)的有限性所花费的时间是如此之长,以至于在结束证明之前宇宙将走到尽头。
俄亥俄州立大学的数学家哈维·弗里德曼想出了一种方法来确定需要多少个“符号”来证明树(3)是有限的。甚至符号的数量也非常大。它表示为 2↑1000,其中“↑”对应于一种递归指数函数。在这种情况下,它将是 2 的 2 次方 2 次方…一千倍。
在《数字迷》的第集中,诺丁汉大学的副教授托尼·帕迪拉提出了一个思想实验——假设完成每个符号需要一个普朗克时间,即 5.39 × 10^-44 秒,那么对于一个在宇宙大爆炸时开始证明的人来说,他/她能完成吗?
根据庞加莱递归定理,答案是否定的。该定理指出,在足够长但有限的时间后,某些系统将返回到非常接近其初始状态的状态。如果我们相信我们的宇宙的熵是有限的,那么宇宙最终会在证据实现之前很久重置自己。
简而言之,如果我们使用有限的算法,我们永远无法从物理上证明树(3)是有限的。为了实际证明,我们需要先进的技术,如超限算术和序数。
树(3)实际上来自于克鲁斯卡尔的树定理,它远远大于格雷厄姆的数。事实上,与 TREE(3)相比,Graham 的数实际上等于零。最让我吃惊的是从树(2)到树(3)的巨大跳跃。我只能敬畏地想知道树(4)和以上保存什么秘密!😰
结论
据我所知,数学是一种极其美丽的构造,不断挑战着人类的想象力。树(3)是我们永远无法理解的抽象概念之一,但数学告诉我们它是存在的!
本文灵感来源于以下视频。
区块链将如何颠覆数据科学:大数据中的 5 个区块链用例
区块链和大数据是最热门的新兴技术之一,有望彻底改变几个行业,从根本上改变企业和组织的运营方式。人们可能会认为这些技术是相互排斥的——每一种都形成了独特的路径,并且彼此独立地应用。
但那会离题。
区块链——就像数据科学一样——正在逐渐改变几个行业的运营方式。虽然数据科学侧重于利用数据进行适当的管理,但区块链通过维护分散的分类账来确保数据的可靠性。
问题是,这两个概念有没有相交的地方?
当这两种技术同时应用时,会有什么样的结果?
简单地说,区块链怎么能扰乱数据科学?
要回答这些问题,更好地理解区块链和数据科学是有帮助的。
Photo by Markus Spiske on Unsplash
什么是区块链?
区块链基本上是一个不可信的账本,记录经济交易,使其无法被操纵。这项技术的出现源于人们对比特币和加密货币的普遍兴趣,但后来发现它不仅适用于记录加密货币交易,还适用于记录任何有价值的东西。了解了这项新兴技术的能力,开发人员和技术爱好者已经开始为区块链设计一个又一个的用例。
对区块链开发者的高需求
在过去的几年里,对区块链开发者的需求激增,就像开发区块链不同应用的项目一样。来自 UpWork 等自由职业平台的报告显示,区块链技能仍然是最受欢迎的技能。类似地,法律研究等其他领域的专业人士如果拥有区块链技能,或者至少对该技术有所了解,据说会有很大优势。
什么是数据科学?
数据科学寻求从结构化和非结构化数据中提取知识和见解。该领域包括统计学、数据分析、机器学习和其他用于理解和分析使用数据的实际过程的高级方法。
在经济学术语中,数据经常被描述为新的石油,这也是包括著名的 GAFAs(谷歌、亚马逊、脸书和苹果)在内的领先企业控制着大量数据的原因。数据科学的一些常见应用见于互联网引擎协议、数字广告和推荐服务。数据分析是数据科学的一个关键方面,已经发现它与医疗保健行业跟踪患者治疗和设备流程相关;在旅游中,通过游戏来改善消费者体验;用于能源管理以及许多其他部门。
对数据科学家的高需求
对能够提供更多数据见解并帮助解决更多问题的数据科学家的需求似乎永无止境。当考虑大数据时,这一点更加明显,大数据是数据科学的一个高级方面,它处理传统数据处理方法无法处理的海量数据。
区块链和数据科学的关系
与区块链现在非常熟悉的金融科技、医疗保健和供应链等领域不同,这项技术在数据科学方面尚未得到广泛探索。对一些人来说,概念之间的关系如果不是不存在的话,也是不清楚的。
首先,区块链和数据科学都处理数据——数据科学分析数据以获得可操作的见解,而区块链记录并验证数据。两者都利用了为管理与各种数据段的交互而创建的算法。你很快就会注意到的一个常见主题是,“预测的数据科学;数据完整性的区块链。”
区块链对数据的影响
数据科学,就像任何技术进步一样,有其自身的挑战和限制,当解决这些挑战和限制时,将释放其全部能力。数据科学面临的一些主要挑战包括不可访问的数据、隐私问题和脏数据。
脏数据(或错误信息)的控制是区块链技术可以对数据科学领域产生不小积极影响的一个领域。根据 2017 年对 16,000 名数据专业人员的调查,包含重复或不正确的数据等脏数据被视为数据科学的最大挑战。通过分散共识算法和加密技术,区块链验证数据,使其几乎不可能被操纵,因为这将需要巨大的计算能力。
再次通过其分散系统,区块链技术确保数据的安全性和隐私性。大多数数据存储在中央服务器上,而这些服务器往往是网络攻击者的目标;几份关于黑客和安全漏洞的报告显示了威胁的程度。另一方面,区块链将数据的控制权恢复到生成数据的个人手中,使网络犯罪分子大规模访问和操纵数据成为一项艰巨的任务。
区块链如何帮助大数据?
Janexter 的 Maria Weinberger 说,如果数量大,区块链就是质量。这遵循了这样一种理解,即区块链专注于验证数据,而数据科学或大数据涉及从大量数据中做出预测。
区块链带来了一种全新的管理和操作数据的方式——不再是将所有数据集中在一起的集中方式,而是一种分散的方式,可以在单个设备的边缘对数据进行分析。区块链与其他先进技术相结合,如云解决方案、人工智能(AI)和物联网(IoT)。
此外,通过区块链技术生成的经过验证的数据是结构化的、完整的,而且像我们前面提到的那样是不可变的。区块链生成的数据成为大数据推动力的另一个重要领域是数据完整性,因为区块链通过其链接链确定了数据的来源。
大数据中的 5 个区块链用例
总体而言,区块链数据至少可以在五个方面帮助数据科学家。
- 确保信任(数据完整性)
区块链上记录的数据是可信的,因为它们必须经过验证过程,以确保其质量。它还规定了透明度,因为在区块链网络上进行的活动和交易可以被追踪。
去年,联想展示了区块链技术检测欺诈性文件和表格的使用案例。PC 巨头们使用区块链技术来验证用数字签名编码的物理文档。数字签名由计算机处理,文件的真实性通过区块链记录核实。
大多数情况下,当涉及数据块的来源和交互的详细信息存储在区块链上并在采取行动之前自动验证(或确认)时,数据完整性得到了保证。
- 防止恶意活动
因为区块链使用共识算法来验证交易,所以单个单元不可能对数据网络构成威胁。开始异常运行的节点(或单元)可以容易地被识别并从网络中删除。
因为网络是如此的分散,这使得一方几乎不可能产生足够的计算能力来改变验证标准并允许系统中不需要的数据。为了改变区块链规则,必须将大多数节点汇集在一起以创建共识。这对于一个糟糕的演员来说是不可能的。
- 做出预测(预测性分析)
区块链数据,就像其他类型的数据一样,可以通过分析来揭示对行为和趋势的宝贵见解,因此可以用来预测未来的结果。此外,区块链提供从个人或个人设备收集的结构化数据。
在预测分析中,数据科学家基于大量数据,以较高的准确度确定社会事件的结果,如与业务相关的客户偏好、客户终身价值、动态价格和流失率。然而,这不仅限于商业洞察力,因为几乎任何事件都可以通过正确的数据分析来预测,无论是社会情绪还是投资指标。
由于区块链的分布式特性和通过它获得的巨大计算能力,即使在较小的组织中,数据科学家也可以承担广泛的预测分析任务。这些数据科学家可以使用连接在区块链网络上的数千台计算机的计算能力,作为一种基于云的服务,来分析大规模的社会结果,否则这是不可能的。
- 实时数据分析
正如金融和支付系统所展示的那样,区块链有利于实时跨境交易。几家银行和金融科技创新者现在正在探索区块链,因为它提供快速——实际上是实时——的巨额结算,而不受地理障碍的影响。
同样,需要对大规模数据进行实时分析的组织可以借助支持区块链的系统来实现。借助区块链,银行和其他组织可以实时观察数据变化,从而快速做出决策,无论是阻止可疑交易还是跟踪异常活动。
- 管理数据共享
在这方面,从数据研究中获得的数据可以存储在区块链网络中。这样,项目团队就不会重复其他团队已经完成的数据分析,或者错误地重用已经使用过的数据。此外,区块链平台可以帮助数据科学家将他们的工作货币化,可能是通过交易平台上存储的分析结果。
结论
正如已经指出的那样,区块链正处于萌芽阶段,尽管由于该技术在短时间内得到的大肆宣传,它可能不会出现。人们可以预期,随着技术的成熟和围绕它的更多创新,将会发现和探索更多具体的用例——数据科学是将从中受益的一个领域。
也就是说,它在数据科学方面的影响已经引发了一些挑战,特别是在需要处理异常大量数据的大数据方面。一种担心是,在这方面申请区块链将非常昂贵。这是因为与传统方式相比,区块链上的数据存储非常昂贵。与每秒钟为大数据和其他数据分析任务收集的大量数据相比,块处理相对少量的数据。
区块链如何发展以解决这一问题并进而扰乱数据科学领域将特别有趣,因为正如我们所见,该技术具有改变我们管理和使用数据的巨大潜力。
商业智能与数据科学有何不同
我对数据科学与商业智能工作的看法
在我大学毕业之前,我已经非常热爱数据了。我着迷于如何利用数据来提高当前社会的效率。所以,我很确定,我将从事数据分析、清理或建模的工作。下面是我相信我为什么会爱上数据的一句名言。
数据真正推动了我们所做的一切。—杰夫·韦纳
数据无处不在,尤其是在我们的日常生活中。例如,当我们决定买哪种苹果时。我相信如果你是一个对价格敏感的人,你最终的决定会基于价格。然而,如果你是一个更追求质量的人,你会买一个从一个以生产苹果而闻名的国家进口的苹果。从这种情况,我们可以看到,我们在日常生活中无意识地根据数据做决定。
毕业后,我的第一份工作是接受商业情报。在那段时间里,我想也许商业智能和数据科学的工作没有太大的区别。
“他们最终都在使用数据来提供价值,对吗?”我告诉自己。
但是做了 3 个月的商务智能,我发现我错了!!!
为什么?
忍耐一下,你会找出原因的!
工作之旅:商业智能
在做了 10 个月的商业智能之后,这里有一些我想分享的经验。如果你仍然是一名本科生,或者刚刚毕业,或者仍然在考虑将你的工作生涯转向商业智能,我希望你在做出最终决定之前利用这些“过去的数据”。
在我开始之前,只是提供一些我的背景,我在 Shopee 工作,担任本地商业情报。因此,我只负责提供当地市场的报告。此外,我的主要职责不仅包括抓取大规模的网站来进行竞争对手分析,还包括建立机器学习模型来帮助公司节省运营成本。
从上面你注意到的,这个职位是关于商业的。每天,我都会收到来自其他内部团队的多个请求,要求我执行某些分析。我需要与他们沟通,给他们建议如何进行这种分析,这样就不会浪费时间。为了检索我需要的数据,我需要编写大量的 SQL 查询。
到目前为止,我想指出三点。
一定要预料到你的日常工作生活会被各种要求淹没,不管是可行的还是不可行的要求。不要对你的工作生活会被大量的临时请求所充斥而感到震惊。
此外,这个职位需要大量的沟通。如果你是一个只想关注商业情报技术部分的人,一定要问面试官更多关于你日常工作的细节,并且用技术问题轰炸他们。这至少可以确保你在接受工作之前能够了解环境。
除此之外,精通 SQL 更佳。无论有什么请求进来,在内部提取数据的唯一方法是通过 SQL 查询。
在我的工作生涯中,作为商业智能,报告占据了我大部分的时间。它们可以以不同的形式出现,每天、每周、每月、每季度甚至临时出现。因此,拥有像 VBA 或 Python 这样的技能将是非常有益的,这样你将能够自动化它们。
分享这个职位的更多技术部分包括网页抓取和建立一些机器学习模型。这两个组成部分在电子商务业务中也是必不可少的,一个原因是获得竞争优势,另一个原因是为公司降低成本。
对于网页抓取,从我的经历来看,最难的是维护。建立一个网络爬虫是简单的,但是确保你的网络爬虫不会被网站阻止是一个完全不同的故事。况且,构建机器学习模型,只是我商业智能工作生活中中不到一小块馅饼。
这是我想说的最后一点。这个职位对技术技能的要求很低,商业是最重要的方面。即使你不擅长科技,但如果你对商业感兴趣,那么这个职位非常适合你。
工作之旅:数据科学
在将我的职位转换为数据科学家之后,我可以说体验非常不同。我来和大家分享一下。
我的任务仍然基于内部要求,但以项目的形式。因此,我将有更多的时间来分析数据和建立模型。所以,你可能会认为项目更好,因为你有更多的时间来专注和创作最好的作品。然而,这并不完全正确。偶尔,你做了一半的项目会因为各种原因而停止,或者变得不那么重要,这是很正常的。
在我的商业智能工作生涯中,我在构建模型时面临的一个问题是资源。然而,这里有更多的资源让我尝试我的想法和想法。请记住,资源也是有条件的,你需要能够在有限的时间内完成高质量的工作。
数据科学必须自我提升。我将需要不断阅读最新的论文,以便能够跟踪这一领域的最新趋势。不仅如此,学习更多的技术知识、编码技能和编程语言,这样你就可以在必要的时候使用它们。
此外, UNIX 命令是数据科学的基本技能。为了能够 SSH 到服务器,使用服务器时的 vi 命令等是我每天在工作中使用的命令。然而,在商业智能中,这种技能可能是必需的,但不是必须的。
数据科学优先考虑代码效率。我需要确保我的代码是有效的,同时,检查服务器的资源是否足够,以便服务器能够处理它。将会有很多人共享服务器,因此就如何共享资源进行交流也很重要。
沟通技巧仍然很重要。让我们想象一下,如果你有一个绝妙的想法,或者你正在对模特的表演进行巨大的改进,但是你在向别人展示的时候不小心搞砸了。或者,当您与内部团队就设定项目需求进行沟通时,您可能无法清楚地表达您的观点。你会让自己的生活更加艰难,或者失去展示工作价值的机会。
了解各种机器学习模型的优劣。这是很重要的,你应该在选择尝试任何模型之前想到这一点。这样你就不会浪费时间去实现一个在特定任务中表现不佳的模型。
最后但同样重要的是,编码和查询语言是数据科学中最基本的两项技能。能够获得正确的数据并在短时间内尝试不同的模型是当前市场中寻求的技能之一。此外,拥有快速理解他人代码的技能也非常重要,因为您的项目将由您的同事移交。
最后的想法
非常感谢你一直读到最后。我很感激!然而,这些只是我对这两个工作的工作范围有多大不同的看法。我确信,在其他一些公司,分配给商业智能的任务可能与我上面描述的非常不同。
商业智能处理已知的未知,而
数据科学处理未知的未知——Maxim scher bak
我希望你现在能明白这两份工作有多么不同,这样你就能做出明智的决定。
关于作者
Low 魏宏是 Shopee 的数据科学家。他的经验更多地涉及抓取网站,创建数据管道,以及实施机器学习模型来解决业务问题。
他提供爬行服务,可以为你提供你需要的准确和干净的数据。你可以访问 这个网站 查看他的作品集,也可以联系他获取抓取服务。
AI 如何拯救地球?
人工智能(AI)在为健康和金融行业提供价值方面享有盛誉。
然而,它也有能力从我们自己和全球变暖中拯救我们的星球。在未来,我们可能会依赖人工智能来监测二氧化碳水平,实时计算我们的碳足迹,并确定自然灾害。目前有一些利用人工智能和大数据的环境、可持续发展项目正在进行,例如预防森林火灾和监控野生动物。
微软的 AI for Earth 正在拨款帮助解决环境问题。举一个简单的例子,雪豹信托基金会已经获得了微软的资助,使用人工智能来监控和计数野生雪豹。人工智能可以用来在几秒或几分钟内对数千张图像进行分类。而复制相同的大数据规模分类可能需要数百个“人工”小时。与人类不同,计算机不需要睡眠,它们不会因为喝了多少咖啡而表现不佳,也不会因为前一天晚上是否喝了太多啤酒,或者上班路上是否不顺心而表现不佳。人工智能每周 7 天、每天 24 小时都有同样的生产力。
人工智能在未来可以应用于成千上万影响环境的问题。例如,使用人工智能和美国宇航局的数据,研究人员能够识别模式并监测陆地表面的变化,如海洋面积和冰盖表面面积的减少,这可以用来确定未来的风险。人工智能还可以用来监测污染和其他导致气候变化的因素。
海洋数据联盟是一个使用人工智能和卫星图像来跟踪珊瑚漂白、海洋采矿和水污染以保持海洋清洁的组织。
环保组织切萨皮克保护协会开发了一种工具来预测、计划和准备未来的洪水。这是一张高分辨率地图,显示了从纽约到弗吉尼亚南部 100,000 平方英里的地面上的一切,特别是流入切萨皮克湾的区域。这张地图是由卫星图像和人工智能生成的,它可以显示小到 3 英尺见方的物体——这使它成为世界上最精确的洪水规划地图。
像这样训练大多数网络需要很长时间。在这种情况下,需要手动放大和缩小对象,以验证和修改自动结果。随着每一次训练迭代,网络从分类水路到分类树木、田地、道路和建筑物。在初始训练之后,这个地图可以用新数据刷新,这比最初的劳动密集型工作更容易,使其高度可扩展。这将为洪水规划者提供一种方法来监测土地使用的变化,并规划排水系统,在洪水灾害的情况下可以带走最多的水。将来,当新的发展可能威胁到排水系统时,这种地图可能能够自动发出警报,作为一种警告系统。
人工智能正在改善农业。通过收集数据和图像以及作物疾病的知识,农民们希望增加作物产量,减少水的需求和杀虫剂的使用。
人工智能可以用来保护海洋免受非法过度捕捞。卫星数据和船只运动数据被用于机器学习算法“全球捕鱼观察”,该算法可用于识别船只在哪里非法捕鱼。这是保护海洋生物和保护捕鱼区。
在未来,人工智能方法可能会为地球创建一个数字仪表板,让我们能够在全球范围内监控、建模、预测和管理环境系统。从监测森林砍伐,二氧化碳水平,海平面,野生动物运动,非法活动,污染,以及更好地预测自然灾害。
这种方法需要现在就开始,时间太短,资源在全球范围内变得太稀薄,为了实现环境收益,人工智能和数据在经验上是必要的,以实现我们星球需要的这些变化。为了实现这一目标,研究机构、公司、行业、政府和慈善机构之间的全球合作必须从我们星球的最佳利益和未来的生活质量出发。
可能性是无穷的,数据、人工智能和人类可以共同努力,创建这些信息丰富的网络,以保护地球,并将其从全球变暖的边缘带回来。
Airbnb 主机如何提高在 Airbnb 上的体验?
对 Airbnb 在夏威夷的数据进行探索性分析,以找到主机可以提高入住率和改善整体体验的方法
Credits to Abigail Lynn
介绍
2007 年,Airbnb 的创始人布莱恩·切斯基(Brian Chesky)和乔·格比亚(Joe Gebbia)第一次在 airbedandbreakfast.com 接待客人时,Airbnb 是一家小型托管服务公司。从那以后,Airbnb 呈指数级增长,在全球 10 万多个城市有超过 600 万个房源。自诞生以来,Airbnb 已经成为酒店行业的强有力竞争对手。事实上,Airbnb 的估值在 2016 年超过了每一家主要的连锁酒店。(来源:图集)
Airbnb 作为一家公司的成功取决于它独特而热情的主机和房源。令人惊叹的主机和列表让 Airbnb 发展到今天的样子,让旅行者在世界各地有更多有趣、亲密和个性化的访问。因此,帮助他们的东道主取得成功最符合 Airbnb 的利益。以下是对房东的 5 条建议,以改善他们在 Airbnb 上的体验和房源。所有的推荐都是基于 Airbnb 的夏威夷数据中的*。*
1.包容各民族!
“Airbnb 的存在是为了创造一个任何人都可以属于任何地方的世界,提供当地、真实、多样和可持续的健康旅行。”(来源:Airbnb) 接受这一价值将允许主办方提高其入住率,原因如下。
从夏威夷商业、经济发展和旅游部收集的数据中,我们可以观察到游客来自哪些国家。从上图中,我们可以观察到大多数游客是国内的。然而,应该注意到日本和加拿大游客的数量,每月有超过 100,000 名日本游客和大约 50,000 名加拿大游客访问夏威夷。
由于大量国际游客涌入夏威夷,如果主持人用多种语言提供细节和说明,他们的列表将吸引更广泛的市场。包容每一个人不仅能提高入住率,也是认识来自世界各地的客人的宝贵经历。
2.定价应该随着需求而变化
酒店业是动态的,价格和需求不断波动。每个月,主机应该评估和考虑他们的竞争对手的价格,基于当月游客数量的列表需求,以及他们的列表在搜索排名中的位置。
2018 年夏威夷每月游客数量
9 月,游客人数比平均数字下降了约 10 万人。游客数量的下降在统计上并不显著。但是,有 87.7%的几率,9 月的游客数量低于夏威夷的平均游客数量。
因此,东道主应该降低价格,以满足对房源的较低需求,因为价格是客人搜索房源甚至酒店的一个重要因素。因此,通过评估市场趋势并相应地改变价格,主机可以在不断变化的市场中保持竞争力。
3.即时预订不是必须的,但推荐使用
主持人不一定要开启即时可预订功能,尽管如此,还是推荐这个功能。正如我们在图 2 中看到的,夏威夷不能立即预订的列表被更频繁地占用。但是,需要注意的是,分析的数据仅代表夏威夷,这是一个具有特定特征的热门旅游目的地。每个城市和环境不同,预订的原因也不同。这一建议可能不适用于所有情况。例如,如果列表位于与商务旅行相关的区域,如纽约,则即时预订功能可能非常有益。此外,Airbnb 的搜索算法通过即时预订功能提高了房源的排名。
然而,如果列表位于旅游目的地,例如夏威夷,主人可能不需要特意使他们的列表立即可预订。Airbnb 表示,在其他预订体验因素上表现良好的房源在搜索排名中也会表现良好。主人的安全和舒适应该是第一位的,有时间批准他们的客人可能更可取。
图二。
4.不要给自己太多压力去成为超级主持人
Airbnb 声明,为了成为超级房东,你必须:
- 完成至少 10 次旅行或 3 次预订,总计至少 100 晚
- 保持 50%或更高的审核率
- 回复率达到 90%或更高
- 0 次取消,但属于某个 poly 的情况除外
- 维持 4.8 的综合评分。
超级房东对他们的列表充满热情,并投入大量精力来改善客人的体验。事实上,夏威夷的 superhosts 在 2018 年的平均回复率为 100%。
尽管成为超级主持人需要很大的承诺,超级主持人的称号对主持人的入住率影响很小。对于夏威夷的房源,超级寄宿者和普通寄宿者之间只有大约 25 天的入住时间差异。
此外,Airbnb 表示,超级主机的称号不会增加房源。事实上,正是这些因素让你赢得了超级主播的地位,提高了你的搜索排名。这里有一篇 Airbnb 的文章,提供了更多关于 Airbnb 搜索算法的信息。(链接)
5.拍出很棒的照片!
拍出很棒的照片可以说是任何 Airbnb 最重要的因素。一张好照片是由明亮的灯光和构图要素组成的。建议主持人在白天拍摄照片,所有的灯都开着。主持人还应该考虑三分法,并有视觉队列来保持眼球运动。考虑右边的照片,照片遵循三分法,地板上的瓷砖和台面代表每三分之一。此外,桌子的边缘让视线移向露台。这里有一篇 Airbnb 提供的文章,强调了明星房源的 5 个拍照技巧 (Airbnb 博客)。
在 Airbnb 上,大多数客人通过查看照片来决定他们选择的房源。甚至 Airbnb 也表示,主持人的收入可能会增加 40%,预订量增加 24%,仅通过专业拍摄照片,主持人就可以收取高达 26%的费用。
因此,请专业摄影师拍摄房源照片将是一项巨大的投资。
Airbnb 认识到这些图像的重要性。事实上,他们有一个网站,可以为你找到你所在地区的专业摄影师。 (Airbnb Photography) 使用他们网站的额外好处是,雇佣摄影师的费用将从主办方的下一笔支出中扣除。
如果主持人决定选择这条路线,他们将有每个房间的 2 至 3 张照片。在这里,主持人可以选择他们认为最成功的照片。我还创建了一个机器学习算法,它查看了夏威夷成功和不太成功的 100 张不同的图片。该算法将通过查看图像来预测上市是否会成功。(链接)该算法仍处于非常早期的原型阶段,因此,它的输出应该持保留态度。
以下是机器学习算法预测的 10 个例子。通过机器学习算法,我发现有海景的图片和考虑构图的照片经常被预测为更成功。我注意到夏威夷的多个列表中包含了遮挡房屋视线的树木图片,比如第一排和第二排的第三张照片。这些上市都被预测不会成功。因此,我会建议主人在视线清晰的地方给他们的房子拍照。
总之,这里有一些方法可以改善主人在 Airbnb 上的体验。以上建议完全基于夏威夷的数据。虽然我很想通过 A/B 测试进一步分析价格变化和包容性的影响,但我希望这些建议能够改善 Airbnb 的入住率和体验。 Inside Airbnb 收集了其他主要城市的数据,我将继续探索这些建议在不同城市如何转化。
对于这些建议的更深入的分析,探索性的数据分析,以及机器学习算法的源代码,请随时查看我的网站 。
新手如何打造一个很棒的仪表盘?
在当前大数据的趋势下,数据可视化已经成为大家推崇的交互展示方式。仪表板广泛用于显示企业的业务绩效。如果能早点了解和掌握这项技术,相信对我们的职业生涯会有很大的帮助。
那么如何才能打造一个好的仪表盘呢,尤其是对于新手来说?
下图是 2012 年仪表板平面设计大赛中 Stephen Few 列举的优秀仪表板的特点。
根据以上评分标准,你的仪表盘设计能达到多少分?
如果您想要 dashboard 的完美呈现,您需要技术人员、UI 设计人员和业务人员来协调工作。但是对于数据可视化的新手来说,我们也可以用合适的数据可视化工具自己制作很酷的仪表板。如果你们中的一些人读过我在 Medium 上的帖子,你可能会发现我写了许多关于数据可视化和仪表板的指南。上次分享了一个教程,教你如何制作销售仪表盘。有读者告诉我,仪表盘制作教程对初学者来说有点难,因为那个销售仪表盘比较高级。
因此,今天我将给出一个更详细的教程,为初学者创建一个伟大的仪表板。我会把每一步都写下来,我敢打赌没有人的教程比我的更全面。
现在,让我们开始吧!
1.效果显示
这次我计划创建一个简单的销售人员绩效仪表板。上图是最终效果的演示。我们可以查看总销售额,每个销售人员的销售排名,以及销售人员的订单排名。在这个仪表板中,我还将实现图表的交互功能,如下所示。也就是说,观众可以点击图表了解更多信息。
2.准备数据可视化工具
这里我用来设计仪表盘的可视化工具是 FineReport 。其界面类似于 Excel。用户可以通过简单的拖放操作设计出色的仪表板。新手入门很容易。而且它的个人版是完全免费的。可以直接从官网 下载 。
工具的选择影响数据可视化的最终结果。用户可以根据不同的需求和喜好选择最适合自己的数据可视化工具。如果你在寻找更有用的工具,可以参考这篇文章2019你不能错过的 9 个数据可视化工具。
3.设置仪表板主体
下载 FineReport 后,打开设计器界面。点击文件>新建仪表板创建新的仪表板模板:
在 widget 列表中,点击主体,将布局类型设置为自适应布局,将组件比例设置为双向自适应。您还可以使用颜色来自定义仪表板背景:
4.拖动和排列组件
可以通过拖放操作将组件添加到主体中并进行排列。使用自适应布局,每个组件的大小和位置将自动相对于其他组件进行更改。
让我们拖动折线图、饼图和柱形图来显示数据,并添加一个按钮作为仪表板标题:
5.准备数据
FineReport 中的数据集专门用于存储通过数据连接从数据库中检索的数据。数据集是 2D 数据表,您可以在 designer 中直接查看字段和值。
在左下方的面板中,有一个模板数据集窗口,列出了所有可用的数据集。单击按钮+添加新数据集。
然后我们可以编写 SQL 语句。
这里,我们使用 SQL 语句创建 3 个数据集,从不同的角度显示销售业绩。(在这个仪表板中,我们使用 FineReport 的内置数据集。 FineReport 还支持从各种数据库导入数据。)
数据集按员工排序按降序汇总了每个员工的年度订单总数:
数据集按雇员的销售额按降序总结了每个雇员的年总销售额:
数据集总销售额汇总了公司的年度总销售额:
6.编辑组件
6.1 折线图—趋势
折线图图表很好地代表了数据背后的趋势,例如,年销售额的变化趋势。双击折线图开始编辑。
在数据选项卡中,使用数据集总销售额设置数据源。使用年定义类别,使用总销售额定义系列:
- 折线图中的类别可以被视为沿 x 轴的每个标签。它决定了数据分组的方式。
- 系列对应一行。如果有其他绩效指标,如总成本,可以添加该字段来创建另一个系列。
切换到风格>系列,从左到右、从上到下依次点击每个彩色方块,定制每个系列的颜色。添加标记来表示线条上的数据点:
将图表标题定义为年总销售额:
因为只有一个系列,并且标题已经暗示了绩效指标,所以可以禁用图例:
6.2 饼图—比例
饼状图可以有效地展示构成和相应的比例。您可以用它来显示每个销售人员对年度订单的贡献。
使用员工的订单定义数据集**。用年作为类别, EMPNAME 作为系列名称, total_orders 作为值。如果显示所有员工的数据,饼图将被分成大量的切片,但小切片的意义不如大切片。因此,您可以在数据过滤器中保留前 5 个订单贡献者,并将其他订单贡献者合并为一个切片:**
- 类别对应于一个单独的饼图,因此每年将生成一个饼图。
- 系列对应于饼图中的每个切片,因此数据是基于系列进行筛选的。
在样式>系列中,为 6 系列定制颜色。将内半径设置为 70% 使饼状图看起来像一个圆环。
使用饼图外部的标签以百分比表示每个切片的比例:
启用图例来指示每个系列的名称,即每个员工的姓名:
- 系列名称使用图例而不是标签显示,因为不同年份有多个饼图,但所有饼图都共享相同的系列名称。
将标题设置为按顺序排序。
6.3 柱形图—对比
列的高度是一种直观的比较度量。您可以使用柱形图来可视化每个销售人员的年销售额,以便进行人与人之间以及年与年之间的比较。
使用员工的销售额定义数据集**。使用 EMPNAME 作为类别,使用 year 作为系列名称,使用 total_sales 作为值。考虑到员工人数众多,请过滤数据,仅显示前 20 名卖家:**
x 轴可能太短而无法显示所有类别名称,因此您可以设置轴标签的旋转以完全显示它们:
在底部显示图例,表示每个系列所代表的年份,自定义每个系列的颜色,并将标题定义为按销售额排名。
6.4 按钮—标题
在按钮名称后输入仪表盘标题,设置背景为透明,编辑字体:
7.预览图表并与之互动
点击预览查看效果,并可与图表互动:
销售人员绩效仪表板已经完成。希望这篇教程对你有帮助。如果你想做一个更高级的仪表盘,可以看看这篇文章: 制作销售仪表盘的一步一步指南 。
你可能也会对… 感兴趣
新手如何设计酷炫的数据可视化?
1.我们为什么要可视化数据?
在工作中,无论身处哪个场景,都会接触到数据,需要表达出来。数据可视化的作用是通过结合图表和数据来更好地传达业务信息。就目前而言,大多数公司正在逐步从传统的流程管理过渡到基于数据的管理。数据可视化可以帮助分析师更全面地了解数据,并获得更具商业价值的见解。
2.什么是数据可视化?
数据可视化是数据分析后的数据展示,包括图表设计、动态组合、二维图表、三维图表、联动、钻取、大屏幕显示等。
**数据可视化的功能主要体现在两个方面:一是数据展示,二是业务分析。**数据显示很好理解。它是将已知的数据或数据分析结果通过直观的图表显示出来。最后呈现的是报表、仪表盘,甚至是现在流行的大屏幕。数据展示的方式越来越被接受和欢迎。业务分析是在看到图表、仪表板和大屏幕后,将要分析的数据和指标有效地转换为具有业务价值的见解,使他们能够基于事实支持决策。
Dashboard of FineReport
3.如何实现可靠的数据可视化?
数据可视化最终还是要回归到“读者”身上。它通过传递方向性数据来帮助“读者”识别问题并做出正确的决策。所以数据的价值不在于它被看到,而在于它被看到后引发的思考和行动。
在这里,企业中的数据不同于普通的应用数据。大部分都没有通过算法程序直接对用户产生价值。而是通过合理的展示对数据进行分析,然后管理者进行思考和判断,最后采取行动,让数据发挥价值。
3.1 谁是可视化的受益者?
无论你是做传统的报告、PPT 还是做别的,你首先要搞清楚这是给谁看的,他需要知道什么,他关心什么指标,他会如何在决策过程中使用你呈现的信息和数据。一句话,就是搞清楚数据分析工作的目标:这个报告是用来干什么的?后续数据分析工作和分析报告中的所有内容都将与这一目标主题密切相关。
3.2 梳理指标体系
数据可视化就是将繁杂的数据整理成指标,围绕财务、销售、供应链、生产等各个业务形成指标体系。,最后通过可视化的方法展示出来,比如收益率、效率效益等。
可以说,数据分析工作的成功一般是建立在指标的基础上的。这项工作需要数据中心的人员或者 BI 组的人员深入到业务中去调查需求,分析数据,建仓库…
3.3 将数据可视化与业务解决方案相结合
如果数据可视化的目的是呈现解决特定的、可测量的、可实施的、相关的和基于时间的问题的数据,那么在生产过程和报告过程中添加这些问题。
规划数据可视化解决方案时,请确保这是为了解决用户特定的问题。所以你的解决方案不仅要能够很好地解释数据分析的结论、信息和知识。但更重要的是,管理者可以沿着你规划的视觉路径快速找到并发现决策。
例子
当公司业绩没有达到目标时,可视化方案的设计路径可以是这样的。
第一步:从整体运营的角度,你需要明确影响业绩的关键因素。
查看与销售订单、客户价格、客户数量、用户活动、产品产量、质量、成本、交付等关键因素相对应的 KPI 的绩效。这些因素将成为驱动因素,直接影响业绩。这些驱动数据的可视化是找到解决方案的基础。
第二步:你需要深究关键因素,找出是哪些因素导致了业绩的失败。
例如,您可以使用比较分析来观察 KPI 上所有关键因素在某一段时间内的表现。针对具体问题,跟踪当前的行动计划是什么,是否调整进度,并探索提高绩效的方法。
4.数据可视化工具
数据可视化有很多工具。像 ECharts 、 Highcharts 、 D3.js 这样的图表插件,功能非常强大。还有类似 Excel 、 Cognos 、 Tableau 、 FineReport 等工具。对于日常报表制作,这类工具更容易学习和使用,更偏向于业务分析。它们涵盖了数据收集、分析、管理、挖掘和可视化的一组复杂的数据处理过程。
我习惯使用零编码报告工具 FineReport ,它允许您通过简单的拖放操作实现很酷的可视化。我过去常常花两个小时制图或绘图。有了 FineReport,我可以在十分钟内完成一个仪表盘。对数据分析初学者真的很友好。
Drag-and-drop Operation of FineReport
这里给大家展示一些我用 FineReport 做的仪表盘,让大家对数据可视化有更清晰的认识。
实时仪表板
3D 动态效果
销售分析
如果您想快速开始数据可视化,我建议您从 FineReport 开始。您可以到官网免费下载并使用。这里是教程。
原为 2019 年 5 月 31 日在http://www.finereport.com发布。