DataCamp 博客中文翻译(二)

原文:DataCamp Blog

协议:CC BY-NC-SA 4.0

让你的同事迷上 R 的 7 个技巧

原文:https://web.archive.org/web/20230101103415/https://www.datacamp.com/blog/7-tips-for-getting-your-colleagues-hooked-on-r

你爱 R,你希望你的同事也爱 R。眼见为实:在这篇文章中,我会给你一些建议,让你在自己的公司举办一次成功的研发演示,给你的同事留下深刻印象。这里有七个给你的团队留下深刻印象的技巧。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1)向他们推销 R

你知道 R 很神奇,现在是时候说服你的团队了。从基础开始——R 是一种强大的开源统计编程语言,可用于收集、操作和可视化数据。谷歌、脸书、优步、Airbnb、纽约时报等公司都在使用它。以下是 R 及其在分析和数据科学领域的影响的历史:

https://web.archive.org/web/20220810132206if_/https://www.youtube.com/embed/TR2bHSJ_eck

如果你在寻找更深入的东西,你可以点击这里查看大卫·史密斯的幻灯片。关键是,你要搞清楚为什么 R 值得学习并融入他们的日常工作流程。你也可以告诉他们关于日益流行的R 和如何将与其他开源替代品如 Python 相比较。使用上述资源向他们展示 R 中的技能提升肯定是他们应该考虑的事情。当然,你应该总是提到加薪😃

2)让他们使用 RStudio 进行设置

好了,你已经完成了你的推销,现在是时候向你的同事展示 R 的实际效果了。第一步是向他们展示所有神奇的事情发生的地方——r studio。抵制直接进入你的分析的冲动是很重要的。花些时间向你的观众解释他们在看什么。向他们展示如何加载库、赋值、执行基本运算等。以便他们了解 RStudio IDE 的工作原理。记住:所有这些功能、按钮和屏幕对你来说可能很熟悉,但对你以前从未见过的同事来说可能毫无意义。花 10 分钟解释会让你的同事感觉更舒服。当然,如果你想让他们有更好的准备,你也可以给他们布置一些家庭作业。有许多免费的 R 入门教程(比如这个 one )是为初学者设计的。

3)获得一个很酷的数据集

如果你真的想吸引观众的注意力,准备一个很酷的数据集。尽管“mtcars”和“iris”数据集很方便,但它们太过了,往往与你的内部受众不相关。选择一些与他们相关的东西。以下是适合任何受众的优秀数据集的一些来源:

  • Quandl -为您的财务团队和组织内的经济学家提供完美的数据集(在这里了解如何使用他们的 R 包
  • Data.gov——如果你在政府机构、非营利组织或研究机构工作,这将是一个非常棒的数据来源
  • 很酷的数据集集合,包括王位争夺战、NFL 数据和 Twitter 上的美国航空公司观点。
  • 令人惊叹的公共数据集——由凯撒 0301 策划,这份名单有一大堆数据集,从能源和教育到社交网络和时间序列数据

需要更多的想法吗?看看这个 KDnuggets 帖子。你可以在任何地方找到有趣的公共数据集,因此没有理由进行无聊的演示!记住你的听众,发挥创造力。无论如何,如果你正在向一群汽车爱好者推销,那就使用“mtcars”数据集吧。

4)走完数据科学流程的每一步

重要的是,您要引导您的受众了解数据科学流程的每一步。是的,这意味着你没有时间去钻研每一步背后的细节,这没关系。现在不是向您的观众全面解释 dplyr 与 data.table 相比的优势或为什么 ggplot2 是您最喜欢的可视化软件包的时候。在这一点上,他们可能不在乎。为了让他们相信 R 的强大,您需要向他们展示它可以用于数据科学工作流程的每个层面,包括导入数据、清理数据、操作数据、执行统计分析和数据可视化。当他们看到你在不到一个小时的时间里从一个杂乱的数据集到一个漂亮的数据可视化,他们会对 r 的力量印象深刻。需要一些灵感吗?查看来自流动数据的这些令人敬畏的指南,从原始数据中创建一些迷人的可视化。

对一切从零开始不感兴趣?没关系!已经有一些很棒的教程涵盖了所有这些步骤,所以你不需要这么做。以下是一些好的例子:

当然,网上还有更多教程和有趣的 R 演练。找到或制作一个适合你的观众的作品!

奖励:使用闪亮的创建一个互动的网络应用程序,这将真正打动你的同事!

5)向他们展示 R 如何使用他们已经知道的工具

当你试图在他们的工作流程中引入新工具时,人们很容易不知所措。他们开始思考如何才能学到所有的东西,他们本能地对自己常用的方法产生了抵触情绪。帮助克服这一点的一个简单方法是向他们展示 R 如何在他们已经熟悉的环境中工作。如果他们习惯使用 Excel,向他们展示如何使用 r 导入和导出 Excel 文件。如果他们通常使用 SQL 数据库,向他们展示导入他们需要的数据是多么容易。也许你正试图将它们从 SAS、SPSS 或 STATA 等商业软件中切换出来?如果是这样,向他们展示用 r 导入、导出和操作这些类型的文件是多么容易,这里有一个完整的课程可以帮助他们导入不同的文件类型。

6)在演讲前测试你的脚本

许多研发车间都被糟糕的计划给毁了。一场精彩的演讲可能会因为不想加载的库或者隐藏在视线之外的语法错误而泡汤。不要让这种事发生在你身上!在你演示之前,清空你的 RStudio 环境并运行你的脚本——仔细检查一下,确保一切运行顺利!之后,你可以在你的观众面前自信地编码,因为你知道你的脚本会顺利运行,不会有任何令人尴尬的错误。一般来说,你应该在你的观众面前写下每一步的代码,这样他们就能清楚地理解你的逻辑。如果你遇到了障碍,只要参考你已经证明脚本,你就回到了正确的道路上!请记住,你的目标是让你的观众相信 r 的力量。如果你的演示充满了错误、库问题和其他问题,它将不会很有说服力。

7)给他们一个路线图

恭喜你!你的报告完成了。你用令人敬畏的数据集、透彻的分析和杀手级的数据可视化给观众留下了深刻的印象。所以你的工作完成了,对吗?不对。你的新听众将会回到他们的办公桌前,在网上查找 R 资源,并被大量的教程、博客帖子和学习资源所淹没——有些比其他的好。为了帮助您的同事在他们的工作流程中采用 R,您需要帮助过滤掉噪声。幸运的是,有一些资源可以帮助你。查看这篇帖子,它提供了数据科学过程中每一步的资源概览。如果你正在寻找更全面的东西,有许多伟大的在线数据科学教育提供商,包括数据营CourseraedX 等等!为你的听众设计一个学习路径是让他们参与并积极学习 R 的关键!

你刚刚读了让你的同事迷上 r 的 7 个技巧。现在你已经准备好开始工作了!有更多的提示或想法吗?你如何在你的公司传播 R?在下面评论并分享给你的朋友和同事吧!


关于群组数据营

DataCamp 是首个专注于为数据科学打造最佳学习体验的在线学习平台。我们已经在 150 多个国家培训了超过 470,000 名(有抱负的)数据科学家。

我们与两家公司(微软、Kaggle、RStudio 等)都有合作关系。)和来自一流学术机构(普林斯顿、杜克和华盛顿大学)的教授。我们的课程由来自 R 和 Python 社区的一流教师开发,包括 Hadley Wickham、Max Kuhn、Matt Dowle 等!

DataCamp for Groups 是管理人员培训和教育其分析和数据科学团队的最具可扩展性、最具成本效益的方式。它允许管理人员根据特定的学习目标设置任务、监控进度和评估绩效——所有这些都在一个简单的仪表板中完成。以 250 美元/座/年的价格,您的团队将获得超过 350 个视频1200 个互动练习,总计超过 120 个小时的精彩内容,涵盖数据科学工作流程的每一步。与 Lynda.com 等其他网站相比,这是以 R 和 Python 为中心的数据科学内容的 5 倍多,而现场讲师和现场培训的成本只是其一小部分。我们的互动课程的完成率比传统的在线课程高出 6 倍,这意味着您的团队将积极参与并有动力完成培训。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Interested in learning more? Feel free to reach out at [email protected]

9 大电力 BI 仪表板示例

原文:https://web.archive.org/web/20221129041202/https://www.datacamp.com/blog/9-power-bi-dashboard-examples

Power BI 是最受欢迎的商业智能工具之一。它允许从业者创建高度美观、可定制的可视化和仪表板(不需要编码技能),并直接与利益相关者共享。

作为微软的一款工具,Power BI 特别适合 Excel 用户,因为它具有相似的界面和与 Excel 的深度集成。此外,它为从业者提供了高级功能,允许他们转换和清理数据、大规模协作以及设置粒度访问权限。

尽管有这些出色的特性,Power BI 提供了最大的价值,它通过令人难以置信的仪表板功能,让组织和团队可以一目了然地查看他们关心的所有指标。在本文中,我们将通过展示涵盖各种主题的 Power BI 仪表盘的真实示例来展示 Power BI 的强大功能。

如果你对 Power BI vs Tableau 以及哪一个适合你感兴趣,请查看我们单独的指南。

是什么造就了一个强大的 BI 仪表板?

一个 Power BI 仪表盘不仅要美观,还要清晰实用。您可以从许多方面来评估 Power BI 仪表板。在我们关于设计仪表板的最佳实践的文章中,我们概述了在 Power BI(以及任何工具,事实上)中构建仪表板的最佳实践。以下是大功率 BI 仪表板的主要特征:

特定于受众的

不同的仪表板有不同的受众和不同的用途。运营仪表板监控业务运营的实时数据,并由运营团队(例如,营销团队)使用,而战略仪表板监控长期公司 okr 和 KPI,并由 C 级高管使用。伟大的仪表板总是首先考虑观众的需求。

简单而整洁

很容易把除了厨房水槽以外的所有东西都扔到仪表板上。任何创建仪表板的人都需要深入思考复杂性和有用性之间的权衡。因此,一定要确保仪表板尽可能提供最有用的信息,而不增加不必要的混乱。

使用网格布局

使用网格布局不仅有助于您在创建仪表板时提高工作效率,还能让受众进行无缝的旅程。根据 Tableau 的技术传道者和仪表盘大全的合著者 Andy cotgreve 的说法,人类天生习惯于从左向右和从上到下看东西。使用网格布局有助于您的受众导航仪表板。

美学很重要

最重要的是,仪表板应该是有用的。然而,仪表板的美观(或缺乏美观)会严重影响它的采用。一般来说,要确保你的仪表盘不会使用一种以上的字体,并且创造性地使用颜色来引导观众的消费之旅。

快速加载时间很重要

加载时间对几乎任何数字产品的采用都很重要,仪表盘也不例外。即使仪表板勾选了所有的框,如果等待时间很长,它也几乎不会被使用。最小化加载时间的一个好方法是消除混乱,确保数据转换存储在数据库的视图中,并在复杂和简单的可视化之间取得平衡。

现在我们已经有了最佳实践,下面是来自销售、金融、医疗保健等垂直行业的顶级 BI 仪表板示例。

Power BI 销售仪表板示例

1.电子商务销售仪表板

这种交互式仪表板旨在供在线零售商使用,并为他们提供对不同产品性能的高层次到精细的了解。它提供了总销售额的概览,能够展示年、季度和月增长率。此外,它允许任何人挖掘数据,了解表现最佳的产品、位置等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击此处进入仪表盘

2.超市销售仪表板

这是一个令人难以置信的简洁而全面的仪表板,允许对肯尼亚一家连锁超市的财务状况一目了然。它提供了三个报告,涵盖整体销售数据,并能够按产品类别、客户人口统计数据以及不同超市分支机构的员工成本和人数数据进行细分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击此处进入仪表盘

3.AdventureWorks 的销售仪表板

这个仪表板跟踪一家名为 AdventureWorks 的虚构自行车制造商的销售业绩。它提供了一段时间内总销售额和增长的概览,并能够按产品类别进行深入分析。此外,它还提供了不同年份和月份之间的出色比较功能,以及一个按地区划分的巨大销售地图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击此处进入仪表盘

Power BI 财务仪表板示例

1.全球股票市场仪表板

在疫情开始时,许多组织在实现复苏之前遭受了巨大的股票市场损失。这个仪表板提供了新冠肺炎第一年前 200 家公司(以股价表现衡量)的概览。它结合了简单的视觉效果和强大的过滤功能,展示了 Power BI 仪表盘在金融领域的实用性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击此处进入仪表盘

2.通货膨胀仪表板

“通货膨胀是衡量一个经济体中商品和服务价格上涨速度的指标。如果出现通货膨胀,导致食品等基本必需品价格上涨,就会对社会产生负面影响。”投资媒体

由于新冠肺炎和俄乌战争的影响,通胀从未像现在这样真实。该仪表板提供了不同国家的通货膨胀概况,以及其他经济指标,如进出口数据、GDP 规模等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击此处进入仪表盘

3.NCAA 足球财务仪表板

NCAA 代表国家大学体育协会,是一个管理美国和加拿大学生体育运动的组织。该仪表板突出显示了 NCAA 的财务状况,对总收入、总支出和总利润进行了高度概括。此外,它为观众提供了按会议和参与学校过滤这些数据的能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击此处进入仪表盘

Power BI 医疗保健仪表板示例

1.新冠肺炎仪表板

可以说是过去十年最大的数据故事,新冠肺炎传播和影响是仪表板的一个主要例子。这个仪表板帮助观众了解新冠肺炎如何在各国传播,恢复和死亡率,详细的国家比较,等等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击此处进入仪表盘

2.POC EID 数据仪表板

护理点早期婴儿诊断(POC EID)数据仪表板旨在评估护理点早期艾滋病毒诊断对婴儿的影响。该项目涉及九个非洲国家:喀麦隆、科特迪瓦、肯尼亚、莱索托、莫桑比克、卢旺达、埃斯瓦蒂尼、赞比亚和津巴布韦。仪表板为观众提供了现场护理测试与传统方法相比的概览,可供医生和公共政策官员使用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击此处进入仪表盘

3.医院应急响应决策仪表板

该仪表板为医院管理员提供了医院当前运营和瓶颈的绝佳概览。它提供了床位占用、出院和工作人员可用性的概述,以及重要安全材料和产品的供应。除了这个概述之外,它还提供了更详细地钻取所有这些特定指标的能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击此处进入仪表盘

借助 Power BI 成为数据分析师

本文向您展示了 Power BI 如何使任何人都能够构建极其丰富的仪表板,从而为任何消费者提供价值。Power BI 是推动组织内数据驱动决策的最重要工具之一,也是从业者最想学习的工具之一。

如果您有兴趣成为 Power BI 专家,请查看 Power BI 职业跟踪中的数据分析师,它涵盖了在 Power BI 中自信地制作仪表盘所需的所有知识。有关 Power BI 的更多信息,请查看以下资源:

GPT 入门指南-3

原文:https://web.archive.org/web/20221129041532/https://www.datacamp.com/blog/a-beginners-guide-to-gpt-3

自然语言处理(NLP)是语言学、计算机科学、人工智能和信息工程的一个子领域,涉及计算机和人类(自然)语言之间的交互,特别是如何对计算机进行编程以处理和分析大量自然语言数据。

听起来很有趣?如果我们告诉你,我们让一种叫做 GPT-3 的算法来写这整段文字,它第一次就写完了,你会怎么说?我们不是在开玩笑!看看这个…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

行动中的 GPT 三号

很神奇,对吧?!那么回到 NLP。它使计算机能够以文本或语音数据的形式处理人类语言,并“理解”其全部含义,包括说话者或作者的意图和情感。在过去的十年里,NLP 作为一个领域已经成为一些最令人兴奋的人工智能发现和实现的场所。在过去的几年中,在这个领域中可以看到的最激动人心和最多产的趋势是大型语言模型,GPT-3 模型就是其中之一。

GPT-3 被一些人认为是探索人工智能的第一步。它比其他任何人工智能模型都更受关注。它在以接近人类的效率和准确性执行一系列一般性任务方面的纯粹灵活性是它如此令人兴奋的原因。它以 API 的形式发布,旨在让数据科学家、开发人员以及世界各地各行各业的人们前所未有地接触到世界上最强大的语言模型之一。

该模型由人工智能研发前沿公司 OpenAI 创建。自 2020 年 7 月首次发布以来,世界各地的开发者已经为 GPT 3 找到了数百个令人兴奋的应用,这些应用有可能提升我们沟通、学习和娱乐的方式。它能够轻松解决一般的基于语言的任务,并可以在不同的文本风格和目的之间自由移动。

在 GPT-3 之前,语言模型被设计来执行一个特定的 NLP 任务,例如文本生成、摘要或分类。GPT-3 是自然语言处理历史上第一个通用语言模型,可以在一系列 NLP 任务中表现同样出色。GPT-3 代表“生成性预训练变压器”,这是 OpenAI 的第三次迭代模型。让我们来分解这三个术语:

  • **生成式:**生成式模型是一种统计模型,用于生成新的数据点。这些模型学习数据集中变量之间的潜在关系,以便生成与数据集中的数据点相似的新数据点。
  • **预训练:**预训练模型是已经在大型数据集上训练过的模型。这使得它们可以用于很难从头开始训练模型的任务。一个预先训练好的模型可能不是 100%准确,但是它可以让你避免重新发明轮子,节省时间,提高性能。
  • **变压器:**变压器模型是 2017 年发明的著名人工神经网络。这是一个深度学习模型,旨在处理序列数据,如文本。Transformer 模型通常用于机器翻译和文本分类等任务。

在下一节中,我们将着眼于语言模型的更广泛的背景——它们是什么,它们如何工作,以及它们的用途。

什么是大型语言模型?

近年来,围绕构建大型语言模型(LLM ),自然语言处理(NLP)领域出现了巨大的兴趣。经过大量文本训练的 LLM 可以用于各种基于语言的任务,包括文本生成、机器翻译和问题回答。

语言建模是使用概率来理解给定语言中的句子是如何组合在一起的任务。简单的语言模型可以查看一个单词,并根据现有文本序列的统计分析,预测最有可能跟随它的下一个单词(或多个单词)。例如,句子“我喜欢走我的……”更有可能以“狗”结尾,而不是“冰箱”。用大量数据训练语言模型以使其准确预测单词序列是很重要的。

LLM 可以被认为是统计预测机器,输入文本,输出预测。您可能从手机的自动完成功能中对此很熟悉。例如,如果您键入“good”,自动完成功能可能会给出类似“morning”或“luck”的建议自动完成等自然语言处理应用程序非常依赖语言模型。

虽然语言模型已经存在很长时间了,但是直到最近它们才变得如此成功。这是由于许多因素,包括大量训练数据的可用性,更好的训练算法的开发,以及使用 GPU 来加速训练。有了更多的数据,模型可以了解更多关于单词和使用它们的上下文之间的关系。这使得模型能够更好地理解文本的含义,并生成更准确的预测。

LLM 的成功是因为它们能够捕捉文本中单词之间的依赖关系。例如,在句子“猫坐在垫子上”,单词“猫”依赖于单词“the”,单词“mat”依赖于单词“on”在大型语言模型中,这些依赖关系在模型的参数中被捕获。尽管大型语言模型已经变得更加先进,但是它们使用的参数数量已经爆炸式增长,正如您在微软研究院发布的下图中所看到的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最先进的自然语言处理模型的大小在对数标度上随时间变化的趋势
来源:微软研究博客【2021 年 10 月 11 日的帖子

大型语言模型的预训练需要大量的计算,这是能量密集型的。对这些模型日益增长的需求需要越来越多的计算资源。这带来了巨大的环境成本,例如不可持续的能源使用和碳排放。

在 2019 年的一项研究中,麻省大学的研究人员估计,训练一个大型深度学习模型会产生 62.6 万磅导致地球变暖的二氧化碳,相当于五辆汽车一生的排放量。随着模型变得越来越大,他们的计算需求超过了硬件效率的提高。一项 2021 年的研究估计,GPT-3 的训练产生了大约 552 公吨的二氧化碳。这大约是 120 辆汽车一年的行驶量。

然而,2019 年的绿色人工智能论文指出,“公开发布预训练模型的趋势是一种绿色成功”,作者鼓励组织“继续发布他们的模型,以节省其他人重新培训他们的成本。”OpenAI 等发布预训练大型语言模型的公司正在不断研发技术,以减少训练模型的碳足迹。

GPT-3 在执行各种 NLP 任务时高度准确,这是因为它所训练的数据集规模巨大,其庞大的架构包含 1750 亿个参数,这使它能够理解这些数据中的逻辑关系。GPT-3 在来自五个大数据集的文本语料库上进行预训练,这五个大数据集包括 Common Crawl、WebText2、Books1、Books2 和 Wikipedia。这个语料库总共包括近一万亿个单词,允许 GPT-3 在零射击设置下,或者在不提供任何示例数据的情况下,成功地执行数量惊人的 NLP 任务。

在下一节中,我们将探索 transformers,这是一个著名的架构使能模型,它席卷了语言建模领域,并改变了 NLP 空间中可能的定义。

什么是变形金刚模型?

转换器是一种神经网络体系结构,特别适合于语言建模任务。它最早是在 2017 年的论文《注意力是你所需要的全部》中介绍的。该论文将变压器解释为一种神经网络架构,旨在高效执行序列到序列任务,同时轻松处理长期依赖性。Transformer 模型已经迅速成为自然语言处理任务的首选架构,目前主导着 NLP 领域。

序列到序列是一种机制,是转换器模型的主干。也称为 Seq2Seq,该体系结构将给定的元素序列(如句子中的单词)转换为另一个序列(如不同语言的句子),这使得该体系结构特别适合翻译任务。谷歌翻译在 2016 年末开始在生产中使用类似的架构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:“图解变形金刚”博客帖子作者杰伊·阿拉玛

Seq2Seq 模型由两部分组成:编码器和解码器。编码器和解码器可以被认为是只会说两种语言的人类翻译者。各有不同的母语;对于我们的例子,我们说编码器是一个母语为汉语的人,解码器是一个母语为英语的人。两者有共同的第二语言;假设是日本的。为了将中文翻译成英文,编码器将中文句子转换成日文。被称为上下文的日语句子被传递给解码器。由于解码器理解日语,并能够阅读该语言,它现在可以从日语翻译成英语。

transformer 架构的另一个关键组件是一种称为“注意”的机制。这是一种模仿认知注意力的技术。认知注意力是一种反映我们大脑如何关注句子重要部分的技术,有助于我们理解句子的整体意思。例如,当你在读这个句子时,你总是专注于你正在读的单词,但同时,你的记忆保存着这个句子最重要的关键词来提供上下文。

注意机制一段一段地查看输入序列,并在每一步决定序列的哪些其他部分是重要的。这有助于转换器过滤噪音,并通过连接本身没有任何明显的相互指向标记的相关单词来关注相关的内容。

变压器模型受益于更大的架构和更大量的数据。这使得它们比任何其他类型的神经网络都更好地理解句子中单词的上下文,这解释了它们对机器学习领域的主要影响。随着它们的不断发展,它们可能会在未来几年产生更大的影响,您可以通过几个简单的步骤开始尝试 LLM。

GPT 入门-3

导航 OpenAI API

尽管 GPT-3 可以说是世界上最复杂的语言模型之一,但它的功能可以通过一个简单的“文本输入文本输出”用户界面来访问。开始使用 GPT 3 的第一件事是访问 OpenAI API。你可以在这里申请,几分钟后,你的账户就会建立起来。

一旦你获得了 OpenAI 开发者账户,我们将会看到 Playground,这是一个基于网络的私人沙盒环境,允许你试验 API 并了解其不同组件如何协同工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

open ai API 的组件

以下是不同 API 组件及其功能的概述:

  • **执行引擎:**决定执行使用的语言模型。选择正确的引擎是决定您的型号性能的关键,从而获得正确的输出。
  • **响应长度:**响应长度限制了 API 在完成时包含多少文本。因为 OpenAI 按每个 API 调用生成的文本长度收费,所以响应长度对于预算有限的人来说是一个至关重要的参数。响应长度越长,成本越高。
  • 温度: 温度控制响应的随机性,表示为 0 到 1 的范围。较低的温度值意味着 API 会用模型看到的第一样东西来响应;较高的值意味着模型在得出结果之前会评估可能符合上下文的可能响应。
  • Top P: Top P 控制模型应考虑完成多少随机结果,如温度刻度盘所建议的,从而确定随机性的范围。Top P 的范围是从 0 到 1。较低的值限制了创造力,而较高的值扩大了视野。
  • 频率和存在惩罚: 频率惩罚通过“惩罚”模型来降低模型逐字重复同一行的可能性。在场惩罚增加了谈论新话题的可能性。
  • 最佳: 此参数允许您指定要在服务器端生成的完成数(n)并返回“n”个完成中的最佳者。
  • 停止序列: 停止序列是一组字符,指示 API 停止生成完成。
  • 注入开始&重启文本: 注入开始文本和注入重启文本参数允许你分别在完成的开始或结束插入文本。
  • Show Probabilities: 该选项允许您通过显示模型可以为给定输入生成的标记的概率来调试文本提示。

OpenAI API 提供了四种不同的执行引擎,它们在使用的参数数量、性能和价格上有所不同。主要的发动机按其能力和大小由大到小依次是阿达(以阿达·洛芙莱斯命名)、巴贝奇(以查尔斯·巴贝奇命名)、居里(以玛丽·居里夫人命名)和达芬奇(以列奥纳多·达·芬奇命名)。

基于上述四个主要模型,OpenAI 推出了一系列名为 InstructGPT 的改进模型,这些模型更好地理解指令,并根据您的需求产生特定的输出。你所要做的就是告诉模型你想要它做什么,它就会尽最大努力完成你的指令。向 GPT-3 模型提供指令的过程称为快速工程。

快速工程

GPT 3 号被设计成任务不可知的。这意味着,给定特定的训练提示,它可能执行任意数量的任务。创造人工智能解决方案从来都不容易,但有了 GPT-3,你所需要的只是用简单的英语给出一个合理的培训提示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:安德烈·卡帕西2020 年 6 月 18 日发推文

创建 GPT-3 应用程序时,首先要考虑的是培训提示的设计和内容。提示设计是启动 GPT-3 模型以给出有利的上下文响应的最重要的过程。

提示是您给模型的文本输入,以便它生成您想要的输出。设计一个好的提示就是在文本输入中给模型足够的任务上下文。GPT-3 查看输入,并尝试用它认为最好的文本来完成输入。

在某种程度上,提示设计就像在玩猜字谜游戏!

写好提示的秘诀是理解 GPT 3 号对世界的了解,以及如何让模型使用这些信息产生有用的结果。在猜字谜游戏中,我们的目标是给玩家提供足够的信息,让他们利用自己的智力猜出正确的单词。同样,我们必须以训练提示的形式给 GPT-3 足够的上下文,以便模型找出模式并执行任务。我们不想因为信息过载而中断模型的自然智能流,但是给它的信息太少会导致不准确的结果。

作为一个经验法则,当设计训练提示时,你的目标应该是从模型中获得零射击响应。如果这是不可能的,那就举几个例子,而不是提供一个完整的语料库。培训提示设计的标准流程应该是这样的:

零镜头→少量镜头→基于语料库的启动

如果在您的文本输入中,模型看到字母“Q”和一个问题,它将尝试写一个响应,但不一定是您期望的响应。如果没有足够的上下文,它可能会假设你正在写一个问题和错误答案的列表。如果你想得到最好的答案,你需要让 GPT-3 知道提供什么样的答案。

代替要求 GPT-3 完成该输入:

Q:
A:

我们第一次完成的是:

Q:
A:

Q:
A: 

通过使用这样的提示(或一些变体,取决于您希望模型生成什么类型的问题),您将大大改进您的问题输出:

Write a few trivia questions.

Q:
A: 

在第一次尝试中我们得到了下面的完成:

What is the name of the longest river in Africa?
The Nile

What are the top 5 most spoken languages in the world?
Mandarin, Spanish, English, Hindi, Arabic

像上面这样简单的指令足以让 GPT-3 明白,它需要给出更符合你所寻找的答案;这种情况下,几个鸡毛蒜皮的问题。你也可以用“事实答案:”这样的短语代替“A:”来改善结果。

Write a few trivia questions.

Question:
Factual answer:

对于这个输入,我们得到了以下完成:

1\. What is the world’s largest desert?

The Sahara desert.

2\. What is the world’s deepest Ocean?

The Pacific Ocean.

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GPT 3 沙盒-将 OpenAI API 与 Python 结合使用

在这一节中,我们将带您浏览 GPT 3 沙盒,这是一个开源工具,只需几行 Python 代码就能把您的想法变成现实。我们将向您展示如何使用它,以及如何为您的特定应用定制它。这个沙盒的目标是让你能够创建很酷的 web 应用程序,不管你的技术背景如何。

跟随这个交互式的视频系列一步一步地了解如何创建和部署 GPT-3 应用程序。要使用 GPT-3 沙盒,您需要以下技术支持:

  • Python 3.7+版本
  • 一个 IDE,比如 VS 代码

通过在 IDE 中打开一个新的终端并使用以下命令,从这个存储库中克隆代码:

git clone https://github.com/Shubhamsaboo/kairos_gpt3

代码中已经包含了创建和部署 web 应用程序所需的一切。您只需要调整一些文件来为您的特定用例定制沙盒。现在,创建一个 Python 虚拟环境开始。创建虚拟环境后,您可以使用以下命令安装所需的依赖项:

pip install -r requirements.txt

现在你可以开始定制沙盒代码了。您需要查看的第一个文件是training_data.py。打开该文件,用您想要使用的训练提示替换默认提示。你可以使用 GPT-3 游乐场来试验不同的训练提示(见本书第二章中的和下面的视频中关于定制沙箱的更多信息)。

现在您已经准备好调整 API 参数(Maximum tokensExecution EngineTemperatureTop-pFrequency PenaltyStop Sequence)。我们建议在操场上为给定的训练提示试验不同的 API 参数值,以确定哪些值最适合您的用例。一旦你得到满意的结果,你就可以改变training_service.py文件中的值。

就是这样!您的基于 GPT-3 的 web 应用程序现在已经准备好了。您可以使用以下命令在本地运行它:

streamlit run gpt_app.py

您可以使用 Streamlit sharing 来部署应用程序并将其分享给更广泛的受众。跟随这个视频获得部署应用程序的完整演练。

你能用 GPT 3 号建造什么?

在 GPT-3 发布之前,大多数人与 AI 的交互仅限于某些特定的任务,比如让 Alexa 播放你最喜欢的歌曲,或者使用谷歌翻译用不同的语言进行交谈。随着 LLM 的发展,我们正面临着一个重大的范式转变。LLM 向我们展示了通过增加模型的大小,人工智能应用程序可以执行类似于人类的创造性和复杂的任务。

通过用正确的技术激发创意企业家的想象力,GPT-3 正在推动下一波创业浪潮。OpenAI 发布 API 后不久,初创公司纷纷用它来解决问题。让我们来探索这个动态的生态系统,看看一些在创意艺术、数据分析、聊天机器人、文案和开发工具等领域使用 GPT-3 作为其产品核心的顶级初创公司。

1.GPT 3 的创意应用:寓言工作室

GPT 3 最令人兴奋的功能之一是讲故事。你可以给模特一个题目,让它在零镜头的设定下写一个故事。这种可能性让作家扩展他们的想象力,创作出非凡的作品。例如,由詹妮弗·唐(Jennifer Tang)执导、奇农耶雷姆·奥丁巴(Chinonyerem Odimba)和尼娜·西格尔(Nina Segal)合作开发的话剧《AI 》描述了在 GPT 3 号的帮助下,人类和计算机之间的独特合作。

寓言工作室是一家利用该模型的创造性讲故事能力的公司。他们将尼尔·盖曼和戴夫·马卡基的儿童读物《墙里的狼》改编成了获得艾美奖的虚拟现实电影体验。由于 GPT-3 生成的对话,电影主角露西可以与人进行自然对话。该公司认为,随着该模型的不断迭代,有可能开发出一种像最好的人类作家一样熟练和有创造力的人工智能讲故事者。

2.GPT-3 的数据分析应用:可行的

available是一款反馈汇总工具,可识别调查、服务台票证、实时聊天日志和客户评论中的主题、情绪和观点。然后,它会在几秒钟内提供结果摘要。例如,如果被问及“我们的顾客在结账体验中遇到了什么困难?”可行的回答可能是:“顾客对结账流程感到失望,因为加载时间太长。他们还想在结账时编辑自己的地址,并保存多种支付方式。”

正如你对客户反馈专家的期望一样,在软件生成的每个答案旁边,都有拇指向上和拇指向下的按钮。他们在再培训中使用这种反馈。人类也是这一过程的一部分:Viable 有一个注释团队,其成员负责建立训练数据集,既用于内部模型,也用于 GPT-3 微调。他们使用微调模型的当前迭代来生成输出,然后人类对其质量进行评估。如果输出没有意义或者不准确,他们就重写它。一旦他们有了满意的输出列表,他们会将该列表反馈到训练数据集的下一次迭代中。

3.GPT 的聊天机器人应用-3:快速聊天

Emerson AI 是该公司 Quickchat 的聊天机器人角色,以其一般的世界知识、多语言支持和进行对话的能力而闻名。艾默生人工智能用于展示 GPT-3 驱动的聊天机器人的能力,并鼓励用户与 Quickchat 合作,为他们的公司实现这样的角色。Quickchat 的产品是一个通用的对话式人工智能,可以谈论任何主题。客户可以通过添加特定于其产品的额外信息来自定义聊天机器人。Quickchat 已经出现了各种各样的应用,例如自动化客户支持和实现人工智能角色来帮助用户搜索公司内部知识库。

与典型的聊天机器人服务提供商不同,Quickchat 不构建任何对话树或僵化的场景,也不需要教会聊天机器人以给定的方式回答问题。相反,客户遵循一个简单的过程:你复制粘贴包含你希望你的人工智能使用的所有信息的文本,然后点击重新训练按钮,这需要几秒钟来吸收知识,就是这样。现在,聊天机器人已经对你的数据进行了训练,可以进行测试对话了。

4.GPT-3 的营销应用:Copysmith

GPT-3 最受欢迎的应用之一是即时生成创意内容。Copysmith 就是内容生成平台的一个例子。它使用 GPT-3 生成提示,然后将其转化为电子商务业务的文本。GPT-3 似乎在营销领域大放异彩,它有助于以闪电般的速度生成、合作和推出优质内容。由于这种模式,在线中小型企业可以编写更好的行动号召和产品描述,并提升其营销游戏的水平。

5.GPT 3 的编码应用:速记

OpenAI 社区大使 Bram Adams 创建了 Stenograph y,这是一个使用 GPT-3 和 Codex 来自动化编写代码文档过程的程序。

速记一炮而红,成为 ProductHunt 上的头号产品。Adams 认为文档是人们联系团队中的其他人、未来的自己或者只是偶然发现 GitHub 上的开发项目的感兴趣的人的一种方式。速记的目标是使一个项目能被其他人理解。

要了解更多关于崛起的 GPT-3 生态系统的信息,请查看我们即将出版的奥赖利图书的第章第 4 章 (GPT-3 作为新一代创业公司的发射台)和第章第 5 章 (GPT-3 针对企业)。

结论

  • GPT-3 标志着人工智能历史上的一个重要里程碑。这也是一个更大的 LLM 趋势的一部分,它将在未来继续向前发展。提供 API 访问的革命性步骤创造了新的模型即服务业务模型。
  • GPT-3 基于通用语言的能力为构建创新产品打开了大门。它尤其擅长解决诸如文本生成、文本摘要、分类和对话等任务。
  • 有许多成功的公司很大程度上或完全建立在 GPT-3 的基础上。我们最喜欢的用例是创造性的讲故事、数据分析、聊天机器人、营销文案和开发工具。

Shubham Saboo 在全球知名公司担任过从数据科学家到人工智能传播者的多重角色。他作为人工智能传播者的工作使他建立了社区,接触到更广泛的受众,以促进新兴人工智能领域的想法和思想交流。作为他学习新事物和与社区分享知识的热情的一部分,他写关于人工智能进步及其经济影响的技术博客。他是《GPT-3:使用大型语言模型构建创新的自然语言处理产品》的合著者。

Sandra 是一名作家、福音传道者、社区建设者,也是人工智能主题的积极发言人,尤其是 GPT-3、无代码和合成媒体。她运营着一个 YouTube 频道,采访生态系统的利益相关者,讨论开创性的人工智能趋势。你可以看看她的书, GPT-3:用大型语言模型构建 NLP 产品

环境变量数据科学家指南

原文:https://web.archive.org/web/20230101103400/https://www.datacamp.com/blog/a-data-scientists-guide-to-environment-variables

你可能遇到过一个软件要求你允许修改你的PATH变量,或者另一个程序的安装说明隐晦地告诉你必须“正确设置你的LD_LIBRARY_PATH变量”。

作为一名数据科学家,在与您的计算堆栈交互时,您可能会遇到其他环境变量问题(尤其是如果您不能像我一样完全控制它的话)。这篇文章旨在揭示什么是环境变量,以及它如何在数据科学环境中使用。

什么是环境变量?

首先,让我通过深入研究PATH环境变量来解释什么是环境变量。我鼓励您在 bash 终端中执行这里的命令(做适当的修改——阅读文本以了解我在做什么!).

当您登录到您的计算机系统时,比方说,通过 SSH 登录到您的本地计算机终端或您的远程服务器,您的 bash 解释器需要知道在哪里寻找特定的程序,比如nano(文本编辑器),或者git(您的版本控制软件),或者您的 Python 可执行文件。这是由 PATH 变量控制的。它指定了可执行程序所在文件夹的路径。

按照历史惯例,命令行程序,比如nanowhichtop,都在/usr/bin目录下。(按照历史惯例,/bin文件夹是存放软件二进制文件的,这就是它们被命名为/bin的原因。)这些是与您的操作系统捆绑在一起的,因此需要特殊权限才能升级。

在您的终端中尝试一下:

$ which which
/usr/bin/which
$ which top
/usr/bin/top 

其他程序(无论什么原因)被安装到/bin中。ls就是一个例子:

$ which ls
/bin/ls 

还有一些程序可能安装在其他特殊目录中:

$ which nano
/usr/local/bin/nano 

您的 Bash 终端如何知道去哪里寻找东西呢?它使用了PATH环境变量。它看起来像这样:

$ echo $PATH
/usr/bin:/bin:/usr/local/bin 

关于PATH变量,要记住的最重要的事情是它是“冒号分隔的”。也就是说,每个目录路径由下一个使用“冒号”(:)字符分隔。bash 终端查找程序的顺序是从左到右的:

  • /usr/bin
  • /bin
  • /usr/local/bin

在我的特定计算机上,当我输入ls时,我的 bash 解释器将首先查看/usr/bin目录。它会发现ls/usr/bin中不存在,因此它会移动到下一个目录/bin。由于我的ls存在于/bin下,它将从那里执行ls程序。

你可以看到,这对于定制你的计算环境来说是非常灵活的,但是如果一个程序在你不知道的情况下修改了你的PATH变量,这也是非常令人沮丧的。

等等,你真的可以修改你的PATH变量?是的,有几种方法可以做到这一点。

如何修改PATH变量

使用 Bash 会话

第一种方式是暂时的,只发生在特定的 bash 会话中。通过将文件夹“预先挂起”到PATH变量,可以使文件夹具有比现有路径更高的优先级:

$ export PATH=/path/to/my/folder:$PATH
$ echo $PATH
/path/to/my/folder:/usr/bin:/bin:/usr/local/bin 

或者,我可以通过将它“附加”到PATH变量,使它具有比现有路径更低的优先级:

$ export PATH=$PATH:/path/to/my/folder
$ echo $PATH
/usr/bin:/bin:/usr/local/bin:/path/to/my/folder 

这是暂时的,因为我只在当前的 bash 会话中导出它。

bashrc.bash_profile文件

如果我想让我的更改更加永久,那么我会在我的.bashrc.bash_profile文件中包含。(我推荐使用.bashrc文件。)该.bashrc / .bash_profile文件位于您的主目录中(您的$HOME环境变量指定了这一点),并且是您的 bash 解释器将在第一次加载时执行的文件。它将执行里面的所有命令。这意味着,您可以通过简单地在您的.bashrc中放入:

...other stuff above...
# Make /path/to/folder have higher priority
export PATH=/path/to/folder:$PATH

# Make /path/to/other/folder have lower priority
export PATH=$PATH:/path/to/folder
...other stuff below... 

数据科学和PATH环境变量

现在,这与数据科学家有什么关系?好吧,如果你是一名数据科学家,你很可能使用 Python,并且你的 Python 解释器来自 Anaconda Python 发行版(这是一个非常棒的东西,去得到它吧!).Anaconda Python 安装程序所做的是在PATH环境变量中优先考虑/path/to/anaconda/bin文件夹。您的系统上可能安装了其他 Python 解释器(即 Apple 自带的解释器)。然而,这个PATH修改确保了每次在 Bash 终端中键入python时,都会执行 Anaconda Python 发行版附带的 Python 解释器。在我的例子中,安装了 Anaconda Python 发行版后,我的PATH看起来像这样:

$ echo $PATH
/Users/ericmjl/anaconda/bin:/usr/bin:/bin:/usr/local/bin 

更好的是,conda 环境所做的是在环境被激活时预先考虑到 conda 环境二进制文件夹的路径。例如,对于我的博客,我将它保存在一个名为lektor的环境中。因此…

$ echo $PATH
/Users/ericmjl/anaconda/bin:/usr/bin:/bin:/usr/local/bin
$ which python
/Users/ericmjl/anaconda/bin/python
$ source activate lektor
$ echo $PATH
/Users/ericmjl/anaconda/envs/lektor/bin:/Users/ericmjl/anaconda/bin:/usr/bin:/bin:/usr/local/bin
$ which python
/Users/ericmjl/anaconda/envs/lektor/bin/python 

注意 bash 终端现在如何优先选择优先级更高的lektor环境中的 Python。

如果你已经到了这一步,那么你将有希望意识到这里列出了一些重要的概念。让我们回顾一下:

  • PATH是一个存储为纯文本字符串的环境变量,bash 解释器使用它来确定在哪里可以找到可执行程序。
  • PATH是冒号分隔的;优先级较高的目录位于字符串的左侧,而优先级较低的目录位于字符串的右侧。
  • PATH可以通过在环境变量前添加或附加目录来修改。它可以通过在命令提示符下运行export命令在 bash 会话中暂时完成,也可以通过在.bashrc.bash_profile中添加一个export行在 bash 会话中永久完成。

其他感兴趣的环境变量

现在,数据科学家可能会遇到哪些其他环境变量?这些是您可能会看到并且可能必须修复的示例,尤其是在您的系统管理员外出度假(或者需要很长时间才能响应)的情况下。

对于一般用途的,你肯定想知道你的HOME文件夹在哪里——在 Linux 系统上,通常是/home/username,而在 macOS 系统上,通常是/Users/username。您可以通过以下操作来弄清楚HOME是什么:

$ echo $HOME
/Users/ericmjl 

如果你是 Python 用户,那么PYTHONPATH是一个可能有用的变量。它由 Python 解释器使用,并指定在哪里可以找到 Python 模块/包。

如果你必须处理 C++库,那么了解你的LD_LIBRARY_PATH环境变量将会非常重要。我在这方面还不够精通,不能明智地支持它,所以我会遵从这个网站关于使用LD_LIBRARY_PATH变量的最佳实践的更多信息。

如果你正在使用 Spark ,那么PYSPARK_PYTHON环境变量将会是你感兴趣的。这实际上是告诉 Spark 为其驱动程序和工作程序使用哪种 Python 如果需要,您还可以将PYSPARK_DRIVER_PYTHON设置为独立于PYSPARK_PYTHON环境变量。

破解您的环境变量

这是最有趣的地方!通过修改环境变量,你可以做一些事情。

**黑客#1:访问 PyPy。**我偶尔会关注 PyPy 的开发,但是因为 PyPy 还不是默认的 Python 解释器,并且还不具备conda install能力,所以我不得不把它放在自己的$HOME/pypy/bin目录中。为了能够访问 PyPy 解释器,我必须确保我的/path/to/pypy出现在PATH环境变量中,但是优先级比我的常规 CPython 解释器低。

黑客#2:允许访问其他语言解释器/编译器。这类似于 PyPy。我曾经尝试使用 Lua 的 JIT 解释器来使用 Torch 进行深度学习,并需要在我的.bashrc中添加一个路径。

**黑客#3:将 Python 包安装到您的主目录。在使用modules系统而不是conda环境的共享 Linux 计算系统上,您加载的modulefile可能配置有一个虚拟环境,而您没有权限修改该虚拟环境。如果需要安装 Python 包,可能要pip install --user my_pkg_name。这将把它安装到$HOME/.local/lib/python-[version]/site-packages/。在这种情况下,确保您的PYTHONPATH包含足够高优先级的$HOME/.local/lib/python-[version]/site-packages将非常重要。

**黑客 4:出错时调试。**如果出现了错误,或者您有了意外的行为——我以前遇到过的情况是在加载了我所有的 Linux 模块之后,我的 Python 解释器没有被正确地找到——那么调试的一种方法是临时将您的 PATH 环境变量设置为一些合理的“默认值”,并找到这些值,有效地“重置”您的 PATH 变量,以便您可以在调试时手动预先计划/附加。

为此,将下面一行代码放在主目录中名为.path_default的文件中:

export PATH=""  # resets PATH to an empty string.
export PATH=/usr/bin:/bin:/usr/local/bin:$PATH  # this is a sensible default; customize as needed. 

出现问题后,可以使用“source”命令重置 PATH 环境变量:

$ echo $PATH
/some/complicated/path:/more/complicated/paths:/really/complicated/paths
$ source ~/.path_default
$ echo $PATH
/usr/bin:/bin:/usr/local/bin 

注意——您也可以在 bash 会话中执行完全相同的命令;交互性可能也是有帮助的。

结论

我希望您喜欢这篇文章,并且每当您遇到这些环境变量时,它将为您提供一条前进的道路!

赢得数据科学面试

原文:https://web.archive.org/web/20221129044127/https://www.datacamp.com/blog/ace-the-data-science-interview

Kevin Huo 目前是一家对冲基金的数据科学家,之前是脸书的数据科学家,为脸书集团工作。他拥有宾夕法尼亚大学的计算机科学学位和沃顿商学院的商学学位。大学期间,他在华尔街、脸书和彭博实习。他也是关于使用 Python 中的机器学习预测点击率的 DataCamp 课程的作者。

Nick Singh 的职业生涯始于 Facebooks 增长团队的软件工程师,最近在位置分析初创公司 SafeGraph 工作。他毕业于弗吉尼亚大学,获得系统工程学位,辅修计算机科学和应用数学。大学期间,他在微软实习,并在谷歌 Nest 实验室的数据基础设施团队工作。他是《直面数据科学采访》的合著者。

Adel 是 DataCamp 的一名数据科学教育家、演讲者和布道者,他在 Data camp 发布了关于数据分析、机器学习和数据工程的各种课程和现场培训。他热衷于在整个组织和技术与社会的交叉点传播数据技能和数据素养。他拥有数据科学和商业分析理学硕士学位。在他空闲的时候,你可以发现他和他的猫路易斯在一起。

使用 IPTOP 实现组织数据流畅

原文:https://web.archive.org/web/20230101103238/https://www.datacamp.com/blog/achieving-organizational-data-fluency-with-iptop

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从为自动驾驶汽车提供动力到征服围棋比赛,组织通过数据科学使以前不可能的任务成为可能而占据了头条新闻。因此,很容易忽视隐藏的数据科学革命,即公司越来越多地将目前可能的东西广泛传播。换句话说,更多的公司正在努力实现更强的组织数据流畅度。据 DataCamp 产品研究副总裁 Ramnath Vaidyanathan 称,一个组织实现数据流畅的途径取决于五个关键支柱:基础设施、人员、工具、组织和流程(IPTOP)。在上个月的网络研讨会上,他分享了一个数据流畅性框架,任何组织都可以使用该框架来提高数据成熟度,从数据反应到数据扩展、数据渐进和数据流畅性。

为了摆脱数据反应,建立一种数据文化

数据反应型公司处于数据成熟度阶梯的最底层。这样的公司很少访问、使用和展示数据,导致了数据文化的缺失。它使用不同的传统工具来收集孤岛中的数据,并执行特定的数据流程。此外,它没有投资于数据提升战略,以在内部和数据基础架构中培养数据人才。通过构建数据文化和数据基础设施,公司可以在组织数据素养方面取得进步,从数据反应到数据扩展。为了灌输这样一种数据文化,公司应该强烈考虑追求唾手可得的成果,让利益相关者看到数据素养的价值。其中包括概念验证仪表板和客户流失建模等分析项目。该公司还可以开始开发其数据架构和数据收集流程。

使用适当的基础架构和组织模型来脱离数据扩展

与数据反应型公司不同,数据扩展型公司有某种形式的数据战略和文化。但是它的缺点仍然很明显。It 部门很少有员工拥有必要的技能和权限来自信地分析、报告和展示数据,这导致了薄弱的数据文化。此外,它缺乏集中的数据存储和团队,导致高度孤立的数据集和数据流程。

考虑到这些缺点,数据扩展公司必须提高其组织数据素养。为此,it 必须通过处理其数据基础架构和构建集中式数据存储来支持数据访问。这种数据基础设施允许将高质量的数据存储在云中,并方便所有利益相关者访问。通过适当的数据存储和访问,员工能够制定数据质量标准。例如,DataCamp 将其数据存储在基于云的集中式数据仓库 Amazon Redshift 中,并使用 Apache Airflow 管理数据管道。这标志着脱离了难以协调的孤立数据,并为单一的真相来源铺平了道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

DataCamp 集中式数据存储的简化视图

作为数据成熟的一部分,数据扩展公司还必须为数据科学家开发一个清晰的组织模型。一些公司选择开发一个以数据科学团队为特征的集中式模型,该模型充当卓越中心,处理来自财务、营销和工程等各种职能部门的请求。其他人决定采用分散模型,数据科学家嵌入到功能中,专门处理该功能的数据需求。公司应该采用最适合其数据和业务需求的模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从使用数据工具和流程的数据渐进过渡

该公司在数据流畅道路上的下一个里程碑是数据进步的状态。在 data progressive 公司中,每个团队至少有一名 data fluent 员工可以分析、报告和展示他们的数据。然而,由于数据基础设施日趋成熟,在数据质量和可发现性方面仍有改进的余地。此外,尽管该公司的员工具备一定程度的数据素养,但其数据几乎只用于报告,因此未得到充分利用。由于难以获得数据工具和数据流程,数据缺乏民主化,这进一步抑制了数据的价值。

为了从数据渐进状态推进到数据流畅状态,组织应考虑根据 IPTOP 数据流畅框架同时开发其数据基础架构、人员、工具、组织和流程。

为了过渡到数据流畅,公司可以通过为员工开发和投资适当的技能提升策略来强化其数据文化。这包括持续的数据教育,以迎合不同的数据角色和公司的业务目标。例如,& T 公司的在 10 年内投资了 14 万美元来提升员工的技能。通过激励数据驱动的行为和奖励积极推动公司数据文化的数据传播者,公司将从更强大的数据文化中受益。

公司还可以构建内部数据产品,将数据流程作为其数据素养计划的一部分。这些数据产品可用于提高数据质量标准和监控业务目标。例如,DataCamp 有内部框架,允许涉众用最少的代码创建业务指标的可视化演示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用内部框架轻松开发 DataCamp 仪表盘

随着公司在组织数据素养方面的进步,它往往会转向混合模式,在这种模式下,数据科学家不仅属于集中式数据团队,还属于职能团队。这使得数据科学团队能够构建和共享符合职能业务目标的数据工具。

实现数据流畅要求组织将数据作为其流程不可或缺的一部分。这种过程减少了从数据中提取价值的摩擦,并使组织内的数据民主化。例如, AirBnb 的数据质量计划在整个公司范围内定义并强制执行数据集的质量,这反过来建立了利益相关者对数据的信任,并加强了数据文化。网飞通过为不同的目标人物角色定制笔记本模板,使利益相关者能够无缝地创建高效的笔记本

使用 IPTOP 框架使数据变得流畅

最后,数据流畅性是一个公司理想的数据成熟度状态。在数据流畅的公司中,每个员工都有能力访问和理解他们工作所需的数据。可靠的数据基础设施和工具使他们能够无缝地做出数据驱动的决策。更好的是,该公司的数据流程和组织模型支持跨部门协作高效扩展。

显然,一个组织实现数据流畅的途径不是线性的。这需要明确的数据策略和强大的数据素养框架。下图总结了组织使用 IPTOP 框架将其数据读写能力从数据反应式迁移到数据流畅式时应采取的步骤。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有关扩展数据成熟度的更多信息,敬请关注我们的网络研讨会

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

艾伦·图灵:生活与遗产

原文:https://web.archive.org/web/20221129054701/https://www.datacamp.com/blog/alan-turing-a-life-and-a-legacy

你可能会通过各种方式听到艾伦·图灵这个名字:你可能看过著名的本尼迪克特·康伯巴奇的电影《模仿游戏》。你可能会在曼彻斯特闲逛,看到他的雕像坐在一个叫做“同性恋村”的区域外的长椅上。有一天你可能最终会看到,甚至使用一张 50 英镑的钞票,如果你看一边,你会看到那个人的脸。但是既然你在 DataCamp 上,那么很有可能你第一次听到他的名字是在开始了解人工智能和机器学习的时候。尽管当今时代人们都在谈论人工智能以及它将如何影响未来,但人们很容易忘记,它是在第二次世界大战期间由一个人发明的,他的大脑为英国赢得了智能战争,并加速了随后的和平。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第一章:智慧的战争

加密的工作原理是根据一种称为密码的系统,用其他字母替换信息中的字母。一个非常基本的密码可能是,字母表中的每个字母都被前面的两个字母替换,因此“hello”被拼写为“jgnnq”。第二次世界大战中的密码破译者可以很容易地破解这个密码,所以需要更复杂的密码。而被德国军方广泛使用的恩尼格玛设备,提供了这种复杂性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在最基本的层面上,一个人打出一个字母,键盘上相应的字母就会亮起。哪一个字母可以点亮是由机器中转子和插板的排列决定的,这种排列就是恩尼格玛的密码。这个设计意味着有 159 万亿种方法可以写出信息(这个数字既不是编造的也不是夸大的)。更复杂的是,Enigma 的密码每天都在变化,写在每个操作员随身携带的一本书上,这样他们就可以调整他们设备的设置。密码本只为未来一个月准备,可能会被扔进水中而遭到破坏,所以即使盟军设法通过武力获得一本,也需要一个更持久的解决方案。

图灵和他在英国密码破译中心布莱奇利公园的团队需要一种方法来了解那天恩尼格玛机器是如何设置的,并且要快,这样情报才能及时传递。因此,他们开发了一种叫做 Bombe 的机器,这种机器功能齐全时,可以在 20 分钟内破解恩尼格玛密码。基于图灵早期在机器和数学方面的工作,庞贝通过排除和模仿恩尼格玛系统的过程来工作。炸弹可以确认成对的字母是否相互对应,从而向操作员显示当天转子和塞子的安装方式。他们是如何决定搭配哪一对的?

Enigma 最大的缺陷是,一封信永远不会被写成它自己,所以这意味着德语中的一个单词可以被比作加密信息中的一组字母。如果没有一个字母匹配,这是一个可能的组合。图灵的团队会自己预测这些单词:当德国人发送每日天气报告时,他们会寻找德语中的“天气”一词。当皇家海军布雷时,与布莱切利保持联系,他们会寻找“地雷”这个词。出于显而易见的原因,他们会寻找的另一组单词是“希特勒万岁”。

因为一次只有一个插头可以插入插座,炸弹可以识别并消除不可能的组合,直到只剩下符合逻辑的设置。图灵的团队,以及后来整个布莱奇利公园的团队,能够将加密的信息输入到捕获的 enigma 设备中,校准正确的方法,并以简单的德语获得信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

破解“谜”是盟军的一次重大胜利,他们甚至没有意识到他们已经赢得了军事情报圈之外的胜利(德国人也是,直到 1974 年)。从挪威到北非再到诺曼底,它几乎被用于每一场军事战役。然而破解“谜”带来的最重要的不同是能够知道德国潜艇的位置。漫游在北大西洋,这些机械海怪是每个在英国和美国之间运行的水手的恐惧,这是欧洲唯一的盟国和世界工业强国之间的重要补给线。丘吉尔说这是他担任首相期间唯一害怕的事情。发现他们的位置使盟军护航舰队能够避开威胁,防止英国挨饿——并使盟军海军接近杀戮。

故事的这一部分倾向于以历史学家的估计来结束,破译英格玛密码使战争缩短了两年,拯救了 1400 万人的生命。这是真的,但还有更多的东西需要说:那些认为德国可以赢得这场战争的人经常这样做,因为他们在战争后期开发的技术可以让他们占上风,如果不是因为战争在部署之前就结束了。大多数历史学家一致认为,至少这会使战争更具破坏性,所以底线是:1400 万人的生命是一个非常保守的估计。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源: TS on Unsplash ##第二章:机器的思维图灵的故事可能会随着二战而结束,由于官方保密法,公众可能要到很久以后才知道。他继续在布莱奇利公园工作了两年,直到他觉得保密文化妨碍了他的工作,随后他转入了平民生活。1936 年,图灵已经奠定了后来被称为图灵机的基础,这种机器能够通过算法解决任何数学问题,图灵在此期间致力于计算机的最早迭代,并以此为基础。1950 年,他发表了可能是他最有影响力的文章,一篇以“机器能思考吗?”这个问题开始的哲学论文他的理论是,通过训练、教育和生活经验,人脑变成了一台“通用机器”,因此应该有可能建造一台能够考虑先前信息并进行类似学习的机器。这就是图灵被称为人工智能之父的原因。图灵提出了一个被称为模仿游戏的测试来证实大脑是否已经被制造出来。基于一个早期的维多利亚客厅游戏,它将涉及一个人类法官与一台机器进行对话,尽管不知道这是事实。如果通过语音模式、词汇选择等,机器可以欺骗法官,让他们认为他们正在与人类对话,那么机器就通过了图灵测试。图灵的理论是,到 2000 年,一台机器可以轻松通过这项测试。图灵的智慧很可能意味着这个预言已经实现了。但是一年后,图灵的故事进入了一个更加黑暗的阶段。第三章:背叛艾伦·图灵是一名同性恋者,出生在一个仇视同性恋的英格兰。在维多利亚时代,将同性恋行为定为犯罪的法律已经通过,并在半个世纪后当人们发现图灵与一个名叫阿诺德·默里的男子有关系时,这些法律仍然有效并得到了应用。图灵在国王学院期间公开了他的同性恋倾向,被描述为在一个不宽容的社会中“接受的绿洲”。他在布莱奇利公园期间一直保守着这个秘密,除了在 1941 年他向他的未婚妻和同事琼·克拉克透露了这个秘密,决定他不能继续订婚。他的前同事 I.J. Good 教授后来评论说,“安全人员不知道可能是件好事,因为他可能会被解雇,我们可能会输掉这场战争”。图灵在监狱和化学阉割之间做出选择,他选择了后者,这样他就可以继续他的研究工作。据报道,服用旨在使他阳痿的药物,加上剥夺他的安全许可和出国旅行的能力,导致了抑郁症,最终导致他吃了一个含氰化物的苹果自杀。然而,想法是不可能被扼杀的。随着英国过渡到一个更加宽容的社会,图灵成为 LGBTQ+世界的偶像。2009 年,英国首相托尼·布莱尔代表英国政府就图灵受到的待遇发表了道歉,四年后,伊丽莎白女王发布了皇家赦免令。2015 年引入了一系列法律,赦免了 49,000 名根据该法案定罪的男子,清除了他们的犯罪记录。这些被非正式地称为艾伦·图灵定律。##第四章:数据科学和 LGBTQ+社区想象一下,如果图灵能够看到现在的世界,会发生什么并不困难。生于 109 年前,如果他活得长久而快乐,他仍然会和我们在一起。他会既高兴又失望。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 DataCamp,我们已经写了很多关于人工智能和数据科学整体的伦理的文章,共同的思路是,它只能与背后的人和数据一样道德。随着数据科学越来越多地影响我们的日常生活,LGBTQ+社区也是如此,而且有一些数据科学被错误使用的案例会真正震惊图灵先生。有一个案例,谷歌的情感分析器给短语“我是同性恋者”分配负面情感。有一个的例子,一场宣传活动针对被识别为 LGBTQ+(通过他们的脸书数据)的个人,用广告说服他们不要在 2016 年美国总统选举中投票。还有一个异常非道德的案例,一个人工智能据称可以通过面部分析识别同性恋个体。

然而,当人们把好的加到坏的上时,有更多的理由相信图灵先生会对他所看到的感到高兴。有一些应用程序的例子,如 Geosure 使用数据来保护 LGBTQ+旅行者,以及约会应用程序使用人工智能来验证个人资料和保护用户,其中 LGBTQ+个人占了很大一部分。更广泛地说,数据已经被用来打击反 LGBTQ+的误解,数据科学大体上是一个进步的领域,欢迎各种背景的人,包括性取向。

最后的话

艾伦·图灵是一个才华横溢的人,他在保护未来的自由世界方面发挥了重要作用,并为主导当今头条新闻的技术铺平了道路。他是一个走在时代前列的人,但不幸的是,他却因此受到了偏见制度的惩罚。这个世界被剥夺了一份礼物——但并不完全是。事实上,我写,你读这个曾经是图灵机证明了这一点。因此,为了纪念一位伟人,让我们确保我们的技术成就与我们的道德成就不相上下,甚至有所超越。

其他详细信息

如果我们没有掩盖某些细节,这篇文章可能会比它长得多,尽管如此,对于好奇的读者来说还是值得一提的。

Git 是什么?Git 完全指南

原文:https://web.archive.org/web/20230101103007/https://www.datacamp.com/blog/all-about-git

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你读过任何关于编码、编程或软件开发的东西,你一定听说过 Git。

这个方便(免费)的工具是世界上最流行的版本控制系统。它非常受欢迎,超过 90%的专业开发人员都在使用它,更不用说其他领域的专业人员了。

在许多方面,Git 实际上是版本控制的同义词。但是什么是版本控制,为什么它如此重要?

加入我们,深入了解吉特百货。在这里,我们仔细看看 Git 的一切,包括它是什么,谁使用它,以及它的历史。

Git 是什么?

Git 是一个分布式版本控制系统(dVCS)。顾名思义,版本控制就是控制和跟踪给定项目的不同版本。

什么是版本控制系统(VCS)?

VCS 跟踪并记录对任何文件(或一组文件)的更改,允许您稍后或根据需要调用特定的迭代。VCS 有时被称为源代码管理(SCM)或修订控制系统(RCS)。

版本控制允许许多团队成员在一个项目上协同工作,即使他们不在同一个房间甚至不在同一个国家。

例如,假设你是一个歌曲作者。你正忙着在家创作一首自己写的新歌,但你对它并不满意。所以你决定与另外两位词曲作者合作来解决需要改进的地方。

你和另外两位词曲作者开始调整歌词和乐谱,你们每个人都独立工作。当其他音乐家给你发来他们版本的歌曲时,你喜欢他们做的一些改动,但不是全部。

现在想象一下,你可以看到歌曲每个版本中的每个变化,你可以测试这些变化,看看它们听起来怎么样,然后跨版本同步你喜欢的变化。

这就是 Git 允许用户做的事情。个人可以在本地(在他们自己的计算机上)处理一个项目,保存任何有效的更改,然后将这些更改同步到 Git 存储库中,这样其他人就可以看到他们的新版本。

Git 通常被认为是一种软件开发工具,的确如此,但是它可以用于任何类型的文件的版本控制(版本控制),无论是代码行、新网站的设计布局还是一首歌曲。

版本控制的好处

除了作为协作工作的有用工具之外,版本控制还有其他一些好处:

  • 归因改变——每一个改变都可以归因于一个团队成员。

  • 深入跟踪使恢复变得容易——因为每一个变化都被跟踪,即使是非常小的变化,如果需要,恢复到早期版本是很容易的。可以想象,这是软件开发中非常需要的特性。

  • 更好的组织和沟通——提交信息,你发送给团队的详细说明你做出改变的原因的信息,促进团队成员之间的良好沟通。如果你忘记了过去所做的改变,它们也会使事情变得容易得多!

  • 并发性——在软件项目中,开发人员对源代码做了大量的修改。通常,有许多开发人员从事不同的工作。一个人可能正在调整现有的代码以获得更好的安全性,而另一个人正在开发新的特性。Git 使这些开发人员能够并发工作,同时有助于防止每个开发人员的更改之间的任何冲突。

  • 分支和合并——团队成员可以创建单独的分支来处理项目,然后将他们的变更与主分支合并。分支是临时的,可以在合并后删除。

Git 是唯一的版本控制系统吗?

不,Git 不是唯一的 VCS,但它是最流行的,被认为是事实上的标准工具。其他流行的版本控制系统包括 Fossil、Mercurial 和 Subversion。

系统之间有细微的差异,包括它们如何处理核心功能,如分支和合并,但总的要点是相同的。然而,系统之间的主要区别在于它们是集中式的还是分布式的。

集中式和分布式版本控制系统

集中式和分布式系统,如 Git,都执行相同的功能。

两者之间的关键区别在于,集中式系统有一个中央服务器,团队成员可以在那里发布他们工作的最新版本。你可以把它想象成一个人人共享的单一中心项目。

使用分布式 VCS,团队成员在他们自己的设备上拥有整个项目历史的本地副本(克隆),因此他们不需要在线进行更改或处理他们的代码。他们从在线存储库中获取克隆,而不是集中式服务器。

当开发人员使用 Git 时,每个团队成员的项目克隆就是一个存储库,可以包含自项目开始以来的所有变更。

Git 的历史

Git 是由芬兰软件工程师 Linus Torvalds 在 2005 年开发的,他也被认为开发了 Linux 操作系统内核。

Git 是为了解决燃眉之急而创建的。在发明之前,全世界的 Linux 开发者都在使用专有软件 BitKeeper,它本身就是一个 dVCS。

因为这个软件是公司所有的,所以它在 Linux 开发者中引起了一些争论,他们中的大多数都拥护开源精神。

作为免费使用该软件的回报,BitKeeper 背后的公司 BitMover 对 Linux 社区进行了限制。根据 Linux 杂志的报道,其中一个限制是他们不能参与竞争性的版本控制项目。

一名 Linux 开发人员开始对 BitKeeper 进行逆向工程,试图创建一个开源产品,这或许是不可避免的。信守承诺,BitMover 停止向 Linux 内核提供服务,分布式开发系统陷入了不确定性。

为了解决这个难题,托瓦尔兹自 1991 年以来第一次停止了 Linux 上的工作,并创建了 Git,在开始开发后仅几个月就发布了一个稳定的版本。

有趣的是,在 Linux 内核首次采用 BitKeeper 之前,开发人员独立地向 Torvalds 发送他们的补丁(更改),而他在需要时集成这些补丁。2016 年,Git 发布 11 年后,BitKeeper 成为开源。

Git 是如何得名的?

2005 年 Linus Torvalds 在 Git 上第一次提交代码时,他添加了一个 read-me 文件,该文件提供了一些关于程序为什么被称为 Git 的见解。以下是该文件的一部分:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

除非你喜欢更干净的全球信息跟踪器,否则 Git 的名字是对其功能的半开玩笑的引用,或者实际上,是对其缺乏功能的一种假设。

VCS 的历史

版本控制系统存在的时间比 Git 甚至 BitKeeper 都要长。让我们快速浏览一下历史时间表:

  • 1972 年的今天,SCCS,第一台 VCS,由贝尔实验室制造,这与今天的系统几乎没有相似之处。

  • 1982 年的今天,修正控制系统(RCS)被濮培德大学的一名计算机科学家开发出来。

  • 1986 年的今天,并行版本系统被开发出来。这是第一个提供可供多个用户访问的集中存储库的 VCS。

  • 1995 年的今天,至今仍受欢迎的 VCS 被开发出来。

  • 2000 年的今天,一个被称为“颠覆”(有时被称为“SVN”)的更复杂的系统出现了。BitKeeper 也是如此,它是第一批 dVSCs 之一,也是普及分布式系统的一个。

  • 2005 年的今天,Git 被发明并迅速成为全世界开发者的首选。

Git 和 GitHub,版本控制和存储库

Git 和 GitHub 是互补的技术。Git 是一个版本控制系统,而 GitHub 是一个基于云的托管服务,帮助团队管理他们的存储库。

GitHub 于 2008 年设计,旨在使 Git 的协作编码更容易,这是软件即服务(SaaS)平台所擅长的,最终吸引了全球数百万用户。

除了提供 Git 的标准版本控制特性,GitHub 还有自己的特性,比如 bug 跟踪、任务管理工具和持续集成(CI)。GitHub 运行在免费增值模式上;用户可以免费使用许多功能,但必须付费订阅才能解锁所有功能。GitHub 从 2018 年开始归微软所有。

GitHub 不是唯一的存储库托管服务,但有数百万用户和数亿项目依赖于该平台,它无疑是世界上最受欢迎的。你可以在 GitHub 上找到很多大牌公司,包括 DataCamp

竞争服务包括 GitLab 和 Bitbucket,Git lab 是为 Git 设计的完全免费的开源服务,bit bucket 同时支持 Git 和 Mercurial 代码管理。

我们之前提到过 Git 和版本控制不仅仅用于编码和软件开发,GitHub 也是如此,但后者并不适合非编码项目。

Git 不仅仅是一个软件开发工具

Git 可以用于任何版本控制很重要的合作项目,例如,大型用户手册的编写,甚至是教堂音乐的创作(最后一个是一个真实的项目,你可以在 GitHub 上查看)

虽然主要与软件开发的具体编码相关,但是相关领域的人们经常使用 Git。数据科学家和分析师就是一个很好的例子;这些专业人员需要一种方法来管理支持他们工作的代码,而 Git 正好提供了这种方法。

在 DataCamp,我们教授人们处理数据所需的工具和技术,包括 Git。我们的一系列沉浸式和引人入胜的 Git 课程可以在这里找到。

为什么 Git 这么受欢迎?

Git 受欢迎有很多原因,尤其是因为它是免费和开源的。

  • 速度——Git 很快,尤其是当我们考虑到开发人员正在分支和合并整个存储库的时候。因为团队中的每个人都有他们自己的本地副本,所以没有必要等待每一个微小的变化都被推送到服务器上。

  • 复杂的变更跟踪——Git 提供了令人难以置信的详细版本控制,即使是最小的变更也会被提交,此外,开发人员可以留下一个带时间戳的注释,解释他们为什么做出了每个变更。

  • 离线工作——使用整个存储库的本地副本,用户不需要在线,直到他们准备好提交他们的更改。

  • 无处不在——如今,Git 被广泛使用,它的无处不在进一步推动了它的流行。超过 90%的开发人员使用 Git,如果一个公司知道所有的开发人员都熟悉 Git,它就没有理由使用另一种工具。

  • 协作——Git 支持协作工作,它使得合并同一个项目的不同版本变得简单,同时最小化了潜在的冲突。随着 GitHub 的加入,开发人员有了一个灵活的协作编码生态系统来支持他们的工作。

想从 Git 开始吗?

Git 是世界上最流行的分布式 VCS,它彻底改变了软件开发人员和相关领域的人员管理项目的方式。

从谷歌到网飞以及其他众多公司都将 Git 作为其技术堆栈的标准部分。Git 无处不在,以至于对于任何软件或代码相关的项目,你都可以假设 Git 是过程的一部分。

这也是数据分析师和科学家等与数据打交道的人的必备技能。毕竟,我们需要一种对代码进行版本控制的方法,来帮助我们从数据中获取见解,并构建有助于我们工作的软件工具。

Git 是事实上的 VCS 标准,如果你想从事 it 或任何相关领域的工作,这是一项必备技能。尽管 Git 并不以简单著称,但随着您在 Gitverse 中的进步,掌握基础知识并以您的知识为基础是很容易的。

DataCamp 可以提供帮助。我们的Git 简介课程旨在以有趣和吸引人的方式教你 Git 的基本知识。

要了解全球 900 多万学习者热爱 DataCamp 的原因,请立即注册您的第一门 Git 课程!

什么是 Power BI?Power BI 的完整指南

原文:https://web.archive.org/web/20221129044300/https://www.datacamp.com/blog/all-about-power-bi

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2021 年,全球数据圈拥有大约 80z 字节的数据。如果这种趋势继续下去,到 2025 年,这个数字将会翻一番。虽然这些数字令人印象深刻(并且有点吓人),但是没有上下文,原始数据是没有用的。

Power BI 对原始数据进行分类和汇总,并将其转化为可操作的情报。

微软的 Power Business Intelligence and visualization tool(Power BI)是一个基于云的应用程序、软件和连接器集合,它将原始业务数据聚合、上下文化并解释到一个交互式可视化仪表板中。

超过 250,000 家组织,包括 97%的财富 500 强公司,依靠 Power BI 将他们的原始数据转换为易于理解的可视化和数字报告,这些报告对于做出明智、实用的业务决策至关重要,原因很容易理解。

Power BI 强大而强大(多达 1 亿行数据),它将原始数据转化为优雅且易于理解的视觉效果,使组织能够做出明智的决策,迎接未来。

电力 BI 简史

像许多伟大的发明一样,Power BI 开始时是一个绝密项目,有一个很酷的代号!它始于 2006 年,是微软 SQL Server Reporting Services 团队的 Thierry D’hers 和 Amir Netz 的创意。当时,这是一个机密项目,代号为“双子座”

Gemini 项目利用了微软的 SQL Server Analysis Services (SSAS)的强大功能,并将其转化为内存存储引擎。

Gemini 于 2009 年以“PowerPivot”的名字首次亮相,这是一个免费的 Excel 扩展。然而,直到微软 PowerPivot 专家 Rob Collie 在博客上向 Excel 用户介绍它之前,它或多或少一直没有被数据科学界发现。

然后,该公司将数据浏览器(后来更名为“Power Query”)添加到其 Excel 插件菜单中。不幸的是,尽管 PowerPivot 和 Power Query 可以被广泛访问并广受欢迎,但通过电子邮件发送大量 Excel 文件被证明是一个问题。此外,无法安排数据刷新。

2015 年,微软将这两个插件配对,并将商业智能工具重命名为“Power BI”。甚至在该应用程序上架之前,它就已经获得了足够的兴奋,超过 50 万独立用户注册测试并帮助设计这款革命性的新产品。然后,仅仅几个月后,Power BI 就上市了。

他们说,剩下的就是历史了。但这也是未来。

该项目获得了多项人民选择奖和 2018 年 PUG 数据可视化射击奖。最终,如果没有 Power BI 提供的洞察力,绝大多数商业领袖都不会梦想做出战略决策。

什么是 Power BI?

最高级别的 Power BI 使组织能够从众多基于云的(SaaS)系统中提取原始数据,并使用强大、交互式且易于使用的用户界面(UI)将其转换为可操作的数据。此外,该平台隔离了为个人用户所需的指标提供宝贵见解的要素。

顶级功能

Power BI 功能丰富且灵活。它最受欢迎的功能包括:

  • 直接连接到 Excel,并可与其他微软产品轻松集成
  • 能够压缩数据并从大型数据集中提取洞察力–多达 1 亿行,而 Excel 仅超过 100 万行。
  • 使用 R 和 Python 的可定制性
  • 使用户能够构建交互式地图
  • 使用 Power Query 导入、过滤和翻译数据
  • 所有版本的移动应用程序的可用性
  • 使用户能够跨多个平台和报告(专业版和高级版)重复使用数据集
  • 适应性强且友好的用户体验。通过其活跃和动态的在线社区,微软听取用户的意见,并根据每月更新调整 Power BI。

为什么功率 BI 是不同的

商业领袖有多种商业智能工具可供选择,那么为什么他们中 97%的人使用 Power BI ?当然,Power BI 提供报告。事实上,只需几次点击,任何用户都可以生成动态报告。但是,它还具有数据发现、数据转换以及可能最重要的数据建模功能。

简单的用户界面使用户能够通过集中的移动或桌面仪表板创建和可视化报告,并且因为 Power BI 是 SaaS,所以没有硬件成本或持续升级成本。Power BI 具有可扩展性和可移植性,其升级是自动的。

最后,对于寻求将机器学习工具集成到工作场所的企业来说,它让用户可以访问一个预先训练但可定制的机器学习模型目录。这些机器学习算法产生实时结果和可操作的见解。

Power BI 与 Excel 相比如何

众所周知,Power BI 的前身是一个 Excel 插件,但今天它已经独立存在了。那些不熟悉 Power BI 的人可能想知道为什么微软提供了两个看似竞争的数据分析应用程序。尽管如此,当你稍微深入一点,很明显这两个应用程序是非常不同的。下面是优势和劣势的比较:

超越优势
  • 快速计算–在进行计算、操作和创建公式时,您无法超越 Excel 的速度和易用性。
  • 多种用途–Excel 不仅仅是一个数据科学应用程序。组织在会计、人力资源、运营管理,当然还有业务分析中使用 Excel。Excel 任务包括数据输入和从网站抓取数据,而无需切换应用程序。
  • 各种各样的模板–虽然该应用程序是完全可定制的,但有几个包含的模板,其中许多不需要以前的 Excel 培训。
  • 非常适合创建表格报告
  • 高级计算表–Excel 允许用户创建复杂的个性化计算表。
Excel 弱点
  • 协作很难——要在 Excel 中进行协作,需要将文件保存在云中或手动共享。
  • 数据限制——Excel 的数据限制为 100 万行。
Power BI 优势
  • 各种各样的可视化——我们不能在不谈论其交互式可视化的情况下谈论 Power BI 的优势。Power BI 的可视化是交互式的、直观的、华丽的!它具有拖放功能,即使相对较新的用户也可以修改报告的外观。用户还可以应用过滤器,并直接与应用程序进行交互。管理员可以从 Microsoft Marketplace 购买和下载自定义视觉效果。选项包括地图、图表、图形、KPI、R 脚本可视化等。
  • 强大的协作–Power BI 允许用户进行实时协作,借助 Power BI 服务,多人可以同时处理同一文件。
  • 连接性——Power BI 连接到多个数据源,包括 Excel、SQL Server 数据库、Google Analytics、社交媒体分析、Azure 源、基于云的源等。Power BI 还可以访问多个大数据源。
  • Excel 集成–用户可以在 Excel 中上传和查看电力 BI 数据;这在使用表格报告时特别有用。
  • 前所未有的连接性–Power BI 基于云,可以从几乎任何系统或应用程序中访问和提取数据。
  • 个人网关–个人网关允许用户对防火墙外的内部数据进行身份验证。然后,基于云的 Power BI UI 可以使用这些数据。
  • 强大的数据容量–Power BI 可以处理 1 亿行数据。
  • 智能、自动更新–Power BI 在考虑真实用户体验后自动更新。
  • Power BI Embedded–Power BI Embedded 允许开发人员将 Power BI 报告嵌入或添加到应用和网站中。
  • 关键绩效指标和仪表板的理想选择
电源 BI 弱点
  • 不是为复杂的表设计的 Power BI 在处理表之间的多个链接时有困难。用户需要确保额外的数据模型有唯一的字段,否则 Power BI 可能会混淆这些表。
  • 庞大的用户界面——Power BI 的用户界面似乎充斥着图标和选项,有时会遮挡仪表板和报告的视图。
  • 难以配置视觉效果–微软在 Power BI 中包含了多种视觉效果。然而,虽然用户很少需要配置视觉效果,但定制选项是有限的。
  • Power BI 的 DAX 公式有时被称为刚性的——Power BI 是围绕 DAX 作为一种表达式语言而构建的。DAX 可能具有挑战性。串联两个以上的元素需要嵌套语句。
  • 复杂–Power BI 本身是一个直观、相对简单的工具,可用于导入数据和创建报告。然而,多个相互关联的工具增加了它的复杂性。
  • 闭源–与所有 Microsoft Office 套件产品一样,Power BI 是闭源的。

虽然 Power BI 和 Excel 都是数据库,但它们是为集成而设计的。大多数组织使用 Excel 生成数据要求有限的表格报告,使用 Power BI 进行数据分析和可视化。

Power BI 许可证有哪三种类型?

Power BI 提供桌面版以及专业版和高级版。

Power BI 台式机–免费版

  • 最适合个人
  • 支持所有开发功能
  • 无法共享云上的内容
  • 在台式机或笔记本电脑(本地计算机)上生成报告
  • 与多个数据源集成
  • 1GB 云存储用于报告和数据
  • 导出到 Excel、PowerPoint 或。可移植文档格式文件的扩展名(portable document format 的缩写)
  • 使用 Python 可视化数据
  • 用 R 构建可视化

Power BI Pro

Power BI Pro 每个用户每月 9.99 美元,提供 Power BI 桌面版的所有功能,另外还有:

  • 能够与其他专业用户共享数据和报告
  • 1GB 数据集限制
  • 每位用户高达 10GB 的存储
  • 可以将报告导出到 SharePoint 站点或网站
  • 每天最多 8 次计划刷新

Power BI 高级版

Power BI Premium 有两个选项:个人和企业。个人 Power BI 高级许可证的费用为每个用户每月 20 美元。这两种订阅选项都提供 Power BI Pro 的所有功能,并增加了存储、共享和计划刷新选项。大型组织可能会选择 Power BI Premium enterprise 订阅,起价为每个组织每月 4,995 美元。但是,这两种订阅选项之间存在一些差异。

超级商务智能个人版
  • 10GB 数据集限制
  • 100TB 存储限制
  • 每天最多 48 次计划刷新
Power BI 高级企业
  • 组织的每个授权成员都可以共享和使用
  • 100TB 存储和八个虚拟内核
  • 免费用户可以查看和分析报告,但无需输入

谁用 Power BI?

有了适合大多数个人和企业需求的版本,任何人都是潜在的超级 BI 用户。因此,所有业务部门都使用 Power BI。其客户包括雀巢、Adobe、理光、惠普、拜耳制药、卡内基梅隆大学、BP 等巨头,以及数千家其他大型全球组织。

虽然任何授权用户都可以为他们的部门创建有价值的报告,但 Power BI 最适合那些 Excel 不足以满足其需求的超级用户。此外,Power BI 是闭源的,这意味着许多数据科学家发现它有局限性。但是,对于数据分析师来说,这是一个非常好的工具。

怎样才能学习 Power BI?

Power BI 是强大而复杂的,具有开箱即用的功能,但有一个学习曲线。不需要编程经验。不过 Excel 流畅度和数据分析经验是有帮助的。

DataCamp 的课程包括一系列 Power BI 课程,在短短几周内,就可以将新手变成专家。

电源 BI 简介

Power BI 简介是一个免费的课程,向初学者介绍 Power BI,教他们格式化,甚至制作地图。

采用 Power BI 的数据可视化

Power BI 数据可视化面向那些熟悉 Power BI 基础知识并希望更上一层楼的人。在课程中,用户学习创建视觉上引人注目且易于理解的报告。

用 DAX 创建计算

在 DataCamp Power BI 系列课程的第三部分中,用户将学习使用微软的公式语言 DAX 进行计算。

Power BI 中的数据建模

使用来自美国人口普查局的实际生活数据,Power BI 中的数据建模教导中间用户清理、整形和加载数据建模技术。本课程还探讨了超级查询和超级 BI 之间的差异。它还讨论了最佳实践,并教导用户使用 DAX 定制他们的数据模型。

Power BI 中的数据分析

Power BI 中的数据分析将用户的数据流畅度提升到了一个新的水平。用户学习使用 Power BI 的探索性数据分析(EDA)来增强报告,以识别统计异常值和缺失数据,并应用截断技术来填充缺失和错误的数据。

然后,用户将了解分类数据和连续数据之间的关系,分析时间序列,可视化数据,并发现趋势。作为最后一步,该课程将帮助用户应用 Power BI 的分解树和关键影响因素来确定对目标变量最有影响的变量。

权力职业 BI

由于 Power BI 几乎是通用的,它在任何数据驱动的角色中都很有用。然而,Power BI 开发人员的需求很大,估计工资在 10 万美元到 15 万美元之间。这里仅举几个例子:

  • Logic 20/20 需要一名数据专业人士作为 Power BI 开发人员。
  • 或者,您可以从源头着手,帮助 Power BI 做得更好。微软正在招聘一名高级商务智能开发人员和商业分析专家

想从事数据方面的职业?在 Microsoft Power BI 职业跟踪中发现我们的数据分析师,您将立即为工作做好准备。

结论

优质的数据是世界上最宝贵的资源,就像其他资源一样,它需要对如何从原材料中提取宝石有深刻的理解。一个熟练的 Power BI 开发人员挖掘、收获和打磨企业数据驱动智能所依赖的珠宝。

Power BI 在企业、政府和非营利组织中无处不在,这意味着它在各种行业中都是一项有价值的技能。了解更多关于商务智能技能如何在当前职业或数据专业求职中助你一臂之力。

Datacamp 提供了一条经济实惠的途径来增强 BI 专业知识。我们为所有技能级别提供课程,包括简介、数据可视化、DAX(数据分析师表达式)、数据建模和数据分析。

微软 Edge Chromium、Safari Mac、Chrome desktop 和 Firefox 都支持 Power BI。

Power BI 应用程序可从 Google Play、App Store 和 Windows Store 免费下载。根据您组织的需求,还有其他应用内购买

企业用户需要购买超级商务智能许可证。然后,他们只需要一个网络浏览器和凭证。

44。英语是默认语言,但用户只需在浏览器中更改语言即可。Power BI desktop 没有阿拉伯语或希伯来语版本,因为它不支持从右向左阅读的语言。

Power BI Pro 是单独授权的,用户只能与其他 Pro 用户共享。Power BI Premium 是一个组织订阅,Premium 版本的内容可以与任何人共享,无论是否获得许可。

Power BI Desktop 是一款免费下载软件,提供了数量惊人的功能。Power BI Pro 不是免费的,但每个用户每月 9.99 美元起,非常实惠。

Power BI Pro 费用 9.99 美元。Power BI Premium 每个个人用户每月的许可费用为 20 美元,一个组织的许可费用为 4,995 美元起。

Power BI Embedded 允许用户将报告嵌入第三方应用,如仪表盘、网站、web 应用、磁贴和报告。大多数用户是软件开发人员。

Power BI 台式机、Power BI 服务和 Power BI 手机

R 是什么?-统计计算发电站

原文:https://web.archive.org/web/20230101103007/https://www.datacamp.com/blog/all-about-r

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简介

什么是 R?

R 是一种流行的编程语言吗?

R 是什么时候创造的?

R 和 S 以及方案

R 多年来是如何发展的

谁使用 R?

R 基础和高级 R

四舍五入 R

R 常见问题

介绍

r 是一个统计编程工具,专门用来处理大量数据。

使用 r 可以轻松处理大量信息并生成可供发布的图形和可视化效果。各种数据分析、挖掘和建模任务也是如此。

因为 R 最初是由统计学家为统计目的而设计的,所以它非常适合数据科学,这是当今世界的一个重要领域。

虽然 R 的核心功能是统计分析和图形,但它的用途超越了这些,进入了人工智能、机器学习、金融分析等领域。

R 一直被列为世界上最受欢迎的编程语言之一,更不用说是一种高薪语言了,它从 20 世纪 90 年代早期就已经存在,并且现在仍然很强大。

继续阅读,了解更多关于 R 编程语言的知识,包括它的历史,谁在使用它,以及拥有 R 技能的可能职业道路。

R 是什么?

r 是一个统计计算和图形系统。这个系统由两部分组成:R 语言本身(这是大多数人谈论 R 时的意思)和运行时环境。

r 是一种解释型语言,这意味着用户通过命令行解释器来访问它的功能。

与 Python 和 Java 等语言不同,R 不是一种通用的编程语言。相反,它被认为是一种特定领域语言(DSL),这意味着它的功能和用途是为特定的使用领域或领域而设计的。

在 R 的例子中,那是统计计算和分析。通过扩展,R 通常用于所有形式的数据科学任务。

r 配备了大量支持数据可视化的函数,因此用户可以分析数据,根据需要建模,然后创建图形。除了语言内置的图形功能之外,还有许多插件或模块来促进这一点。

R 是流行的编程语言吗?

r 是一种流行的编程语言,尤其是在某些领域,比如数据科学、学术研究和统计学。

在撰写本文时(2022 年 3 月),R 在 TIOBE 指数上排名第 11 位,2020 年 8 月,R 在第 8 位。TIOBE 索引每月更新一次,它是一种编程语言受欢迎程度的良好指标。

索引中列出了 50 种语言,已知存在的 8000 多种其他编程语言,所以可以肯定地说 R 很受欢迎!

2020 年 5 月,R 在 TIOBE 索引中短暂地失去了前二十名的位置,导致许多人猜测该语言从学术研究到商业应用的飞跃很快被 Python 取代。然而,这种受欢迎的平静并没有持续很久,正如 TechRepublic 报道的那样,到同年 7 月,R 已经进入了前十名。

r 是统计工程师和统计研究的首选语言。世界各地的大学使用 R 来帮助他们在许多领域的研究工作。

“R 的成功是一个例子,说明了学术界支持的社区有能力将一门语言提升到超出其预期的水平。”-斯蒂芬·奥格雷迪,雷德蒙克分析师

许多人认为 R 在 2020 年跃升至十大热门词汇是因为该语言在新冠肺炎研究中的使用越来越多。当有大量数据需要争论时,R 是理想的工具——这只是这种语言在诞生近 30 年后的今天仍然流行的一个原因。

R 是什么时候创造的?

r 是由奥克兰大学的统计学家 Ross Ihaka 和 Robert Gentleman 在 20 世纪 90 年代初创造的。

Ihaka 和 Gentleman 当时都是新西兰大学的统计学教授,他们在他们的计算机科学实验室中看到了 Ihaka 所说的“对更好的软件环境的共同需求”。这种认识促使两人开始开发 R,这是早期 S 编程语言的一种实现。

尽管教授们在 90 年代早期就开始研究 R,但直到 2000 年 2 月 1.0.0 版本才正式发布。

R 的名字是什么意思?

R 语言得名于两个原因:一是因为 R 是发明者名字的第一个字母,二是因为 R 是对其母语言 S 名字的一种玩法,S 最初是由贝尔电话实验室开发的。

r、S 和 Scheme

要完全理解 R,理解 S 是很有帮助的,S 是它发展的主要语言。

c 编程语言

s 是由约翰·钱伯斯和其他为贝尔实验室工作的人在 20 世纪 70 年代中期开发的。它的目的是提供一个交互式的统计计算方法,一个用户友好的方法,使数据分析任务更容易和更快。

在 2013 年的一次采访中,钱伯斯指出,贝尔实验室团队希望人们能够“接触到现有的最佳计算方法,不管他们来自哪里。”

他还说团队希望用户“从一个互动的环境开始,在这里他们不会有意识地认为自己是在编程。然后,随着他们的需求越来越清晰,成熟度越来越高,他们应该能够逐渐进入编程。”

s 的基本哲学和 R 的很像:提供一个软件环境,方便计算编程和统计分析,一个任何人都能学会使用的环境。

和 R 一样,S 也可以用来编写以统计任务为中心的更长的程序。不过,与 R 不同,S 及其后续版本 S-PLUS 是特许产品,这意味着它们必须从一家公司购买。

值得注意的是,R 不是一种独特的语言,而是 s 的一种方言。

句法和语义

语言学家使用术语句法和语义来描述自然语言的元素,计算机科学家也将这些术语用于编程语言。

在计算机编程中,句法指的是规定一种语言的“拼写”和“语法”的规则,而语义指的是一种语言的数据或命令如何呈现。

r 的语法与 S 早年的语法非常相似。这使得使用 S-PLUS 的人很容易转向 R,这对 R 最终在学术界流行起了关键作用。然而,r 的语义更接近于函数式编程语言 Scheme 的语义。

R 是低级语言还是高级语言?

r 是一种低级编程语言,这意味着一些不同的事情,包括它更接近于机器语言而不是自然的人类语言。这一点,加上其句法上的怪癖,给 R 带来了难以学习的名声。

这里有一个权衡:R 提供了强大的功能、可扩展性和灵活性,但是“代价”是一定程度的复杂性。

新手去 R 帮助页面寻求帮助可能会更加困惑,因为这些页面是针对有经验的读者的。

r 不是最容易学的编程语言,但也没有很多人想让你相信的那么难。十多年来,DataCamp 一直在教人们如何使用 R,我们已经对我们的方法进行了微调。

诀窍是先把重点放在本质上,然后随着你的进步发展你的技能和知识。如果您想尝试 R 编程,请查看我们免费的 R 课程简介

这些年 R 是如何演变的

r 在其生命周期的大部分时间里都是开源的,因此该语言可用的软件包数量有了很大的变化。

语言本身也经历了一些变化,从第一个版本到最新版本,使用 R 的领域也有所扩展。在深入探讨之前,让我们先来看看 R 历史上的几个里程碑:

R 简史

  • 1991 年的今天,作为奥克兰大学统计系的研究项目,罗斯·伊哈卡和罗伯特·绅士开始研究 S 的一种新方言。
  • 1993 年的今天,R 的首个公告通过数据存档 StatLib 和 s-news 邮件列表与公众见面。
  • 1995 年的今天,统计学家马丁·麦克勒说服 R 的发明者在 GNU 通用公共许可证下发布这种语言,使 R 既可以自由使用又可以开源。

Ihaka 和 Gentleman 发布了他们的开创性论文向世界介绍 R。

  • 1997 年的今天, R 核心团队成立,这个团队是唯一一个对 R 源代码有写权限的团队,他们审查并制定任何对语言的修改建议。

同年,综合 R 档案网(CRAN)成立。这个开源 R 软件包库,是语言本身的扩展,帮助专业人员完成无数的任务。

  • 2000 - R 版本 1.0.0 向公众发布。
  • 2003 年的今天, R 基金会成立以持有和管理 R 软件版权并为 R 语言项目提供支持。
  • 2004 - R 版本 2.0.0 发布。
  • 2009 年的今天, R Journal 成立,这是一份开放存取的统计计算和研究期刊。
  • 2013 - R 版本 3.0.0 发布。
  • 2020 - R 版本 4.0.0 发布。

R 社区

R 社区是世界各地使用 R 的人们,他们为 CRAN 库上的可用包做出贡献,或者两者兼而有之。

众所周知,这个社区非常活跃,有很多人经营关于 R 的论坛,写博客,回答关于栈溢出和其他地方的问题。除了所有的虚拟 R 资源和支持之外,还有许多定期举行的大型 R 会议。

如果你想用 R 做一些事情,但又不确定如何开始,那么很有可能有一个软件包可以帮助你。熙熙攘攘的 R 社区已经产生了数以千计的工具来扩展 R 的功能。

事实上,微软的 Revolution Analytics 博客报道称,2017 年,CRAN 上列出了 1 万个包。其中一些包装凭借其自身的权利而声名鹊起,包括 Tidyverse。

R Tidyverse

如果你读过一些关于 R 的书,你很有可能听说过 Tidyverse。

Tidyverse 不是一个单独的包,而是一个由各个 R 包组成的包——非常元,对吗?这些软件包都是为数据科学和分析而设计的。

total Tidyverse 包中的每个工具都设计为与其他工具协同工作,并在数据科学任务之间提供非常清晰的流程。

Tidyverse 是 RStudio 首席科学家、《数据科学的 R》的合著者 Hadley Wickham 的创意。这个自称为“固执己见的 R 包集合”已经被证明在全球范围内很受欢迎,全世界的数据科学家现在都依赖 Tidyverse 进行他们的工作。

事实上,可以肯定地说,现在任何想与 R 或数据打交道的人都需要了解 Tidyverse。你可以在 DataCamp 的在线tidy verse的介绍中查看一下。

数据科学的兴起

如果不更详细地提及数据科学的兴起,就无法描绘 R 的演变。

随着 20 世纪末世界从模拟系统转向数字化(使现有系统数字化),数据变得越来越有价值。今天,它比黄金更值钱。

所有部门和行业的企业都需要了解他们的客户和潜在客户,以保持竞争力,当公共组织拥有尽可能多的信息时,他们可以做得更好。

所有这些数据都包含大量可供组织利用的见解,他们只需要合适的工具。

r 就是这些工具中的一个,Python、SQL、Power Bi、Tableau 等等也是。为了正确理解隐藏在数据中的信息,我们需要专业人士,如数据科学家和分析师。

随着数据科学在现代世界变得越来越重要,对具有阅读和解释数据的技术技能的人的需求也相应增加。例如,今天,数据科学是薪酬最高的 IT 职位之一,根据实际上的统计,平均薪酬超过 10 万美元。

谁用 R?

许多专业人员在他们的工作中使用 R,这种语言被广泛应用于各个领域。在看那些之前,让我们回顾几个可能的 R 技能职业。

r 职业生涯

  • 数据科学家
  • 统计工程师
  • 数据分析师
  • R programmer
  • 数据架构师
  • 数据库管理员
  • 地理统计师
  • 研究员
  • 商业智能
  • 财政分析家
  • 机器学习科学家
  • 定量分析师
  • 统计员
  • 还有更多…

使用 R 的领域和行业

因为它功能强大,能够处理各种数据分析、可视化和建模任务,所以 R 被广泛应用于各种行业和部门。以下是几个例子:

学术界

就像英语是世界通用语言一样,R 是许多学术机构中占主导地位的编程语言。它的用途也不仅限于统计学;许多种类的研究需要定量数据,包括相关数据、实验数据和描述性数据,这些都是跨领域的。

数字化(包含数据和相关工具的过程)和大数据的兴起触及了所有的学习和研究领域,导致 R 在学术环境中的使用增加。

例如,IBM 的社会科学统计软件包(SPSS)曾经是社会科学的首选软件。现在,R 是首选,原因有很多:

  • r 对机构和学生都是 100%免费的
  • r 兼容所有操作系统和各种文件类型的数据
  • r 支持透明和可重复的研究
  • r 使得创建数据可视化变得容易

2013 年 DataCamp 关于 R in education 的调查显示,71.1%的受访者从事经济学或商业研究,而只有 10.5%的受访者从事计算机科学,这表明数据素养和技能是全面的。

数据科学

与 Python 一样,R 也是数据科学领域的一种重要语言。在 R 的帮助下,专业人员可以建模和分析结构化和非结构化数据,他们还可以使用 R 来创建机器学习和统计分析工具,以帮助他们的工作。

r 使得处理各种来源的数据变得容易,从导入到分析。另外,R system 本身和 CRAN library 提供了大量的数据可视化功能和工具,这使得专业人员可以轻松地以有影响力且易于阅读的格式展示他们的研究和发现。

统计数字

不言而喻,因为它是一种统计编程语言,但 R 是统计学和统计计算的常用语言——毕竟,它是由统计学家为此目的而设计的。

大量的软件包支持这一领域的工作,而 R 语言本身可以用来开发包含统计功能的软件工具。它的用途甚至可能更广。在一次采访中,RStudio 计算机科学家郑中指出,R 可以作为一种通用语言来实现新的统计语言。

金融

凭借其灵活性和对任何数据分析任务的适应能力,R 在金融领域的应用越来越多也就不足为奇了。ANZ 和美洲银行等公司使用这种语言进行信用风险分析和建模、财务报告、处理投资组合以及许多其他任务。

诸如 jrvFinance 和 Rmetrics 这样的专用工具允许从事金融工作的人进行金融计算,即使他们的编程经验有限。

DataCamp 提供一系列的金融课程 R,包括 R 中的金融基础,R 中的应用金融。

社会化媒体

自从早期的 Open Dairy 和 Bolt 以来,社交媒体已经从少数精通技术的用户发展到几乎所有拥有智能手机的人。如今,很难找到不使用社交媒体平台的人。

社交媒体也是一个大行业,一个主要从事数据交易的行业。像 Meta(脸书和 Instagram)和抖音这样的公司依靠用户的习惯向其他公司提供有针对性的广告。

你在社交媒体上做的每一件事或与社交媒体互动的每一件事都会产生可用于此目的的数据,R 等工具是社交媒体公司从他们收集的大量数据中提取见解的完美方式,并管理算法,使用户返回符合他们兴趣的内容。

哪些公司用 R?

以下是一些在其技术堆栈中使用 R 的知名公司:

  • 美洲银行
  • 亚马孙
  • 脸谱网
  • JP 摩根
  • 谷歌
  • 埃森哲
  • 商务化人际关系网
  • 国际商用机器公司
  • 超级的
  • 德勤
  • 《纽约时报》
  • 福特
  • 大功率(High Power)ˌ高压(High Pressure)ˌ高性能(High Performance)ˌ高聚物(High Polymer)
  • 还有更多…

一些代码示例

r 可以执行基本的代码,比如创建一个矩阵和它的操作,如下所示:

#Let’s create a matrix

matrix_A <- matrix(1:10,nrow = 5, byrow = TRUE)

matrix_A

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

#Now let’s add a column to the matrix

matrix_A1 <- cbind(matrix_A,c(6:10))
matrix_A1 

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它还有助于数据分析和处理:

#Let's load a built-in dataset 

data(mtcars)

#print first 10 rows

head(mtcars,10)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

#Let us try to sort the dataset based on ascending order of horsepower

attach(mtcars)

df<- mtcars[order(hp),]

head(df,10)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基础和高级

具有基本 R 知识的人可以使用编程语言执行基本的数据排序和分析任务,例如分配变量和使用命令行执行计算。

它们还可以生成数据的可视化表示,如饼图或图表。他们甚至可能使用 R 来帮助他们管理自己的个人财务或小公司的财务。

不出所料,拥有 R 高级知识的人可以做所有这些事情,除此之外还可以做更多的事情。

r 的用途超越了创建可视化和数据分析。因为它是一个强大的统计计算工具,R 可以用来建立预测性的机器学习模型和其他数据科学工具。

尽管它主要是一种函数式的和特定领域的语言,R 甚至可以用于一些面向对象的编程任务。专家们也可能使用 R 进行元编程,即创建可以编写或操作其他程序的程序。

无论你只是想要一个工具来更好地管理自己的消费习惯,还是想成为 R 代码的大师,DataCamp 都可以帮助你。我们广泛的 R 课程和职业轨迹适合每个人,从绝对的 R 初学者到有能力的 R 程序员,甚至更高。

舍入 R

r 是一种流行的编程语言,它允许人们熟练地处理大量数据,生成出版物质量的可视化效果,并执行一系列统计和分析计算任务。

R 用于数据科学、金融、学术等领域,功能强大、灵活且可扩展。它也是免费和完全开源的,这意味着有大量的软件包可以帮助 R 用户完成各种任务,并且有一个支持全世界 R 爱好者的社区。

如果你对数据方面的职业感兴趣,R 技能可以帮助你获得成功,并在数据科学领域找到一份高薪工作。DataCamp 是互联网上最全面的 R 课程的所在地。从入门水平一直到 R 的机器学习,我们已经涵盖了你。

r 是一种特定领域的统计编程语言。它是为统计分析和图形可视化设计的。

更广泛地说,R 不仅仅是一种语言,而是一个由 R 语言本身和运行时环境组成的系统,在运行时环境中,用户通过命令行执行任务。

是也不是。R 不是最容易学习或掌握的编程语言。作为一种低级语言,它不像 Python 那样直观。

也就是说,R 并不像许多人认为的那么难,基本知识也很容易掌握。从那里,你可以建立你 R 技能。

尽管它比其他语言更难,但回报可能更大。例如,因为了解 R 的人比了解 Python 的人少,所以 R 程序员和数据科学家可能会获得更高的薪水。

r 的开发者,统计学家 Ross Ihaka 和 Robert Gentlemen,以他们名字的首字母命名他们的语言。两人还表示,他们选择这个名字是对 R 的母语 s 的一种玩法。

没有一种语言比另一种语言“更好”,每种语言都有优势、劣势和更适合选择的领域。

例如,如果您想要构建移动应用程序等数字产品,您需要使用 Python 等通用编程语言。如果您想在学术环境中执行统计研究或执行数据挖掘,R 是更好的选择。

就数据科学而言,两种语言都是合适的选择。

是的。r 一直是 TIOBE 索引中最受欢迎的 20 种编程语言之一。最常坐在第十和第十五名之间。r 是包括金融分析、数据科学和学术研究在内的几个领域的重要语言。

2022 年,专家认为 R 很可能会继续在这些领域占据优势,因此学习 R 是一项有价值的投资。

处理、操作、建模和创建数据的可视化。r 是数据科学和数据分析的流行语言。它允许用户执行各种数据分析和统计计算任务。

大概不会。除非你有过目不忘的记忆力,否则要花几周时间才能掌握 R 的基础知识。快速学习 R 的最好方法是通过一门为特定领域设计的课程,这样你就可以专注于你需要知道的东西,而不必涉水过多的信息。

DataCamp 的 R 技能和职业轨迹给你在现实世界中需要的 R 技能,它们不会让你连续几年坐在电脑前。例如,我们的 数据科学家与 R 职业跟踪总共需要大约 88 小时才能完成。

r 是一种用于统计计算和图形的编程语言和软件环境。微软 R Open 是微软公司开发的 R 版本。

R 和微软 R Open 都是用于数据科学和分析的免费开源工具。

是的。SQL 被设计用于非常有限的用途:允许用户与关系数据库通信。另一方面,r 的应用范围更广,尽管它主要用于数据的统计分析和图形表示。

另外,R 是低级语言,而 SQL 是高级语言。这指的是诸如一种语言使用多少内存以及一种语言对人类来说有多容易理解之类的问题。

R 中的语法不像 SQL 那样简单,但是,如果您想从事数据科学方面的职业,这两种语言都是您的武器库中非常好的工具。或者,学习 SQL 和 R 或 Python。

这要看情况。如果您有编程经验,您可以在一周内学习 R 基础知识。如果您对数据科学和一般编程还不熟悉,那么您可以花几周的业余时间学习 r 的基础知识。

DataCamp 的R入门课程教你 R 中数据分析的基础知识,只需要四个小时就可以完成。从那里,你可以继续我们的中级 R 课程,大约需要六个小时。

什么是 SQL?-数据库管理的基本语言

原文:https://web.archive.org/web/20221129050302/https://www.datacamp.com/blog/all-about-sql-the-essential-language-for-database-management

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SQL 是一种强大的编程语言,在当今世界发挥着重要作用。它允许我们与关系数据库通信并收集信息。哪里有数据,哪里就有 SQL。这包括政府、公共组织和各行业各种规模的企业,从航运到鞋类销售。

你可能听说过数据现在是世界上最有价值的商品,这意味着它甚至比石油等化石燃料更有价值。那么,我们如何利用这种商品的力量,并利用它来获得洞察力和做出明智的决定呢?

这就是像 SQL 这样的语言的用武之地。在这里,我们仔细看看 SQL,包括它是什么,它做什么,谁使用它,以及这种特定于领域的语言的历史。

什么是 SQL?

SQL 代表结构化查询语言,顾名思义,你可以用这种编程语言对数据库进行提问(查询)。您会听到 SQL 读作“sequel”或缩写为“ess-que-el”

这种编程语言主要用于与关系数据库通信。在 SQL 的帮助下,我们可以访问、检索、排序和更新信息。它与众所周知的关系数据库管理系统(RDBMS)一起使用,包括:

  • 神谕

  • 赛贝斯

  • Microsoft SQL Server

  • 一种数据库系统

  • 关系型数据库

  • Microsoft Access

  • MariaDB

  • SQLite

SQL 于 1986 年由美国国家标准协会(ANSI)标准化。它还获得了国际标准化组织(ISO)的国际标准称号,并被世界各地的许多政府和组织机构采纳为标准。

SQL 和关系数据库

数据库以数字格式存储信息,确保数据易于访问。关系数据库是基于表的,允许我们管理和检查数据类型之间的关系。

我们可以在一个数据库的表中这样做,或者我们可以检查多个关系数据库中数据之间的关系。

关系模型的主要好处之一是我们可以连接表并理解数据类型之间的关系。

假设你拥有一家电商鞋店。如果想知道客户的位置和销售量之间的关系,可以使用 SQL 查询 customer 表并生成报告。

或者,假设您拥有一家实体鞋店,您想知道您的团队成员中谁卖的鞋最多。如果您的数据库有正确的参数,您也可以使用 SQL 找到这些信息。

您可以将关系数据库想象成一个简单的表格,其中包含可以在 Word 或 Excel 中创建的列和行。但是关系数据库包含几个表,与您可以在 Excel 中创建的表不同,大型关系数据库可以包含数百万个字段。

根据个人的业务或数据需求,数据库中的数据点会有所不同。卖鞋的人可能想要客户位置或员工销售信息,而另一个企业或组织可能想要其他数据点。

SQL 可以用来创建新的数据库,并根据需要修改现有数据库的模式(结构)。

SQL 为什么这么受欢迎?

SQL 在问世近 50 年后仍然广受欢迎,因为它工作简单。关系数据库是为了满足需求而发明的,而 SQL 是为了与这些数据库通信而发明的,这意味着它很快成为事实上的语言。

在许多方面,SQL 与关系数据库同义,这也是 RDBMS 通常被称为 SQL 数据库(而其他非关系数据库被称为 no SQL)的一个原因。

尝试重新发明轮子没有什么意义,对吗?关系数据库和 SQL 也是如此——因为它们工作得很好,所以都没有用!

这两个工具协同工作,确保我们的许多技术继续可靠地工作,从保持业务平稳运行的后端系统到结构化的互联网架构等等。

然而,它的无处不在并不是 SQL 流行的唯一原因。SQL 也很强大,允许开发人员和分析师以复杂的方式查询大量数据,并解决棘手的分析问题。

2021 栈溢出开发者调查显示,SQL 是第三大最常用的编程语言,被调查的职业开发者中有 50.73%的人使用。

当然,总会有新的发展,技术也在快速变化,但是 SQL 还没有被推下它最喜欢的位置。

NoSQL 对 SQL

NoSQL 数据库提供了不使用相关表来存储和管理数据的其他方法。它们在 2000 年代后期开始流行,因为它们提供了一种容纳数据的方式,而无需像 SQL 数据库那样进行结构化处理。开发人员可以更容易地创建 NoSQLs,可以提供更快的查询速度,并允许灵活的方法。

在许多方面,NoSQL 转向了原子性、一致性、隔离性和持久性(ACID)的传统数据库目标,并提出了一种更开放的数据存储方法。

另一方面,SQL 数据库用于关系数据,这从一开始就需要高度结构化的方法。它们提供灵活的查询使用、较低的数据存储占用空间、一致的数据完整性(这在金融等多个行业中至关重要),以及比 NoSQL 更多的保护措施。

SQL 数据库比 NoSQL 数据库常见得多,但是每种数据库都有自己的位置、优点和缺点。

SQL 是什么时候创建的?

SQL 的历史与关系数据库的诞生紧密相连。这段历史可以追溯到 20 世纪 60 年代末,当时一位名叫埃德加·弗兰克·科德的 IBM 数学家和研究员制定了关系数据库模型。

当时的一个重大突破是,该模型将信息片段(键)与各种类型的数据联系起来。例如,一个人的名字可以与他们的鞋码或电话号码联系起来。

1970 年,Codd 发表了他的开创性论文,大型共享数据库的数据关系模型,后来为其他研究人员提供了 SQL 语言的基础。

在 Codd 工作之前,从数据库中检索信息是一项艰巨的任务,需要复杂的计算机知识。Codd 的想法消除了对专业知识的需求,使任何人都更容易获得信息。

尽管这种模式是革命性的,但仍有批评。正如《数据库系统》的作者吉姆·格雷所说:“人们认为这个模型过于简单,永远不会有好的性能。”

凭借其对优雅数学的巧妙运用,Codd 的模型多次证明了其批评者的错误。

SQL 是谁发明的?

IBM 研究人员 Donald D. Chamberlin 和 Raymond F. Boyce 在了解了 Codd 在关系模型方面的工作后,发明了 SQL。

“Ray Boyce 和我想设计一种查询语言,它具有 Ted Codd 的关系语言的表达能力,但更容易被不是集合论或形式逻辑专家的用户理解。”唐纳德·张伯伦

Chamberlin 提到他们对关系数据库语言的第一次尝试叫做 Square。基于映射的概念,Square 使用了一种表示困难的下标符号。所以在 1973 年,当两人搬到 IBM 的圣何塞研究实验室时,他们开始研究 sequel 语言,他们恰当地称之为 Sequel。

后来 Sequel 就成了我们今天都知道的 SQL。

在测试了 SQL 和关系数据库系统之后,IBM 开始开发使用新技术的产品。System/38 于 1978 年发布,是一款以创新数据库系统为特色的中档计算机。从那以后,IBM 和其他供应商如 Oracle 继续发布以 SQL 为特色的产品。

SQL 这些年是如何发展的

关于 SQL 有趣的事情之一是,它的基本原理保持不变,甚至在它诞生后的近 50 年里也是如此。SELECT、UPDATE、INSERT、DELETE 等命令基本上没有变化。

不过,这并不意味着没有变化。使使用基本命令变得更容易的新特性已经出现,这使得 SQL 更加强大和用户友好。此外,随着新的 RBDMSs 的出现——既有专有的(属于像微软这样的公司),也有开源的(任何人都可以免费使用)——不同的 SQL 方言也出现了。

SQL 方言和语法差异

所有的 SQL 语言都有与标准 SQL 相同的基本结构。在大多数情况下,键盘命令是相同或非常相似的。然而,不同方言的语法有一些不同。

你可以认为它有点像自然语言,如英语。我们有诸如美国、英国和澳大利亚的方言,还有标准英语。

SQL 有标准 SQL,然后是方言,包括 PostgreSQL、MySQL、SQLite 和 SQL Server。每种方言都与相应的 RDBMS 兼容。

学习 SQL 的一个很好的起点是 PostgreSQL。这种方言比其他方言更接近标准的 SQL 语法,因此很容易将您的知识应用到其他方言和数据库系统中。

一些代码示例

此示例显示了对患者数据库的查询。要查看表格的内容:

SELECT * FROM patients;

输出显示了前 5 行:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果您想查找所有男性患者的名字和姓氏:

SELECT first_name,last_name, gender FROM patients WHERE gender = ‘M’;

输出如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学的兴起

数据科学的一个关键作用是发现和预测趋势,因此,它已经成为现代数据驱动世界的主要内容。2012 年,《哈佛商业评论》数据科学是“21 世纪最性感的工作”快进到 2021 年,据《福布斯》报道,到 2026 年,数据科学领域将增长约 28%。

随着数据科学领域变得更加突出,数据科学家最常用的编程语言也变得更加突出,这包括 SQL。

数据和 SQL 是齐头并进的。任何想要访问、检查、操作结构化数据(存储在关系数据库中的数据)或者从结构化数据中获得洞察力的人都需要了解 SQL。

数据现在是世界上最有价值的商品,数据科学增加了数据的价值。因此,一直受欢迎的 SQL 在最近几年变得更加重要。

什么是新闻 QL?

NewSQL 系统是新出现的,有时被称为分布式关系数据库系统,或者更常见的是分布式 SQL。

NewSQL 系统首次出现在 21 世纪初,旨在弥合传统 RDBMSs 和 NoSQL 系统之间的差距。他们通过结合关系模型、事务支持和 RDBMSs 提供的 ACID 保证,提供 NoSQLs 的速度和可伸缩性来做到这一点。

Xeround 和 GenieDB 等 NewSQL 系统的早期供应商在数据库市场上并没有留下太多印象,可能是因为它过去(现在仍然)被 Oracle、Amazon Web Services 和 Microsoft 等公司严重垄断。

采用 NewSQL 模式的基于云的数据库服务包括 AWS Amazon Aurora 和 Google Cloud Spanner。

谁使用 SQL?

许多人经常使用 SQL,从以数据为职业的人到只想更好地管理小型数据库或获得洞察力的人。毕竟,当 SQL 和 SQL 数据库提供了一种更好的方法来检查数据时,为什么还要求助于 Excel 呢?

各种规模的企业也使用 SQL。依赖 SQL 管理数据库的公司包括微软、戴尔和谷歌。不仅仅是科技公司,任何利用关系数据库的企业都使用 SQL,想想像耐克和 Spotify 这样的大公司以及小型零售企业和其他许多企业。

任何需要创建、修改关系数据库或与之通信的人都需要 SQL。由于该技术的突出性和重要性,RDBMSs 和 SQL 出现在所有行业和领域。

sql 职业生涯

由于其数据排序和分析能力,SQL 是许多专业人员的必备技能,包括(但不限于):

  • 数据库管理员

  • 数据分析师

  • 数据科学家

  • 网页设计师

  • 服务器管理专家

  • 托管技术人员

  • 商业智能专家

  • 软件工程师

  • 开发商

  • 财务分析

  • 研究人员

  • 还有更多…

即使拥有基本的 SQL 工作知识,对无数其他行业和专业也是有帮助的。鉴于当今数据的重要性,越来越多的雇主在简历中列出拥有数据库技能的候选人也就不足为奇了。

有时这些雇主来自意想不到的行业,例如,新闻业。当记者们面对巴拿马文件,一大堆复杂的文件和文档需要解开和分析时,他们求助于数据库系统。

同样,营销人员、广告商和数字营销专家经常使用关系数据库来理解诸如跳出率、滚动深度和点击率等信息。对于这些在很多方面代表市场营销未来的职业,知道如何使用 SQL 特别有帮助。

使用 SQL 提升技能

无论你从事什么行业,SQL 技能都有很大的机会让你走在前面。提高技能和学习 SQL 是提升你当前职业的好方法,也是为你的技术工具箱增加另一项技能的好方法。

即使学习基本的 SQL 来查询数据库和查找信息也能让你成为更有价值的员工,或者帮助你找到一份新工作。

它被使用的例子。代码示例等

SQL 基础和高级 SQL

与任何技能一样,SQL 初学者和经验丰富、知识渊博的 SQL 专家使用这种特定于领域的语言所能做的事情有很大的不同。

例如,假设你已经注册了 DataCamp 的SQL入门课程。您将学习 SQL 语法的基础知识以及在关系数据库中查询和聚集信息的基础知识——足以让您立即开始使用数据库。

在关系数据库等式的另一边,您有 SQL 专家(其中一些是 DataCamp 的讲师),他们已经花了数年时间使用这种语言。

有了高级 SQL 技能,人们可以快速准确地操作数据、创建数据库和执行复杂的查询,而不必检查他们的代码是否正确。除了创建实体关系图(erd)、优化查询索引和执行分层查询之外。

然而,SQL 是一项终身技能。一旦掌握了基础知识,就很容易提高技能,并不断增加更多的 SQL 知识,学习如何做更高级或更复杂的事情。即使你对使用 SQL 已经驾轻就熟,DataCamp 也可以通过中级和高级 SQL 课程让你更进一步。

总结 SQL

如您所见,SQL 是一种重要的编程语言。没有它,我们将无法与关系数据库进行通信,我们也无法收集给企业和组织带来竞争优势的见解。

SQL 对于任何人来说都是一个方便的工具,对于处理数据的人来说,包括数据分析师和科学家、市场营销人员、金融专业人士等等,SQL 绝对是必备的。

如果您准备好开始学习 SQL,请查看 DataCamp 全面的个人课程和职业轨迹。

从最严格的定义来看,是的,SQL 是一种编程语言。但它不是像 Python 或 Java 那样的通用编程语言。你不能用 SQL 构建一个应用程序。相反,SQL 有一项特定的工作要做:与关系数据库通信并操纵关系数据库中的数据。

因为它有特定的应用,所以 SQL 是一种特定领域的编程语言。这种语言提供了一种从数据中获取信息的灵活而强大的方法,使其成为数据科学和相关领域的理想语言。

是的,SQL 是最容易学的计算机语言之一。它的语法基于英语并且简单,这意味着许多人可以在几周内掌握这门语言,即使他们之前没有编程语言的经验。

DataCamp 提供的免费课程《SQL 简介》是一个在线学习 SQL 的好方法,可以让你按照自己的进度学习。

是的,但是自学 SQL 可能要比参加像 DataCamp 这样的公认培训机构的结构化课程花费更长的时间。

SQL 是最容易学习的编程语言之一,但这并不意味着它很简单。它的使用和应用仍然很复杂。了解 SQL 的最佳方式是通过专门的培训。

SQL 是一种计算机语言,发明这种语言是为了让人们能够与关系数据库交流。关系数据库为人们提供了一种检查不同类型数据之间关系的方法,例如,一个人的身高和体重或销售量和位置。

为了从数据库中收集这类信息并生成报告,我们可以使用 SQL。

是的,SQL 是比 Excel 更好的查看、管理和检查数据的方式。与后者不同,SQL 数据库可以包含数百万个字段,使用 SQL 查询处理数据要比使用 Excel 公式多得多。

电子表格很有帮助,并且在许多行业中经常使用,但是它们不能提供与 SQL 数据库系统相同的分析功能,也不能提供相同级别的数据完整性。

因为 SQL 无处不在。这种编程语言是关系数据库的同义词,关系数据库是一种提供查看、管理和操作数据的最佳方式之一的技术。

无论您在哪里找到数据,都很有可能存储在关系数据库中,我们需要 SQL 与这些数据库进行通信。这种无处不在的程度意味着 SQL 很可能在未来许多年仍然流行。

如果你想从事数据科学或相关领域的职业,学习 SQL 是你能做的最好的事情之一。SQL 数据库或关系数据库是企业和组织存储数据的最常见方式。

要与关系数据库通信并释放它们所包含的数据的力量,您将需要 SQL 技能。即使您不想全职处理数据,了解一些 SQL 查询也是有帮助的。SQL 通常在招聘信息中被列为一项必备技能。

SQL。因为 SQL 只为特定的应用程序设计(与关系数据库通信),所以它的语法和句法比 Python 等通用编程语言更简单。

这并不是说学习 Python 很难。事实上,它是最容易学习的编程语言之一。DataCamp 提供 SQL 和 Python 两种语言的入门课程。两种方法都试试,看看你喜欢哪种方法。

从学习标准 SQL 或 PostgreSQL 开始,这是最接近标准的 SQL 方言。

要使用任何关系数据库管理系统(即 RDBMS ),您需要了解标准 SQL,然后当您更改系统时,例如从 PostgreSQL 到 MySQL,您需要了解每个系统的语法之间的细微差别。

根据 Indeed 的研究,使用 SQL 的开发人员平均年收入为 88,125 美元。这些开发人员使用 SQL 数据库,并创建与这些数据库交互的应用程序。

其他将 SQL 作为主要技能的工作包括数据库管理员、数据分析师和数据科学家。DataCamp 有一系列基于 SQL 的课程和职业跟踪,可以让你在新的职业中有一个良好的开端。

SQL 可以帮你找工作。这是最受欢迎的技术技能之一,被列为许多空缺职位的要求。

不管你现在的职位或行业是什么,学习 SQL 也能在几个方面帮助你提升技能。了解 SQL 意味着您可以与关系数据库进行交流,关系数据库是所有行业的大多数企业经常使用的工具。

什么是 Tableau-Tableau 完全指南

原文:https://web.archive.org/web/20221129044300/https://www.datacamp.com/blog/all-about-tableau

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

探索画面

除了员工,一家公司的数据是其最大的资产。数据描述您的客户,帮助您吸引和留住新客户,预测趋势,跟踪库存,跟踪可能影响您公司的世界事件等。

没有参考数据,即使是最小的公司也不敢做出重大决定。营销部门依靠数据来监控社交媒体或电子邮件活动以及其他营销活动。销售部门使用数据来跟踪销售和创建目标。

采购部门在下订单之前检查库存数据,物流团队跟踪其发货和交付情况。自然,公司领导人也使用数据来获得资金,规划新产品,并做出人事决策——我们只是触及了冰山一角。

较大的公司有更多的决策者、更多的数据和更多的数据集。指数级的数据增长意味着各种规模的公司都需要帮助来管理和理解他们的数据。这需要一个商业智能工具,它不仅能帮助他们的业务增长,还能与公司一起增长。

一个真正智能的商业智能(BI)平台将过去和现在结合在一起,帮助创建一个明智的未来可视化路线图。

那么哪个 BI 平台对威瑞森足够强大,对 Experian 足够安全,对网飞足够优雅,对法拉利足够快呢?

这四家公司都利用商业智能软件领域的行业领导者 Tableau 来制定数据驱动的业务决策。如果你不熟悉这个数据发电站,或者你知道你没有利用 Tableau 的全部功能,我们邀请你继续阅读。

画面的历史

在不太遥远的过去,公司曾在简单的电子表格中收集手动输入的数据,并让数据科学家从看似难以理解的报告中提取一些意义。

毫不奇怪,有很多问题。例如,数据容易出现人为错误。这是不可理解的,直到数据科学家理解了它。很难融合多个数据集,图表和图形也不太具有协作性或视觉吸引力。

BI 1.0

“商业智能”一词是在 20 世纪 80 年代末数据仓库诞生的时候创造出来的。数据仓库是一个中央数据存储库,它从公司的每个部门收集数据。数据仓库仍然是现代数据收集和 BI 的关键组成部分。

此时,市场上有几种 BI 选择,但是它们只能使用存储在数据仓库中的数据。然后,比尔·恩门和拉尔夫·金博尔用企业数据分析的维度方法革新了商业智能行业。

虽然两位工程师有不同的方法,但他们都认为可以从多个来源提取数据进行全面集成和分析。

BI 2.0 和 Tableau 1.0

像互联网和收集的数据一样,商业智能在 20 世纪 90 年代和 21 世纪初蓬勃发展。BI tools 开始增加企业资源规划(ERP ),帮助整合、管理和自动化公司数据。BI 也变得更加用户友好和快捷。它通过机器学习增加了预测分析,并通过互联网和云技术改善了可视化。

Tableau 1.0 在 21 世纪初上市,当时斯坦福大学的学生 Pat Hanrahan、Christian Chabot 和 Chris stopped 发布了 Tableau 的第一个版本。虽然以今天的标准来看,Tableau 1.0 很粗糙,但它让数据对视觉思考者(也就是大多数人)来说很明显。

Tableau 用他们的专有技术 VizQL 消除了编码的需要。拖放功能允许用户进行查询,并提供图形响应和见解。换句话说,任何人都可以使用 Tableau,他们使用得越多,Tableau 就越了解用户想要看到的信息类型。

BI 3.0

如今,几乎每个大中型组织都依靠 BI 来做出明智的数据驱动型业务决策。最好的 BI 工具可以跨平台使用,因为它们利用了人工智能,所以它们在不断地学习和发展。

Tableau 在 BI 市场上引起了如此大的轰动,以至于 CRM goliath Salesforce 在 2019 年收购了该公司,Salesforce 首席执行官 Marc Benioff 称之为“软件行业历史上最好的收购”。

今天, Tableau 为许多世界上最大的企业的业务战略提供了动力,但该平台是各种规模的组织都负担得起的。他们甚至提供个人订阅。

什么是 Tableau?

Tableau 是数据科学家的最爱,但它是为每个人设计的。该公司通过使平台对外行人开放,使数据科学民主化,而不管他们的技能组合如何。因此,创建有价值、可操作的报告并不需要编程或数据科学专业知识。

Tableau 获取原始数据,并以简单明了的格式将其转化为可操作的情报。技术和非技术用户都可以创建可视化仪表板和工作表。如果你想知道 Tableau vs Power BI 以及它们有什么不同,请查看我们关于这个主题的完整指南。

Tableau 的桌面版可以在 Windows 或 Mac OS 上运行,Android 和 iOS 用户都可以登录移动版。Tableau 有自己的专有语言,叫做 VisQL(类似于 sQL),但是大部分桌面代码都是用 C++写的。

Tableau 的主要特点:

复杂的数据可视化

当你做演示时,不要带着一排排的数字走进会场,你很可能会尝试用多种颜色和图案来创建一个视觉演示,这样你的观众就可以很容易地跟上。

有道理。电子表格上的数字很好,但即使高度可视化的数据表示对技术来说相对较新,人类也进化到扫描我们环境的颜色和模式,而不是电子表格上的数据行。

Tableau 的数据可视化不仅仅是提供数据;它在数百万、数十亿甚至数万亿条数据线和代表它们的图像之间编排了一种舞蹈。

通过丰富多彩的图表,Tableau 创造了一个叙事,即使是非数据科学家也能掌握完整的画面。Tableau 提供标准的条形图和饼图以及更高级的图表类型,如箱线图、项目符号图、甘特图、直方图、运动图、树状图等。

实时分析

企业领导人不应该每次想写报告时都要咨询数据分析师。而如果数据陈旧或不完整,又有什么意义呢?相反,访问您的数据并创建最新的报告,以查看任何或所有重要指标的准确情况。

Tableau 让您根据实时整体或分段绩效做出明智的业务决策。访问最新的销售和库存报告,无需等待您的 IT 部门。此外,Tableau 的向下钻取功能提供了任何后续问题的答案。

实时分析对组织意味着什么?首先,他们让您在问题升级之前解决问题。此外,员工、部门主管、高管甚至董事会成员都可以立即访问个人或组织的绩效指标,并能够进行自己的查询。

然而,Tableau 不仅仅是一个报告软件。如果您看到一个问题,该工具可以让您深入查找问题的根源。例如,是某个地区或位置表现不佳,还是整个公司表现不佳?或许生产成本或公司支出正在上升。Tableau 让你找出漏洞在哪里,这样你就可以堵住漏洞。

数据混合

中型和企业级的公司经常不得不执行杂耍行为来管理来自多个来源的数据。例如,许多组织使用两个或更多的客户关系管理(CRM)软件,每个软件都有自己的数据。此外,每个部门可能都有自己的数据和报告软件。

也许你需要比较销售和库存报告或搜索引擎优化和其他数字营销指标的实际销售。或者,也许你需要结合你所有的社交媒体指标。Tableau 可以从实时和内存数据源、数据仓库、云、大数据、电子表格、关系和非关系数据库中提取数据,

数据混合技术出现之前,分析师必须处理和手动处理多个电子表格、VLOOKUPS 和脚本来构建全面的数据集。即使我们忽略手动组合不同数据集所浪费的时间以及对数据分析师的额外要求,手动流程也是无效且不可扩展的。然而,随着指数级的数据增长,可扩展性是必需的。

Tableau 的数据混合功能允许用户组合不同的数据源,以创建公司客户、财务和其他关键指标的 360 度视图。此外,Tableau 支持多种数据连接器,如 Google Sheets、Google Analytics、Amazon Athena、Salesforce、SQL Server、Presto、Dropbox、MemSQL、Amazon Athena、Microsoft Excel 等等。

Tableau 是可伸缩的、精确的、快速的,它为最复杂的组织问题提供了答案。

合作

数据不应该生活在真空中。成功的公司是由拥有共同目标的人建立起来的。协作使团队能够朝着那个目标努力。事实上,鼓励协作体验的公司提高了员工的忠诚度。

Tableau 是为协作而设计的。团队成员、部门主管和高管可以进行查询,并创建复杂混合数据集的清晰可共享的可视化效果。此外,将报告发布到 Tableau OnlineTableau Server 的速度快如闪电,使决策者能够快速访问他们未来规划和执行所需的数据。

Tableau 仪表板

Tableau 的仪表板为用户提供了多个数据集的整体和同步视图。工作表和仪表板是相连的,这意味着如果修改工作表,相应的仪表板也会改变,反之亦然。两者都会随着数据源的变化而自动更新。

Tableau 仪表板省去了在多个工作表之间导航的麻烦。仪表板是完全可定制的。例如,如果您每天都访问相同的报告,您可以设置仪表板,以便一次查看所有报告。用户只需从工作簿底部的选项卡中访问他们的数据。您只需双击或拖放即可将字段添加到视图中。

地图

Tableau 不仅仅是图表和图形。也许您想了解天气如何影响地区销售,或者想了解特定地区或当地法律法规的统计数据。Tableau 的地图功能可以让你精确到城市和邮政编码的活动。Tableau 允许您向数据中添加易于理解的地理环境。

移动数组

有 24 个时区、七大洲和 195 个国家。今天的许多企业至少在某种程度上是一天 24 小时运营的。此外,越来越多的人至少有一部分时间在家工作,通常是在正式工作日之后。

强迫人们一天 24 小时坐在电脑前是不现实的,这就是为什么现代软件在联网的桌面或移动设备(如电话或平板电脑)上良好运行至关重要。 Tableau Mobile 让您的数据触手可及,无论您何时需要,甚至是在度假中。

安全性

网络安全或许是科技行业面临的最大热点问题。每年,我们都会看到数据泄露数量的大幅增长。糟糕的数据安全性将您的公司和客户置于风险之中。 Tableau 遵循所有安全最佳实践,包括加密、HTTPS 安全、账户验证、密码保护的密码、多重身份验证以及登录尝试失败后的锁定。

询问数据

把 Tableau 想象成你的数据的搜索引擎。用户只需要用他们的母语输入一个查询,Tableau 就会自动以可视化的方式回答。询问数据理解用自然语言表达的复杂问题,并支持分析性描述性、预测性和规范性概念。

询问数据理解时间问题,例如“最早”或“最后一个季度”此外,它还理解可量化的问题,如“最畅销”或“最受欢迎”,以及空间分析问题,如“在哪里”

画面是多么的不同

威瑞森、益百利、网飞和法拉利等公司依赖 Tableau 将数据转化为可操作的情报是有原因的(实际上是几个原因)。Tableau 可以连接几乎所有类型的数据库,它的“实时视觉分析”可以在非常用户友好的地图和图表中产生可操作的结果。

Tableau 是给决策者看的,他们想在行动前看到。它易于共享,是混合多种数据源的专家,并通过图表、图形和地图提供“实时”可视化分析。与许多 BI 工具不同,Tableau 处理来自各种来源的数据,包括内部、云和数据仓库。

谁使用 Tableau?

Tableau 提供各种功能来帮助各个行业,从技术到体育管理,以及介于两者之间的一切。此外,BI 工具为营利性部门、非营利性组织和政府机构的决策者提供了支持。

世界上许多最大的公司信任他们的数据和 Tableau 数据驱动的决策。然而,一家公司不一定要在财富排行榜上才能将数据转化为明智的商业决策。

Tableau 提供三种订阅级别,各种规模的公司,甚至是个体经营者都负担得起。

Tableau 创建者——每个用户每月 70 美元(注意,每个组织至少需要一个创建者)

创建者许可证可以访问 Tableau 的所有功能和控件。此外,它还包括许多高级功能,如服务器部署监控、服务器管理、编程内容迁移,以及引入其他数据源的能力。

Tableau Explorer——每位用户每月 42 美元

资源管理器许可证授予用户访问权限,以便与仪表板和可视化效果进行交互。此外,用户还可以下载、整理和共享数据和报告,但它不允许用户输入数据。Explorer 许可持有者可以管理用户和权限。但是,其他管理功能留给创建者。

Tableau Viewer——每位用户每月 15 美元

不足为奇的是,查看者许可证的权限最少。但是,用户可以查看仪表板和可视化效果并与之交互。虽然他们不能访问完整的数据集,但他们可以访问汇总数据。

Tableau 主要特征

  • 仪表板–组织数据的整体和可定制的可视化
  • 协作–实时共享数据和可视化,实现实时协作。
  • 实时和内存中的数据–使用 Tableau 的实时连接从源或内存中提取数据。
  • 高级可视化——自然,Tableau 创建条形图和饼图。尽管如此,它的高级可视化还包括箱线图、子弹图、甘特图、直方图、运动图和树形图,而这只是冰山一角。
  • 地图——Tableau 的地图功能可以让用户看到趋势发生在哪里。
  • 高度可靠的安全性–Tableau 遵循所有行业最佳实践。
  • 移动视图——通过手机或平板电脑创建仪表板和报告。
  • 问数据——Tableau 懂几十种自然语言。用户不一定要成为数据科学家才能在数据中找到答案。
  • 趋势线和预测分析——拖放技术为预测和预测创建趋势线。
  • 跨数据库连接–通过多个数据集揭示洞察力。
  • 嵌套排序–根据标题、轴或字段标签对数据进行排序。
  • 拖放集成–Tableau 的拖放功能创建了快速的用户驱动的定制和格式化。
  • 数据连接器–Tableau 支持几十个数据连接器
  • Prep Conductor–使用 Tableau Prep 清理和组织您的数据,并连接到数十个数据连接器中的一个。
  • 文本编辑器——以你认为有意义的方式格式化你的文本。
  • 修订历史–修订历史让决策者和查看者看到数据如何随时间变化。
  • 许可视图–所有许可证持有者都可以查看控制面板和报告
  • ETL 刷新–在添加新数据时自动或手动刷新
  • Web 数据连接器——连接到云以及几乎所有其他在线数据源
  • 分割功能–分割数据以在所有支持数据源中创建新字段

Tableau 产品

  • Tableau Desktop–Tableau Creator 的一个标准功能,Tableau Desktop 提供了一个交互式仪表盘和实时可视化分析
  • Tableau 服务器–安全的组织范围数据共享
  • tableau Online–通过浏览器或移动应用程序进行基于云的访问、发布和共享
  • Tableau Prep–Tableau Prep 帮助企业和分析师清理、组合和形成数据。Tableau Prep Builder 帮助建立数据流,Tableau Prep Conductor 让公司调度、监控和管理这些数据流。
  • tableau CRM–与您的 Salesforce CRM 协同工作,发现宝贵的客户见解。
  • Tableau Public–Tableau Public 对任何希望提高自己的分析技能或了解 Tableau 更多信息的用户免费开放。
  • 数据管理–确保您的业务决策基于最新的相关数据。
  • 服务器管理–快速、高效的集中式数据管理
  • 嵌入式分析–轻松定制、集成和部署自助式分析。
  • Tableau 集成–连接多个本地连接器和合作伙伴生态系统。

Tableau 的最新更新功能

数据和互联网在不断发展,Tableau 也是如此。其最新版本 2021.4 具有更新的虚拟连接、连接的应用程序和改进的 Slack 集成。

Tableau 的未来更新

  • 工作簿优化
  • 改进的搜索体验
  • Ask 数据的短语生成器
  • 内置的企业部署指南
  • 背景资源限制
  • 其他自定义
  • 拼花文件支持
  • 新加速器
  • 新连接器
  • 独立网关
  • 监控超级假脱机
  • 松弛集成监控
  • 根表交换
  • TabPy 模型评估
  • 滤波器性能优化
  • 改进的 Esri web 数据连接
  • 新的 viz 工具栏
  • 改进的 web 创作
  • 查看加速度
  • “静默”自动身份迁移
  • 管理员控制的基于使用的发布频率
  • 与 Tableau Prep Conductor 链接的任务功能
  • viz 加载时间的管理洞察
  • Tableau 准备中的增强参数
  • 加速客户参与视图
  • 宽松准备流程通知
  • Salesforce 数据虚拟连接支持
  • 简化的 OAuth 登录
  • Tableau 目录的虚拟连接集成

其他画面特征

Tableau 的新冠肺炎数据中心包含所有最新的地方、州、国家和全球数据,这些数据随时可以与您的数据融合,以创建可操作的情报,帮助您的公司随着疫情的推移而蓬勃发展。

疫苗管理使医疗保健和生命科学组织和政府机构能够跟踪疫苗分发和其他对结束疫情至关重要的指标。Tableau 甚至创建了自己的案例研究,以了解 COVID 如何影响其销售渠道。

Tableau 优势

Tableau 功能丰富且不断发展,但有几个功能非常突出。

  • 数据可视化——人类的大脑并不是为了理解页面上的一堆数字而设计的。Tableau 的数据可视化通过丰富多彩的交互式图表、图形和地图将这些数字呈现出来。
  • 拖放–Tableau 的拖放功能允许用户试验各种数据集并简化数据可视化。
  • 专为处理海量数据而构建——Tableau 可以管理来自不同数据源的数百万行数据。
  • 移动支持–用户不必受限于桌面来创建和查看定制报告
  • 问数据查询——大多数人不会用编程语言思考。Ask Data 允许用户用他们的自然语言创建查询。

Tableau 有多难?

Tableau 很容易上手。它的拖放功能意味着用户不需要了解 Python 或 R 等语言就可以创建可视化效果。然而,利用其更高级的特性需要一个学习曲线。

Tableau 中的职业

使用 Tableau 的作业类型

Tableau 非常适合任何数据驱动的组织,也就是说所有的组织。大多数 Tableau 职位,如开发人员、分析师、软件工程师等,都要求应聘者精通一些语言,如 R、SQL、Python、Java、C++、C#、TypeScript/JavaScript 等。此外,了解机器学习、建模和统计对大多数职位来说都是加分项,对一些职位来说则至关重要。

大多数 Tableau 开发人员每年能赚 10 万美元左右。高收入人群的收入在16.5 万美元左右。然而,额外的编码和数据科学技能会增加你对公司的价值。

谁在为 Tableau 招人?

接洽合作伙伴正在招聘一名 Tableau/SQL 开发人员。该职位要求申请人编写 SQL 查询,但他们也要求熟悉其他查询工具,如业务对象,水晶报表,Oracle,SAS 等。

该职位要求计算机科学、数据科学或相关专业的大学学位或证书(如 DataCamp 提供的)。该清单没有提到工资,但预计在 8 万美元至 10 万美元之间。

海湾国家丰田有限公司正在寻找一个建筑桌面。他们需要 SQL 以及开发和优化大型数据集查询的经验。该公司提供 7.1 万美元至 15.5 万美元的薪酬。

为什么你应该学习 Tableau

您已经知道数据呈指数级增长,这可能是吸引您加入 DataCamp 的原因之一。Tableau 允许公司混合和管理大型数据集,随着数据集的增长,对 Tableau 开发人员和分析师的需求也会增加。

即使没有计算机科学学位,DataCamp 也为其毕业生在 Tableau 的有利可图的职业生涯做准备。实践课程包括:

了解更多关于 DataCamp 如何让您为这个迷人且不断扩展的领域做好准备。

所有组织都需要至少一个创建者许可证持有者。创建者可以利用所有 Tableau 产品,包括服务器管理、数据监管和清理。从那里,它将取决于具体的需求。

Tableau Explorer 许可证授权用户使用现有数据创建可视化效果和仪表板。

Tableau 查看器许可证通常由 IT 部门以外的人持有,他们需要访问报告,但不一定具备构建仪表板的技能,例如销售和营销总监,甚至是首席执行官。

对于完整的功能,大多数组织购买 Tableau 桌面,这是 Tableau Creator 的标准配置。然而,Tableau 提供了其他几个产品,增强了 Tableau 平台的功能和便利性。

Tableau Server 允许组织范围内的共享,Tableau Server 允许组织在整个公司内共享数据。此外,Tableau online 允许员工在家或在现场时访问 Tableau。

Tableau Prep 是一个数据管理工具,用于清理、组合和整形数据以及管理流。

Tableau 运行在微软 Windows 8/8.1 和 Windows 10 上,以及 macOS Mojave 10.14、macOS Catalina 10.15 和 Big Sur 11.14 上

Tableau Mobile 在 Google Play 和苹果应用商店都有售。

Tableau 最大的优势之一是 Ask Data 能够理解来自数十种口语的自然语言查询。

有一个免费下载的 Tableau 版本,叫做 Tableau Public。虽然它的功能有限,但它是一个优秀的学习工具。

Tableau 支持几乎所有的数据连接器和数据源,包括电子表格、本地文件、数据仓库、云、关系数据库和大数据。

说到数据可视化,Tableau 几乎是无与伦比的。您可以通过图表、图形、地图、表格、图形、仪表板等查看您的数据。

Tableau 对所有数据驱动的部门都很有价值,包括销售、营销、会计、物流、人力资源、客户支持等。因为数据驱动决策,所有部门的决策者都需要访问 Tableau 报告。

Tableau 的财务分析消除了手动流程,并提供了做出明智财务决策所需的所有信息。从监控差旅和费用,到审计、风险和合规性分析,Tableau 对任何会计或财务部门都至关重要。

对 7 大热门数据科学职业的分析

原文:https://web.archive.org/web/20221129044127/https://www.datacamp.com/blog/an-analysis-of-the-top-7-trending-data-science-careers-to-pursue

数据处理、分析和可视化是使用 R 及其相应的软件包完成的。使用的笔记本和相关文件可以在这里找到

根据韦氏词典词典,数据是用作推理、讨论或计算基础的事实信息。根据这一定义,数据基本上是任何收集到的信息,这些信息可以被使用并进一步处理和分析以获得洞察力。它通常与计算机联系在一起,因为数据通常是在计算机中产生和存储的,然而数据存在的时间比我们想象的要长得多。

数据历史

人类存储和分析数据的最早例子可以追溯到公元前 18000 年,当时人们发现史前人类使用计数棒作为进行初步计算的手段。这些旧石器时代的部落人们在棍子和骨头上做记号来记录他们的活动,比如交易和监控供给。公元前 2400 年,巴比伦发明了算盘,一种用于计算的工具。

纵观历史,数据收集、处理和分析的不断发展通过大量的石碑、泥土、纸莎草纸、木头和纸卷上的文字体现出来。最终,随着更多形式的数据被发现,对处理、收集、存储和分析数据的需求也随之发展。

随着人类社会变得越来越先进,对处理数据的要求也越来越高。19 世纪,美国开始进行人口普查。人口普查中的数据点数量呈指数增长,美国人口普查局估计需要几年甚至几十年才能收集和分析人口普查中的所有数据。这在很大程度上是有问题的,因为只有在下一次人口普查即将开始或已经开始时,才能完成对当前人口普查数据的汇编和分析。幸运的是,一位名叫赫尔曼·何乐礼的年轻工程师兼发明家发明了霍尔瑞斯制表机——一种机电制表机,它将收集和分析人口普查数据所需的时间从几年缩短到仅仅几个月。正因为如此,霍尔瑞斯被认为是现代自动计算之父,后来因创立 IBM 而闻名。

快进到 20 世纪,电脑的发明。随着更强大的计算机器的出现,对数据存储提出了更复杂的要求。德国-奥地利工程师 Fritz Pfleumer 发明了一种在磁带上磁性存储信息的方法。他的发明的一些原理今天仍然被用于数字数据存储。在这个时代,“商业智能”一词变得流行起来,因为对新兴软件以及用于分析商业和运营绩效的系统的需求迅速增长。

当蒂姆·伯纳斯·李在 1989 年创建了万维网,也被称为互联网时,数据革命真正改变了。这导致了全世界人们之间的自动化信息共享。这意味着如今更多的数据被共享、创建和存储,从而产生了收集、使用和分析数据的新方法。

向“大数据”过渡

由于 20 世纪 90 年代互联网的惊人增长以及个人电脑和计算设备的稳步发展,在线设备的数量(以及随之产生的数据量)快速增长。

虽然大数据的概念甚至在 20 世纪 90 年代之前就已经存在,但直到 2005 年 Roger Mougalas 才正式给它贴上标签。他将其描述为“使用传统商业智能工具几乎不可能管理和处理的大量数据。”

大数据是一个用于描述大量数据的术语,包括结构化和非结构化数据,这些数据每天都让组织不堪重负。它包括信息量、创建和收集信息的速度以及所涵盖的数据点的种类或范围。

鉴于大数据的规模和复杂性,收集、组织和分析大数据以发现模式和其他有用信息的过程已经成为帮助许多组织做出业务决策的一部分。反过来,这又催生了数据科学——这是一个跨学科领域,它使用来自大量数据的科学方法、流程、算法和系统来揭示模式,并使企业领导人能够获得明智的见解。

什么是数据科学?

根据 IBM 的说法,数据科学是一种多学科方法,用于从当今组织收集和创建的大量且不断增长的数据中提取可操作的见解。该领域通常需要计算机科学和纯科学技能,因为数据科学家在他们的方法中应用科学方法,并使用预测分析和人工智能从数据中提取见解。

如今,“数据科学”经常被企业和组织用作处理大量数据的过程的总称,无论是准备、清理、分析还是可视化数据以揭示模式。这些只是人们可以从事的数据科学职业的一部分:

  1. Data Scientist:

    数据科学家需要能够应用数学、统计学和科学方法;使用多种工具和技术清理和准备数据;执行预测分析和人工智能;并解释如何使用这些结果为业务问题提供数据驱动的解决方案。他们比数据分析师需要更多的技术技能。首先,你可以在 DataCamp 上学习面向数据科学的课程,比如:面向数据科学的 Python 简介R 简介

  2. Data Analyst:

    数据分析师收集、处理和执行统计数据分析,以得出对组织有意义的结论。它们将大型数据集转换和操作成可用的形式,如报告或演示。他们还通过研究重要的模式来帮助决策过程,并从数据中收集见解,然后他们可以有效地与组织领导沟通,以帮助业务决策。DataCamp 上的这些课程可能会帮助你开始你的数据分析师生涯:SQL 简介SQL 中的探索性数据分析

  3. Data Engineer:

    数据工程师负责准备、处理和管理收集和存储的数据,以供分析或操作使用。像传统的工程师一样,数据工程师构建和维护数据“管道”,将数据从一个系统连接到另一个系统,使数据科学家可以访问信息。因此,数据工程师需要了解数据科学中使用的几种编程语言,如 Python、R 和 SQL。像这样与数据工程相关的话题在 DataCamp 上都有:数据工程简介面向所有人的数据工程

  4. Data Architect:

    数据架构师主要为数据工程师构建的数据管理系统设计和创建蓝图。与传统架构师类似,数据架构师是“远见者”,因为他们负责可视化和设计组织的数据管理框架。此外,数据架构师提高了现有系统的性能,确保数据库管理员和分析师可以访问它们。你可以参加与数据架构相关的课程,比如 DataCamp 上的课程: AWS 云概念数据库设计

  5. Business Intelligence (BI) Developer:

    BI 开发人员是专门的工程师,他们使用软件工具将数据转化为有用的见解,以帮助业务决策。他们负责简化技术信息,以便公司中的其他人容易理解。简而言之,他们创建并运行包含使用商业智能工具找到的数据的报告,并将信息转换成更通俗的术语。DataCamp 上提供了关于使用商业智能相关工具的课程,如微软 Power BI 和 Tableau,如:Power BI 简介分析 Tableau 中的数据

  6. Statistician:

    鉴于统计学是数据科学的主要基础之一,许多统计学家可以很容易地过渡到数据科学领域。统计人员主要负责数据的收集和处理。他们决定需要什么数据以及如何收集数据。此外,他们设计实验,分析和解释数据,并报告结论。您可以在 DataCamp 上查看这些统计学入门课程:R 中的统计建模简介电子表格中的统计简介

  7. Machine Learning Engineer:

    机器学习工程师是另一群专门的工程师,他们专注于研究、构建和设计人工智能(AI)和机器学习(ML)系统,以自动化预测模型。基本上,他们开发算法,使用输入数据并利用统计模型来预测输出,同时随着新数据的出现不断更新输出。DataCamp 有许多与机器学习相关的课程,你可能会发现这些课程很有用,例如:面向所有人的机器学习带插入符号的机器学习

快速的网上求职可以让你知道上面列出的哪种数据科学职业道路最受欢迎。下图显示了截至 2021 年 12 月 8 日实际上是美国的每条职业道路的职位空缺。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据架构师似乎是最受欢迎的数据科学职业道路,因为他们在创建其他数据科学专业人员随后使用的数据管理系统方面非常重要。名单上的下一个是机器学习工程师,因为在许多科技公司中,利用人工智能预测结果非常重要。

需求最少的是统计学家,主要是因为许多传统的统计学家现在正在成为数据科学家。鉴于统计学家从纯统计转向数据科学是多么容易,因为他们已经拥有成为一名成熟的数据科学家所需的基础知识,这一趋势预计将继续下去。

数据科学没有减速

数据科学领域在 2010 年代非常受欢迎,尤其是当“数据科学家”被《哈佛商业评论》吹捧为“21 世纪最性感的工作”时。它变得如此受欢迎,以至于“数据科学家”这个头衔成了一个无处不在的时髦表达。虽然“最性感的工作”这个词一开始听起来确实很荒谬,但它主要指的是数据科学家不仅受欢迎,而且雇佣成本高昂,难以留住。

毫无疑问,数据科学如今非常受欢迎,但更好的问题是,它在未来还会如此受欢迎吗?根据就业预测,情况似乎确实如此。来自美国劳工统计局的 2020-2030 年就业预测数据显示,从 2020 年到 2030 年,数据科学职业,包括统计学、数据科学和其他基于数学和科学的职业,如数据工程,将以百分比变化的形式呈现非常高的增长率。统计学家总体排名第 14,而数据科学家和其他数学科学职业在数据包含的 790 个职位中总体排名第 31。

虽然与其他职业相比,统计学家和数据科学家在总劳动力中所占的份额较小,但随着数据科学职业道路越来越受欢迎,这些数字预计将在未来几年内增加。下图显示了统计学家、数据科学家和其他数学科学职业与其他高增长工作的对比。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个非常昂贵的领域

数据科学受欢迎的一个主要原因是因为它是世界上薪酬最高的工作之一。下图显示了纽约市 10 种不同职业的薪资范围,包括数据科学家和数据分析师。这些数据来自于一个名为 Teleport 的网站,该网站收集了不同城市的生活条件(如工资)数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据 Teleport 的数据,数据科学家的年薪中位数在纽约市排名第四,为 114105 美元,仅次于高管和医疗保健工作者。事实上,在马尼拉等其他一些城市,数据科学家的排名高达第二,仅次于 C 级高管。这足以说明这份工作有多赚钱。数据分析师的工作虽然不像数据科学职位那样赚钱,但仍然不容忽视。数据分析师的年薪中值为 61,818 美元,仍接近纽约市的平均家庭收入。

在就业市场不断增长

数据科学受欢迎的另一个主要原因是,如今组织如何将数据科学的原则集成到日常运营中。下图显示了工作中涉及数据科学的 10 大行业。8000 家面向数据科学的公司的样本数据都是从全球最大的知识图谱 Diffbot 中提取的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

毫不奇怪,软件公司——包括谷歌、苹果和优步等科技公司——拔得头筹。毕竟,大数据的异常增长是由互联网的诞生引起的,而互联网与软件和技术密切相关。数据科学实际上是使用各种工具和技术处理大量信息。

名单上的下一个是金融服务公司,这是由金融科技公司的崛起带来的。作为“金融”和“技术”的结合体,金融科技公司将技术和创新融入其服务和产品中,以改善其对客户的交付,并颠覆传统的金融服务。由于它涉及处理大量数据(如客户信息),金融服务公司看到了数据科学工具在帮助简化和优化流程以及改善服务方面的潜力。

总之,从事数据科学职业值得吗?

有了以上所有的解释,答案是肯定的!至于你应该走哪条具体的数据科学职业道路,这主要取决于你的个人优势和一般兴趣。重要的是,上面提到的任何一个职业,肯定都是值得的。

数据科学是一条非常有利可图的职业道路,而且在受欢迎程度方面似乎没有放缓的迹象,在未来许多年里,数据科学将继续塑造和影响企业和组织的运营方式。

弗朗索瓦·乔莱访谈

原文:https://web.archive.org/web/20230101103400/https://www.datacamp.com/blog/an-interview-with-francois-chollet

弗朗索瓦·乔莱(Franç ois Chollet)是一名人工智能和深度学习研究人员,是领先的 Python 深度学习框架 Keras 的作者,并出版了新书 用 Python 进行深度学习 。为了配合这本书的发行,我有幸通过电子邮件采访了弗朗索瓦。欢迎通过 @fchollet@hugobowne 联系我们。

弗朗索瓦,你是谷歌的软件工程师和人工智能研究员。我想更多地了解你的工作。但是首先,人们实际做的事情和大众对他们所做的事情的印象是不一致的。人们认为你是做什么的?

这是一个敏锐的观察,人们所知道的,他们希望被知道的,以及他们实际上正在做的,通常是有差异的。就我而言,我最出名的可能是创建了深度学习框架 Keras。

你实际上是做什么的?

我在山景城的谷歌大脑团队工作,在那里我花了大部分时间开发 Keras。所以我相信我做的和人们认为我做的有很好的一致性。

我还为谷歌的机器学习框架 TensorFlow 做出贡献,Keras 与该框架进行了集成。此外,我还对一系列课题进行研究。最近,我在写关于机器翻译、计算机视觉以及将深度学习应用于定理证明的论文。我的主要研究兴趣是理解人工智能中的抽象和推理问题——如何从感知到抽象、高度概括的模型。

你作为 Keras 包的作者而闻名,Keras 包是 Python 中深度学习的开源神经网络:什么是深度学习?

深度学习是机器学习的一种特定方法,它比以前的方法更加强大和灵活。在大多数应用程序中,我们所谓的“深度学习”可以被认为是一种将大量由人类注释的数据转化为一个软件的方法,该软件可以以类似于人类的方式自动注释新数据。通过这种方式,您可以自动化许多不同的任务。深度学习尤其擅长理解“感知”数据,如图像、视频或声音。

这里有一个具体的例子。考虑一个大的图片集合,每个图片都有一些标签(“狗”、“猫”等)。深度学习可以让你自动将数据转化为一个“理解”如何将图片映射到标签的系统,只需从例子中学习,不需要任何手动调整或定制工程。这样的系统可以应用于新的数据,有效地自动化标记图片的任务。

同样,你可以将深度学习应用于广泛的问题,如机器翻译、语音识别、文本到语音、光学字符识别等。

恭喜你的新书,用 Python 深度学习。你为什么写这本书?

这本书是我试图提出一个课程,向具有 Python 编码能力但没有机器学习背景的人教授深度学习。我试图让深度学习尽可能容易理解,而不降低任何东西。事实证明这是可能的,因为在深度学习中,大多数情况下没有困难的想法。

Python 可以说是发展最快的编程语言,至少在高收入国家是如此。为什么选择 Python,对您和更广泛的编程社区都是如此?

我喜欢 Python。它很容易上手,而且随着你学会使用它,它会变得越来越有效率,不管你已经用了多长时间。与我用过的大多数其他语言相比,它感觉非常直观和优雅。但 Python 真正的杀手级特性并不在语言本身,而是周围的生态系统和社区。无论您需要做什么——解析特定的文件格式,与特定的系统交互——几乎肯定有 Python 库来完成,所以您不必花时间来实现它。尤其是在数据科学和机器学习方面,有很多很棒的工具——numpy、pandas、scikit-learn、绘图库等。这使得 Python 成为一种非常高效的语言。

此外,我喜欢 Python 不是特定于领域的语言,而是它位于多个领域的交叉点,从 web 开发到数据科学再到系统管理。例如,这意味着您不必切换到新的语言来将 Keras 模型部署为 web API。无论你需要做什么——启动一个 webapp,查询一个 REST API,解析一些文件,训练最先进的深度学习模型,Python 通常是一个相当可靠的选择。

对于希望进入机器学习和开发人工智能学科的人来说,存在一个明显的准入障碍。你对必备技能和技术的民主化有什么看法?

我不认为那是真的。在过去的 5 年里,进入机器学习变得极其容易。当然,5-7 年前是艰难的。你可能需要研究生教育。你需要自己编写许多低级算法,通常是用 C++或 Matlab。我经历过。现在不同了。你只需要 Python,它容易掌握得多,并且你可以使用像 Keras 这样的高级和易于使用的工具。此外,你可以从大量高质量的在线资源中学习,也可以在 Kaggle 上练习解决现实世界中的问题。学习从未如此简单。

因此,在这一点上,你可以,比如说,拿起我的书,安装 Keras,做一些 Kaggle 挑战,几个月后,你就会变得相当有效率地使用机器学习和深度学习来解决实际问题。

Keras 和你的新书是如何融入这种哲学的?

当我最初发布 Keras 时,我并没有特别试图将深度学习民主化。但随着时间的推移,我看到无数人通过 Keras 学习深度学习,并用它以我意想不到的方式解决了大量问题,这真的让我着迷。我已经意识到,深度学习可以以变革的方式部署到比硅谷人所怀疑的更多的领域。有太多的人可以从工作中使用深度学习中受益。因此,我越来越关心让尽可能多的人使用这些技术,这已经成为 Keras 的头号设计目标。这是我们最大限度地部署人工智能的唯一方法——让它广泛可用。

我的书试图在同一方向上迈出另一步:我试图让尽可能多的人正确地参与深度学习,这样他们就可以开始用它来解决他们熟悉的问题,而我甚至不怀疑这些问题的存在。仅仅提供易于使用的工具是不够的,你还应该提供学习材料来教人们如何使用这些工具。

初学者学习最重要的是什么?他们怎么能这样做?

最重要的大概是对深度学习能做什么,不能做什么有个大概的认识。并且感受关键的最佳实践,例如如何正确地评估模型以及如何防止过度拟合。这需要正式的解释和对现实世界问题的大量实践相结合。

对很多人来说,人工智能这个术语会让人想到有感知能力的机器人。我们看到诸如“谷歌人工智能创造了自己的‘孩子’人工智能,比人类建造的系统更先进”的头条新闻。我需要你的帮助来揭开人工智能到底是什么的神秘面纱。人工智能有什么能力?

毫无疑问,这个领域有很多炒作。大多数关于人工智能和深度学习的媒体报道都与现实严重脱节——无论是吓人的故事还是关于人工智能将如何让一切变得美好的故事。

至于 AI 今天能做什么,那是个难题。我认为人工智能可以做三类事情:

  • 在我们能够完全、明确地指定人工智能需要遵循的规则的地方做任务。这本质上就是所谓的“符号人工智能”,或者更务实地说,“软件开发”。任何做过编程的人都知道,这种方法是脆弱的,只在每个人都在控制之下的情况下有效——这在现实世界的问题中很少出现。
  • 做简单的感知和直觉任务,我们不能明确指定规则,但我们能够提供许多任务的例子。这包括所有的深度学习:分类图片,转录语音等。在这方面,我们能力的一个重要限制是,我们的模型只能处理非常接近他们以前所见的输入——你不能离你的训练数据太远。我们在这里做的基本上是美化的高维曲线拟合。
  • 以上这些相当幼稚的组合。例如,你可以想象一个机器人,它有一个深度学习模块,可以提取周围许多物体的类型和位置,通过许多例子进行训练,再加上一个硬编码高级规则的模块来操作这些物体。另一个例子是 AlphaGo/AlphaZero,这基本上是蛮力搜索(显式编程)与经过大量游戏训练的深度学习模块的结合,可以“直观地”评估棋盘位置的价值。

碰巧的是,当最大限度地利用当前技术的潜力时,你可以在许多重要的任务上获得超人的表现,并且在更多的任务上获得体面的表现。但这仅在非常狭窄的环境下才有可能。而且,也许与直觉相反,没有一条真正的道路能让你非常擅长许多不同的垂直任务,拥有甚至是一个蹒跚学步的孩子的一般智力和常识,更不用说它的学习和适应能力了。

也就是说,真正擅长许多非常狭窄的任务对于大多数行业来说是变革性的。因此,你可以预计人工智能将在未来 20 年带来巨大的经济冲击。你可以将人工智能视为我们时代的蒸汽机——人类手中非常强大的工具,将在几十年内重塑经济格局。但是看不到有意识的机器人。

人工智能不能做什么?

在我们可能希望能够自动化的所有事情中,人工智能今天只能处理非常小的一部分。我们不能做的事情远远多于我们能做的事情。

总的来说,我们尤其不擅长:

  • 任何需要“接地气”或者“懂”的东西。例如,人工智能无法理解自然语言的含义,而是根据统计依赖或硬编码的处理规则来处理语言。“意义”,因为它存在于人类的头脑中,来自人类经验的体现,这是我们的人工智能模型无法访问的。至少现在是这样。因此,今天没有一个人工智能系统能够以对人类有意义的方式“理解”它的任务。模型仅仅描绘了它们的训练数据的统计流形。
  • 任何涉及处理不同于人工智能之前所见的数据的事情。人工智能只能应用你明确编码的规则,或者识别非常非常接近它被训练的东西。你在任务中引入的不确定性或变化越多,我们的能力就呈指数衰减。
  • 任何涉及推理和抽象的东西。要么我们可以将显式推理规则硬编码到机器中,要么我们根本无法执行推理。当前的人工智能无法用自己的抽象模型来解决一个情况。可以说这是今天人工智能发展的主要瓶颈。如果你解决了这个问题,你很快就能克服前两个问题。

我写了一篇名为深度学习的局限性的博文来讨论这个问题和相关问题。

深度学习社区面临的主要挑战是什么?

打击炒作,培养道德意识,获得科学的严谨性。

炒作:这是困扰我们领域的问题。有些人以荒谬的方式大肆宣传最近的进展,极大地夸大了我们目前的能力,并经常把人类水平描绘成指日可待——事实并非如此。如果我们设定了极高的期望,却无法实现,我们就是在让人们反对我们。此外,这只是智力上的不诚实,对公众辩论有害。

伦理:今天部署人工智能系统的大多数人并没有来自特别多样化的背景,并且通常幸福地意识不到他们构建的系统的伦理含义和有害的副作用。这是一个主要问题,因为这些人对其他人的权力越来越大。我们需要更多地讨论这些问题,并提高对人工智能可能的不道德应用的认识,无论是影响人们生活的有偏见的预测模型,人工智能在真正有问题的地方应用,还是人工智能被用来以危险的方式操纵我们的行为和观点。

科学:每天都有大量的深度学习论文发布,其中大多数并没有真正产生任何有意义的新知识,因为它们没有遵循科学的方法。他们以模糊的方式“评估”模型,或在他们的训练数据上测试过度拟合模型(这尤其适用于生成模型和强化学习,这是深度学习研究中发展最快的两个主题),挑选结果,使用人工弱基线,以导致过度拟合特定任务的方式调整超参数,仅在 MNIST 上评估模型,等等。深度学习是科学的灾难地带。同行评审通常不会以任何有意义的方式解决这些问题,可能部分是因为大多数同行评审员通常最多在该领域工作一两年(因为该领域正在呈指数增长)。如果我们想取得更快的进展,我们需要在研究的可重复性、基线、模型评估和统计显著性方面给这个领域注入更高的严谨性期望。可悲的是,我们目前的激励体系对科学有偏见——我们激励出版,不幸的是,如果你让你的研究听起来复杂而神秘,同时又不可能正确评估其意义,那么出版就更容易了。

在你看来,深度学习的未来是什么样的?

我实际上写了一篇关于这件事的博文。总之,我预计人工智能将越来越多地将“直觉”模式识别模块与形式推理模块融合在一起。我也期待人工智能发展成为更像自动化软件开发的一种形式,借用当今软件工程中的许多模式和实践。

你不仅仅是一名开发者。在 keras 的博客上,在文章中,在你的书中和 twitter 上,你对围绕深度学习、人工智能和技术的伦理问题进行了思考和发言。你认为开发人员有义务对他们所做的工作进行道德考量吗?

毫无疑问。我认为这是近年来整个科技领域所缺乏的。例如,看看脸书。或者最多智能手机游戏。技术从来都不是中立的——因为它强大,因为它影响我们的生活。你设计产品和技术的方式是积极地给它们注入价值,不管你是否意识到这一点。所以你最好慎重考虑一下。如果你建立了一个社交媒体平台,并试图最大化“参与”,那么,这是一个伦理上的决定,具有重要的意义。要么我们关心道德,让道德成为我们建立的技术和权力结构的明确设计目标,要么我们放弃我们的价值观。如果你在科技行业,你不能选择“旁观”,那是一种错觉。

安德鲁·盖尔曼讨论选举预测和投票。(文字记录)

原文:https://web.archive.org/web/20221129045010/https://www.datacamp.com/blog/andrew-gelman-discusses-election-forecasting-and-polling-transcript

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://web.archive.org/web/20220630231146if_/https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/509583168%3Fsecret_token%3Ds-aSj38&color=%23ff5500&auto_play=false&hide_related=false&show_comments=true&show_user=true&show_reposts=false&show_teaser=true

下面是播客链接

介绍安德鲁·盖尔曼

雨果:你好,安迪,欢迎来到 DataFramed。

安德鲁:你好。

雨果:很高兴你能来参加我们的节目,我很高兴今天你能来谈论投票和选举预测,但在此之前,我想先了解一下你的情况。我的第一个问题是,你在数据社区以什么闻名?

Andrew:什么是数据社区?

Hugo:我认为,数据社区是当今从事数据分析技术、数据科学和大型杂乱数据集工作的人的粗略广泛的集合。

安德鲁:我最出名的可能是《贝叶斯数据分析》一书的作者之一,这本书于 1995 年出版,但从那以后我们已经出版了两个版本。这是一本书,我喜欢把它看作是第一本应用贝叶斯统计的书。所以,很多研究贝叶斯统计的人都是通过我们的书,或者用这本书作为参考。

贝叶斯统计

雨果:太好了。也许你能告诉我们更多关于贝叶斯统计的一般知识,只是作为介绍。我想我们通常会讨论两种类型的统计,贝叶斯统计和频率统计,对吗?

安德鲁:所以,在贝叶斯统计中,所有的未知,所有的未知参数和预测都与概率分布相关联。所以你用贝叶斯推理解决问题的方法是,你把你所有的已知和所有的未知放入一个联合概率分布中,然后用概率定律,在已知的情况下,对未知做出陈述。

Hugo:所以,你实际上已经做了很多工作,用一种叫做 Stan 的语言实现了很多贝叶斯技术,对吗?事实上,在这种语言中,正如你提到的,概率分布是贝叶斯统计的核心对象。我想在 Stan 和其他所谓的概率编程语言中,分布是一等公民,对吗?

安德鲁:对。没错。所以,我可以给你一个简单的例子。假设你正在进行一项教育创新,你想在干预后看看学生的考试成绩。所以你从基本的统计学概念开始,你拟合一个线性回归模型,假设给定他们的预测试分数,预测测试分数,并给出他们是接受治疗还是控制的指标。这是回归,还不是贝叶斯。只是统计建模而已。

安德鲁:它会变得或多或少的困难,它会变得非线性,你可以控制更多的预测因素,不仅仅是你的前测,而是所有的学生特征。你可以做无数的事情。它之所以是贝叶斯,是因为这个回归模型有参数,比如治疗的效果,后测在多大程度上可以从前测中预测出来。有一些参数,比如你的方差有多大,分布的形状,等等。

安德鲁:所有这些参数都有一个概率分布。我们称之为先验分布。所以,你把这些和你的数据一起放入 Stan,然后它给你一个后验分布,代表你在看到数据后对参数的不确定性。

雨果:所以,贝叶斯数据分析和贝叶斯推理,我认为,从历史上看,我们已经看到它们非常强大,但可能还没有像贝叶斯人希望的那样被广泛采用。我认为很多学习者,很多学习数据科学和统计推断的人,可能会发现贝叶斯数据分析甚至有点可怕。首先,这是对的吗?第二,为什么会这样,我们如何纠正这种情况?

安德鲁:在贝叶斯统计中,你有点像在和魔鬼做交易。你假设一个概率模型,所以你做了一个大的假设,做了这个假设,你就可以对任何事情做出预测。所以,我认为,也许在某种程度上它有点可怕,因为它太强大了,太容易使用了,就像那些 3D 打印机一样,人们害怕它们,因为它们可以打印任何东西。因此,在贝叶斯统计中,即使你有弱数据,你也可以得到推论,然后推论由你的先验分布驱动。贝叶斯统计中有一句话,权力越大,责任越大。这意味着,在贝叶斯推理中,检查你的模型的适合度,检查你的模型的合理性是非常重要的。

安德鲁:从这个意义上说,有两种统计方法。一种方法是做出非常小的假设,另一种方法是做出最大的假设。贝叶斯方法实际上是你做出最大的假设。我想说的是,你创建一个从你的假设到你的结论的书面记录,然后如果你的结论没有意义,你会发现你的假设有什么问题。出问题的可能是你的数据模型。也许你的取样有偏差,你没有意识到这一点。但是,不管是什么,在你需要来回的地方,你需要在你的假设和结论之间进行交流。

安德鲁:很多人宁愿在没有假设的情况下工作,有时你可以,我们可以谈谈例子,但基本上,如果你有一个清晰的问题和良好的数据,那么你就不需要在大量假设的情况下工作,除非假设你有良好的数据。随着数据质量变得更差,随着你的问题变得更难回答,你需要加入更多的假设,然后贝叶斯推理变得更有用。

雨果:当然,你在文章中提到的一个很棒的事情是事后检查你的模型的能力,我们现在有足够的计算能力来做到这一点,对吗?例如,一旦我们有了模型,我们就可以模拟数据的真实情况,并与我们实际看到的数据进行比较。

安德鲁:没错。我们称之为后验预测检验。人们已经这样做了很长一段时间,他们只是没有在那个名字下。统计学家弗雷德里克·莫斯特勒(Frederick Mosteller)在 20 世纪 50 年代写了一本书,他们在书中分析了一个实验的数据,这个实验被称为随机学习实验,他们实际上是给笼子里的狗电击,然后观察狗用了多长时间才知道电击即将到来。因此,他们有这个概率模型,然后在拟合模型后,他们模拟假数据,并将假数据与真实数据进行比较。

Andrew:在 20 世纪 70 年代,统计学家 Brian Ripley 从事空间统计工作,他因为参与 R 而变得非常有名,Brian Ripley 拟合空间模型,并再次做了同样的事情。他有一个似乎有点合理的模型,他从模型中刺激复制的数据,它看起来不像真实的数据,这启发了他扩展他的模型。所以,正是这样的例子促使我们将模型检查的想法形式化。我认为人们总是检查他们的模型,但是有一种感觉是它已经在系统之外了。这并不是说人们不好意思检查他们的模型,而是人们几乎会想,“我是个好人。我是一个好公民。所以,我检查我的模型。”它还没有被正式包含到统计学中,在贝叶斯框架中,你可以做到这一点。您可以将模型检查放在过程的中间,而不会感觉到它是您正在做的一些外部事情。

Hugo:我很高兴你提到了这个原因,这是我的下一个观点,它实际上融入了贝叶斯工作流,即模型检查的思想。

安德鲁:是的。

雨果:这就是贝叶斯数据分析。在数据社区中,您还有其他什么出名的事情吗?

安德鲁:我想说的是,我因统计图表而闻名,因为在 21 世纪初,我做了大量工作,试图将统计图表与统计分析相结合。因此,传统上,有这样一种想法,探索性数据分析是看着你的数据,发现有趣的模式。验证性数据分析就像处理数字,得到你的 p 值。探索性的数据分析,又一次,在统计学之外。它的支持者经常会说,“忘记所有这些愚蠢的建模东西,让我们直接看数据吧。”

安德鲁:但是,有趣的是,如果你仔细思考,探索性数据分析会发现意想不到的东西。所以,说我发现了意想不到的东西,是相对于预期的。事实上,当探索性分析与模型联系在一起时,它是最强大的。所以,我认为探索性的数据分析和统计图表,以及从可视化的数据中学习新事物,实际上非常适合贝叶斯推理和正式的统计建模。因为你符合模型,你的模型越好,你从它的伪造中学到的就越多。

安德鲁:那么,很久以前,哥白尼就有了行星围绕太阳做圆形轨道运行的模型,这很容易被证伪。但是后来,开普勒转到了椭圆轨道,所以伪造变得更加有趣,等等。所以,每次我们有了一个模型,就会激发更复杂的图形,让我们学到更多。

你是如何进入数据科学和统计学领域的?

Hugo:那么,你最初是如何进入数据科学和统计学领域的?

安德鲁:我从小就擅长数学,实际上我写过这方面的文章,不过我上高中时参加了数学奥林匹克培训项目,我发现有人比我更擅长数学。那时我们有一个非常天真的观点,所以我们不知道应用数学,我们只知道这个叫做数学的东西,我们认为能力是一维的。但无论如何,我去了大学,学习物理和数学,我不想成为一个纯粹的理论家。我只是觉得我不够好,不能以那种方式做出有用的贡献。我第一次上概率课是因为它是在晚上,这符合我的时间表。

安德鲁:所以,我学了概率和随机过程,然后学了统计学,我非常喜欢。在统计学中,我关心的每件事之间都有某种连续的联系。所以,在我能做的事情之间有一种联系,比如数学,还有政治,公共卫生,经济学,社会学,所有这些事情。从这些关于我们国家正在发生的事情,世界正在发生的事情,人们如何学习,所有类似的事情,通过定性思考,统计建模,数学分析,编程,所有这些事情的定性思考中,有一种连续的线索。所以,它对我来说非常完美。

安德鲁:我有时认为统计学应该被称为数学工程。他们有电子工程和机械工程,统计学是数学工程。

雨果:我喜欢这一点,你在这里暗示或直接谈到的是,这是你的才能和数学技能的结合,也是你对政治和社会科学的浓厚兴趣。

安德鲁:对。在大学里,我辅修了政治学,所以我觉得这很有趣。政治学是一个有趣的领域,因为你不会像在技术领域那样取得进步。你可以说从技术上来说,我们可以做各种各样高斯做不到的事情,无论如何,我相信当他看到它的时候,他可以弄明白,但是我们只是知道他们不知道的东西。在政治中,我们知道哪些霍布斯不知道的事情?嗯,很难说。很多具体的东西,比如在职优势的大小等等,但是有一点不同。更像是建筑之类的东西。我们现在有建筑,但你只是建造服务于当前目的的东西,那么也许技术的原理会改变。但是总的原则没有改变。

数据科学和统计学作为学科面临的最大挑战是什么?

Hugo:所以,在我们开始投票和选举预测之前,我想更概括地谈谈数据科学和统计学。我只是在想,现在是 2018 年,从现在开始往前走,你认为数据科学和统计学作为学科面临的最大挑战是什么?

安德鲁:一般来说,我认为统计推断有三个挑战。第一个是从样本到总体的推广,这是一个与调查抽样相关的问题,但实际上几乎在统计推断的每个应用中都出现。人们有时会说,“等等,我有 50 个州的数据。这就是人口。我们不会很快拥有第 51 个州。”即使这样,我也会回答,“好吧,你有去年和过去 10 年的 50 个州的数据,你感兴趣的是明年的 50 个州。”所以,总会有一些概括。所以,统计抽样的想法总是会出现。

安德鲁:统计学的第二个基本挑战是从对照组推广到治疗组。很多时候,我们感兴趣的是一些治疗或干预的效果,显然是像药物、教育干预或商业决策这样的事情,但也有各种社会科学的东西。每当你问为什么事情会发生,你就是在含蓄地问如果我改变一些事情会发生什么。除了极少数例外,我们没有匹配的对照组和治疗组。通常情况下,你可以做些什么的人与没有接受治疗的人是不同的,因此需要做出一些调整。

Andrew:第三个是从观察到的测量结果归纳到感兴趣的潜在结构。所以,这在教育测试中最为明显。你想知道能力,但你得到的是考试分数。所以,我们花很多时间设计仪器,设计调查问题,实验室测量。Theranos 公司的那些人,那些欺诈性的验血人员,他们所做的一切都是为了测量。所以,当你谈到挑战时,我认为那些是旧的挑战,它们仍然是新的挑战。大数据往往是杂乱的数据。所以,这不是一个随机样本,这是一个便利样本,这是一个选择加入的样本。你没有控制和治疗小组,人们选择他们自己的决定去做什么。通常,你没有对你所关心的东西进行仔细的测量,你通常只是从另一个来源获得数据,你试图适应这些数据。

安德鲁:因此,如果你想得到好的预测和合理的答案,并学习,你需要调整样本和总体之间的差异。你需要调整对照组和治疗组之间的差异,你需要建立你所关心的和你所测量的之间的联系。所有这些都需要大量的建模工作,因此,我们通常会说,你要么得到好的数据,要么得到好的模型,要么两者兼而有之。你必须做一点数据,一点工作,你必须做数据收集的工作,你还必须做模型的工作。因此,如果你有大数据,你需要大模型,那么这将需要大量的计算,这将是昂贵的。所以,你需要算法来拟合模型,近似拟合模型。我们这边有些好东西。例如,当你得到大量数据时,你的推论通常会变得更稳定,它们不一定会收敛到正确的答案,但事情可能看起来更正态分布,这来自中心极限定理。所以,这表明当你有大量数据时,某些统计方法,某些近似法可能会很有效。这很好,因为当你有很多数据时,你就更需要近似值。因此,有很多这样的事情,在应用和研究议程之间移动,但研究是为了适应这些大模型并理解它们,这将继续是一个挑战。

雨果:所以,这些都是非常重要的观点,我们实际上会通过民意调查和选举预测的镜头看到更多的关注。在我们到达那里之前,这个统计推断和统计建模的想法,我想知道怎样才能成为那个对话的一部分。我想,我的问题是,作为人类,我们不一定有良好的统计直觉,我想知道,作为一名教育工作者和统计学家,你希望看到一般人群的统计和数据素养发生变化吗?

安德鲁:看待这个问题有不同的方式。其中一些是程序性的。所以,如果有一个期望,当你有一个分析,你把你的数据放在 GitHub 上,你把你的分析放在 GitHub 上,它都是可复制的,我认为这将有所帮助。这不会让人们的分析更好,但会让人们更容易看到哪里出了问题。令人惊讶的是,让人们说出或写出他们到底做了什么非常困难。我在学生中发现了这一点,但即使是我也曾在咨询环境中遇到过,那里可能有另一方的专家,他们进行分析,并写下他们的分析,但你无法理解他们做了什么。他们会从教科书上复印三页,然后说,“我们做到了。”他们也不说他们的数据从何而来。我开始意识到很多人甚至不知道他们做了什么。人们没有工作流程,他们只有一堆数字,他们开始摆弄这些数字,在电子表格的不同位置进行计算,然后在最后,他们拿出一个数字,写下来,输入到他们的报告中。所以,那个著名的例子,莱因哈特和罗格夫在几年前的经济学论文中犯了错误,但是许多发表的期刊文章不仅结果没有重复,而且人们回到文章中发现论文中的数字甚至与他们自己不一致。例如,他们会说有一定数量的情况,然后他们会有一个百分比,但该百分比与分母的任何比率都不对应,或者他们有估计值、标准误差和 Z 分数,但它们不对应同一事物。

安德鲁:我刚刚开始意识到人们根本没有工作流程。需要一个工作流程会有所帮助。说到理解,你可能在小时候就听说过,如果你在数学问题上有困难,在它前面放一个美元符号,然后不知何故就很难相差几个数量级。心理学家,如 Gerd Gigerenzer 和其他人,已经做了大量的工作来理解我们的认知错觉以及我们如何解决这些问题。一个想法是从概率走向频率。

安德鲁:所以,有一些经典的概率问题,比如有一种疾病,1%的人患有这种疾病,你做了一个测试,对这种疾病的测试有 98%的准确率,有人测试呈阳性,他们患有这种疾病的可能性有多大?很难在头脑中做到这一点。但是,你可以想象你有一个礼堂,里面有 1000 人,我刚刚告诉你 1%的人患有这种疾病,想象一下礼堂前排有 10 个人。他们是有疾病的人。其他的 990 没有。现在我们要做一个准确率为 98%的测试。这很难,因为你必须做 10 个人中的 98%,所以你需要更多的人数。

安德鲁:让我换个说法,假设它有 90%的准确率,只是为了保持代数简单。这项测试有 90%的准确率。那么,你看第一排的 10 个人,他们中的 9 个测试呈阳性,其中一个测试呈阴性,你看另外的 990 个人,他们中的 99 个会意外地测试呈阳性,那是 10%,然后其他人会呈阴性。如果你让所有测试呈阳性的人举手,你会看到我们有 9 个测试呈阳性的病人和 99 个测试呈阳性的健康人。所以,大多数测试呈阳性的人都是健康的。所以,令人惊奇的是,我可以通过在脑子里说话来做到这一切,但我不能解决我脑子里的第一个问题。你可以说,嗯,但是我不得不摆弄这些数字,因为 98%的数字都不工作,但是这就是问题的关键。如果你有百分之一的疾病,测试有百分之九十八的准确率,你真的不能通过思考一千个人来解决问题。你需要更多的人口。所以,我们可以想象一个有一百万人口的城市,现在,百分之一,一万人患有这种疾病,我特意讲这个来证明你可以做到。1 万人有这种病,99 万人没有。你可以把它写下来,但是你可以在脑子里试一试。那么,在这一万名患病者中,98%的人,也就是 200 人。

安德鲁:所以,我可以稍微改变一下数字,我可以用不同的方式来做,但关键是有了分母就更容易形象化,它让所有的数字更有意义。所以,吉杰伦泽的观点是,分母总是存在的,而且分母确实很重要。对 10 个人发生 10%的事情和对 1 万个人发生 10%的事情是有区别的。这是一种不同的现象。概率论很棒,所以答案是有很多方法可以更好地理解概率,从频率的角度来思考。

选举预测

雨果:这是我们在选举预测中实际看到的东西,所以这将是一个很好的结局。我知道 538 和内特·西尔弗的众议院模型,他们不会说我们预测民主党有 75%的机会获得众议院,他们会说四分之三的机会,因为他们觉得,启发式地,这有助于人们更好地将其正式化。他们知道四分之一的共和党人会得到,四分之三的民主党人会得到。然后你甚至可以用这些术语来思考四分之一是什么意思。这是连续出现两个头像的频率,如果发生这种情况,你不会感到惊讶,对吗?

安德鲁:哦,当然,这以前发生过,我可以告诉你一个关于内特的故事,但是首先,在 2016 年大选之前,有人说,“那么这个预测呢?”有些模型认为克林顿有 90%的胜算。嗯,百分之九十,你是怎么想的?我说,“每四年有一次总统选举。10%意味着大约每 10 次选举就会发生一次,也就是每 40 年一次。

安德鲁:我记得大约 40 年前,在 1980 年的选举中,本来应该是非常接近的,但后来又相差了 7 个百分点。所以,这是一个很大的惊喜。所以,是的,我认为这是可能的。当然可以。实际上,克林顿的表现非常接近她的民意调查,她应该得到两党 52%的选票,而她得到了 51%。所以,现在的民意调查更好,在某些方面,现在的预测比 1980 年更好。但是,我就是这样校准十分之一的。作为一名政治科学家,我经常说我不喜欢 95%的区间。因为 95%的区间在 20 次总统选举中有 19 次是正确的,而这 20 次总统选举耗时 80 年。我认为试图做出一个在 80 年内都有效的声明是荒谬的,因为政治在 80 年内都会发生变化。

安德鲁:现在,我关于内特的故事是在 2012 年,他四处走动,他说,“奥巴马有 65.8%的机会连任”,然后下周他会说是 63.2%,然后是 67.1%,它会四处跳跃。毫无意义。你可以说他有 60%的机会,但要说 65.1%,你可以做一点数学计算。你能做的就是说让我们预测一下他的投票份额。让我们假设他预计会获得 52%或 53%的选票,这是不确定的。你有一个小小的钟形曲线,如果它小于 50 %,让我们暂时忘记选举团,这不是我们真正关心的。关键是,如果他的选举人票预计少于 50%,那么他就会输,否则他就会赢。

安德鲁:让我们假设你说概率是 65.8%。这将对应于一个特定的钟形曲线,他的预期票数和不确定性。结果是,如果你想把这个比例从 65%提高到 66%,那就相当于把他的预测投票比例从 52%提高到 52.01%,我记不清具体数字了。诸如此类的小事。所以,这是一个没有意义的数字。这就像说斯蒂芬·库里身高 6 英尺 3.81724 英寸。

安德鲁:所以,我接了内特的案子,我说,“我明白,内特,你想,你需要眼球。你每周都需要新闻。消息不多。预计奥巴马会赢,但他可能不会。每周,奥巴马都领先,但他可能会输。这就是我们所知道的。这很难,创造新闻的一种方式是关注这些噪音波动。”所以,如果他转而说四分之三的机会,我认为这是一件好事。他可能会因此失去一些点击量,但我多年来一直钦佩内特的一点是他的正直。我不认为他会希望人们被噪音愚弄。所以,他这样做是一件非常好的事情。

什么是轮询?

雨果:那么,我们来谈谈投票吧。投票通常被认为与选举预测有关。我想知道什么是投票,更一般地说,它能告诉我们什么类型的事情。

安德鲁:调查抽样就是当你想从一个部分了解整体的时候。血液测试就像一个调查样本。他们取了你的血样,这应该是你血液的代表。如果我在街上采访人们,问他们将如何投票,那应该是代表了一般人群。嗯,可能不是。他们随机拨号,这是人口的一种代表,除了不是每个人都接电话。实际上,大多数人都不接电话。所以,它根本不能代表人口。

安德鲁:我在课堂上说我认为做民意调查而不给人报酬是有点不道德的。你做一个调查,你从你的调查中赚钱,很多民意调查者都这样做。在线调查小组付钱给人们,但你的很多电话调查只是给人们打电话,你这样做有点滥用人们的善意。然后有人说,“但是,那种只会参与你付钱的调查的人呢?他们不具有代表性吗?”我说:“你认为什么样的人会免费参加调查?他们有点奇怪,是吧?大多数人不会。大多数人会挂掉民意测验专家的电话。”所以,调查对象不具有代表性。

安德鲁:我们做了很多工作来调整样本以适应总体。我们需要这样做,因为回复率很低。但是,无论如何,这不仅仅是选举投票,这可能是公众意见,血液测试,这可能是企业,他们审计自己的记录,如果他们想做审计,他们会随机抽取记录样本,然后审计随机样本,并使用它来得出关于整个企业的结论等等。

Hugo:所以,在我们更详细地讨论投票之前,我想知道,你能告诉我们投票为什么如此重要吗?

安德鲁:嗯,乔治·盖洛普,他是民意调查的创始人,写了很多关于这个的东西。他认为投票有利于民主。有两种说法。伟大的棒球分析师比尔·詹姆斯曾经说过这样的话,“好的统计数据的替代品不是没有统计数据,而是坏的统计数据。”他认为有些棒球运动员被高估了,然后他引用了一些体育作家的话,“这个比尔·詹姆斯·克朗彻什么都不知道。这面糊太棒了。他有 300 个,所有这些时间,他得到了所有这些……”比尔·詹姆斯指出,让我们看看体育作家是怎么说的。他有什么证据证明这个人是如此伟大的运动员?这是一堆统计数据。他只是天真地使用统计数据,但这家伙不是定性先生,他开始谈论棒球运动员如何达到 300。

安德鲁:现在,类似地,假设你是一名立法者,你想了解公众意见。我觉得,第一,舆论相关。我们并不总是喜欢政客们过多地追随公众意见,但我认为我们喜欢他们了解公众意见。所以,如果他们没有民意测验,他们会怎么做?他们很可能会进行非正式的民意调查。溃疡。这过度代表了某些类型的人。这并不代表他们很难接触到的人。盖洛普的观点是,民主最终是建立在民意基础上的,在两次选举之间了解民意很重要。出现了很多问题,这应该会让政治家们做得更好,这在我看来是合理的。

安德鲁:当然,除此之外,调查在市场营销中一直被使用。所以,商务人士不必为想知道客户想要什么而道歉。所以,这样做是有意义的。营销调查非常有趣,部分原因是你会陷入这样一个问题,即把观察到的测量结果与你真正关心的事情联系起来,因为营销调查有多现实?所以,如果我给你打电话说,“你愿意为这种电动汽车支付 3 万美元吗?”你可以说是或不是,这并不意味着它真的会走出展厅,因为调查是不现实的。

安德鲁:政治调查更容易一些。你打算投谁的票?这几乎等同于在该死的投票站投票。因此,政治调查的真实性比某些市场调查的真实性更接近。

雨果:我不知道这种情况持续了多久,但我们肯定看到了民意调查的影响…在政治、投票和选举过程中有一个反馈回路。我想是的,初选,辩论,你在台上的位置,你是否在辩论中,实际上取决于你在民意调查中的表现,对吗?

安德鲁:对,还有唐纳德·特朗普,当他在初选中发表演讲时,他会谈论他的民调支持率有多高。

雨果:直到他们不是,然后他说他们不科学。

安德鲁:嗯,是的,但我不是在说他的支持率,而是说他们会投票给他的人的百分比。因此,即使外界观察者似乎没有给他太多机会,他的支持率还是很高。所以,是的,有反馈。我就说一件事,有一个有用的反馈,至少对民意调查者来说是这样的。有时问题出现了,为什么人们要对民意调查者说实话?有时你会得到,权威人士会说,“嘿,让我们都对民意测验专家撒谎。让我们搞砸他们。我不喜欢民意测验专家。告诉他们你所想的反面。”然而,人们不会这样做。这有几个原因。

安德鲁:首先,正如我所说的,民意调查是自愿的。没有人强迫你做民意调查。所以,如果你真的讨厌民意测验专家,很可能你一开始就懒得去做。但第二件事是,我认为人们认为民意测验就像一种投票方式。那么,如果我调查你,你对唐纳德·特朗普的工作表现满意吗?你认为这可能会在某个地方出现在新闻中,你会受到激励:如果你同意,你会受到激励说是,如果你不同意,你会受到激励说不。在你的回答中有一个真诚的直接激励。同样,并非所有的调查都是如此。如果我问你,你服用违禁药物吗?你可能有各种动机不诚实地回答这个问题。

雨果:我也不能在直播中回答这个问题。

安德鲁:嗯,这是不对称的。如果你的答案是否定的,你可以回答,如果你愿意,你可以在节目中回答,我不是在问你。我只是说这很复杂。所以,关于政治民意测验,有一点并不总是很好理解,那就是激励机制实际上是为了鼓励调查回应的真诚性。那是非常重要的。

舆论存在吗?

Hugo:现在,你提到的另一件事,我想简单谈一下,就是民意调查的想法,衡量公众意见,这更多的是在唱反调,而不一定是故意刁难。我只是在想,公众意见通常是在普通大众中普遍存在的观点。公众舆论存在吗?

安德鲁:这就像海森堡的测不准原理。所以,衡量观点就是改变它。你知道如何测量一个粒子的位置,你必须看着它,看着它意味着从它身上反弹一个轻粒子,这增加了能量,它改变了它的位置和动量?因此,类似地,如果你想知道某人的想法,你必须问他们,然后改变它。你并不总能观察到他们的行为。还有其他方法。

安德鲁:我有一个学院,马特·萨尔加尼奇,他是普林斯顿的社会学家,他最近写了一本关于社会科学数据收集的书,他谈到了…你可以调查人们,可以询问他们,也可以观察他们。那些是不同的。有时候,你可以观察一个人,但这不会改变他的行为。亚马逊可以查看你是如何购买的。可以说,一旦你知道亚马逊正在寻找,那么你可能不会购买某些东西或不搜索某些东西,因为你不想让他们知道。在那之前,你可以观察他们。

安德鲁:同样,你公寓外面的摄像头。如果你不知道它在那里,那么它正在很好地观察你。因此,在这个意义上,如果你认为我们被衡量,我们就像是在和那些试图衡量我们的社会科学家玩一场猫捉老鼠的游戏。他们试图用不打扰我们的方式来衡量我们,我们可能想知道我们是如何被衡量的。

Hugo:现在我想直接进入投票环节,这是大家都知道的。我要引用你的话,因为你在 Slate 杂志的一篇文章中说得很好,我将在节目笔记中链接到你的文章。你写道,“传统民调的统计理论令人惊叹。理论上,一千人的随机样本足以在正负三个百分点的误差范围内估计民意。”你能告诉我们这到底是什么意思吗?

安德鲁:这是从瓮中取球的数学方法。所以,如果你有一个装满球的大瓮,55%的球是绿色的,45%是黄色的,你随机画一个球一千次,那么最有可能的是,你会得到 52%到 58%的绿色球。所以,它是瓮中的 55 %,你画一千个,每次你画一个球,把它扔回瓮中,然后洗牌,再画一个,然后概率数学告诉你,你最可能看到的是 55%的绿色球,但也可能是 52%到 58%之间。大概有 95%的可能性在这个范围内。所以,我们称之为误差幅度。如果你真的可以对人们进行采样,比如从瓮中抽取,你就可以非常准确地了解公众舆论。

雨果:但是,当然,这是理论上的,对吗?该理论的一部分是它是一个随机的代表性样本。我想知道与这个理论相关的实际问题和挑战是什么。

安德鲁:实际上,你不能从骨灰盒中随机抽取人,因为没有人的名单。你可以随意拨打电话号码,不是每个人都有电话,有些人有两部电话,有些人从来不接电话,等等。此外,如果你画一个球,你可以在骨灰盒模型中看到它,但是,当你对人们进行抽样调查时,你画一个球,如果他们不想回答你的调查呢?那你就看不到了。

安德鲁:所以,我们的调查在总体上不具有代表性。所以,我们要做的是调整样本和总体之间的已知差异。所以,我们的人口中有 52%是女性,但是我们的调查中有 60%是女性,我们对此进行了调整。我们的调查得到了太多的老年人,太多的白人,太多来自一些州的人,而不是其他州的人。不同的调查有不同的偏向。有人告诉我,出口民调倾向于过度抽样民主党人,也许这与谁愿意与出口民调采访者交谈有关。愿意接电话的那种人可能不一样。

安德鲁:然后,另一件事是你需要担心得到诚实的回答或调整调查回答中的不准确性,就像我说的,这对于政治投票来说不是一个问题,但在其他调查中也会出现。

雨果:我对给人们打电话的想法很感兴趣,因为从传统上来说,很多人都有固定电话,你可以这样做。现在已经不是这样了,我的理解是,有法律规定你不能自动拨打手机,对吗?

安德鲁:我不知道关于你能做什么和不能做什么的法律到底是什么。这只是一扇窗户。当盖洛普开始做民意调查时,他们会挨家挨户敲门,因为那时很多人没有电话。所以,有一段时间很多人都有电话。在其他国家,也不是每个人都有电话。但是,再说一遍,即使你可以打电话给所有人,那又怎么样?回答者不代表人口。

Hugo:所以,调整过程也是非常关键的。

安德鲁:对,两者都有。你必须设法得到一个有代表性的样本,即使你不会得到它,因为你希望你的偏见是可纠正的。所以,如果我的偏见是我有太多的女人,我可以纠正。还是老人太多。如果我的偏见是我有太多的保守派,我能纠正吗?嗯,也许因为你可以问人们他们的党派归属,然后你可以把它与人们的党派登记数据进行匹配。这是更多的工作,对不对?如果我问的是医疗保健,而我的偏见是有健康问题的人更有可能回答调查。我能调整一下吗?嗯,那可能更难。

安德鲁:所以,即使你不能到达那里,也要努力获得完美的样本,以此为目标,这是有意义的。

Hugo:这些修正和调整方法在统计学上相对复杂吗?

安德鲁:随着我们的数据变得越来越糟糕,他们变得越来越复杂。所以,简而言之,他们需要变得更复杂有三个原因。一个是调整不准确的回答,但正如我所说的,我不会真的专注于此。其次是样本和总体之间的差异。你要适应很多因素,不仅仅是性别、年龄、种族、党派身份,还有很多因素。所以,当你想调整更多的东西,那么简单的调整方法,简单的加权方法,不要做这个工作。我们使用一种叫做多水平回归和后分层的方法,还有其他的方法,但是你需要更多的技巧来调整更多的变量。

安德鲁:然后,第三件事是我们从调查中问得更多。因此,我们可能不仅想知道公众的意见,不仅想知道人们是否愿意投票给他们的民主党人或共和党人,还想知道这种投票在所有 435 个国会选区中是如何分布的?所以,即使我有大数据,我也不一定有每个国会选区的大样本。所以,你想做统计分析来得到那些更集中的推论。所以,这就是为什么我和我的同事花了很大力气来模拟调查结果,以便能够估计人口的子群体,比如不同州的富人选民和穷人选民。

雨果:太棒了。据我所知,你的工作是跳出框框思考,如何让人们参与调查,这是一个无意的双关语,但是,因为你实际上使用了游戏技术和 box 来获得调查反馈,对吗?

安德鲁:是的,我在纽约微软研究院的同事做过。微软研究院有一些社会科学家和我的同事 David Rothschild 和 Sharad Goel,他们当时在那里工作,设计了一个调查,所以他们说服微软的人在 2012 年总统选举的最后几个月在 Xbox 上放一些东西,让人们投票并说出他们想投谁的票。所以,每隔一段时间,你就会收到提醒,说你愿意参加我们的投票吗?然后你会给出一些统计数据,说你想投谁的票。我们有一个巨大的样本量,几十万个回答,非常没有代表性。

安德鲁:这是一项不寻常的调查,因为它过多地代表了年轻男性,而大多数调查都过多地代表了老年女性。但经过调整后,首先我们能够很好地估计公众意见,事实上,我们能够比公众民调聚合器更稳定地估计公众意见。这是好消息。坏消息是,我们在 2012 年收集了数据,实际上我们直到后来才进行分析。因此,理论上,它可以实时完成,但实际上,这是一个研究项目,我们后来发表了它。

安德鲁:所以,当它发生的时候,我们没有击败民意调查。不仅如此,我们实际上还学到了一些政治学和公共舆论的知识。正如我所说的,我们的估计比报纸和网上的民意调查综合估计更稳定更好,结果是民意调查中大约三分之二的变化,像罗姆尼做得很好,或者奥巴马做得很好的波动,这些波动,大约三分之二的波动实际上是由于不同的无反应。因此,当罗姆尼有一些好消息时,共和党人更有可能回答这个调查。有道理,对吧?你想参加民意调查吗?如果我的候选人是个笑柄,也许不是。如果我的候选人做得很好,是的。

安德鲁:所以,有这个正反馈机制…负反馈稳定,正反馈放大波动。因此,一个积极的反馈机制是,如果一个候选人做得很好,更多的支持者会对投票做出回应,这意味着他们看起来做得更好。所以,你每周都会有很大的波动,但是当你真的考虑到党派偏见时,你会发现结果要稳定得多。我们发现在 2016 年。你可能会说,嗯,也许人们的党派偏见也在波动,但我们有证据表明那并没有真正发生。当我们写论文时,有各种各样的遗留问题和项目,所有这些都来自于与微软这些人的合作。

雨果:我很高兴你提到了 2016 年,因为,正如你之前所说的,大众投票,民意调查做得很好,在百分之一以内,对吗?民意测验专家说是 52 而不是 51。但是,当然,在选举团投票中,情况相对不同,我认为你写的一些东西可能是因为在几个关键州,投票给特朗普的人不一定在投票中做出回应。是这样还是我记错了?

安德鲁:没有回应的人太多了,问题更多的是州民调,而不是全国民调。也就是说,有一些人,在选举后,一些民意测验专家,加里·兰格和他的一些同事写了一篇论文,他们按州分析了他们的全国民意测验,他们实际上发现州一级的全国民意测验分析相差不远。但是,在密歇根州和其他州的一些州民意调查,没有做好足够的工作来调整无回应,所以它似乎。发生了很多事情,但部分原因是无反应调整并不完全。这是一个问题。调查回复率持续下降,因此原始调查数据,甚至是稍加调整的调查数据,并不总是足够的。

雨果:在我之前提到的同一篇 Slate 文章中,你还写道,“我们不应该把注意力集中在选举上,而应该把民意调查和公众意见更多地看作是理解政策的一个连续过程。”我觉得这很有吸引力,我只是想知道你是否能阐明这一点,并告诉我你的意思是什么?

安德鲁:嗯,我认为这在奥巴马政府中尤其明显,有各种各样的问题,如刺激计划、医疗保健计划,公众意见似乎非常重要。双方都在聚集公众舆论,以影响国会中某些摇摆不定的选票。现在就没那么好了。现在,这就像共和党人控制了众议院、参议院、总统和最高法院,所以,该做什么取决于他们。公众舆论似乎并没有直接影响事情。他们似乎愿意做各种不受欢迎的事情来利用他们所拥有的多数。

安德鲁:但是,大多数时候,政治是在立法层面上的,更多的是事务性的。有摇摆不定的选民,当然,如果一个政党控制了众议院,一个政党控制了参议院,那么你就会得到更多的权力给各种摇摆不定的选民。在这一点上,公众舆论可以有所作为。所以,这不仅仅是你要投票给谁的问题,而是人们一旦就职后会如何投票的问题。因此,民意调查者在整个过程中都会对公众意见感兴趣,因为这不仅仅是关于你打算投票给谁,而是关于你对各种问题的看法,无论是外交政策、医疗保健、移民、贸易还是其他。

党派忠诚是如何发挥作用的?

雨果:那么政党忠诚在其中扮演了怎样的角色呢?

安德鲁:哦,政党忠诚度非常重要,有很多证据表明选民会根据他们政党的言论改变立场。如果你看看像支持战争这样的事情,基于执政党有很大的跳跃。如果你是一个民主党人,那么你会支持共和党人不会支持的政策,反之亦然。或者事物是如何被标记的。就像经济学家说的,这是外来的。民意调查者在衡量意见,但与此同时,政治家们也在试图利用这些意见。

安德鲁:我的同事,政治科学系的鲍勃·夏皮罗,他和一位同事写了一本名为《政治家不要迎合》的书,这本书是基于他对各种政治斗争的研究,不是选举,而是立法斗争。他认为政治家认为公众舆论是一种工具…有一种天真的观点认为政客们想做公众想做的事情,但实际上政客们通常非常自信,他们觉得他们可以左右选民,他们认为公众舆论是他们可以操纵的。所以,双方都在做。就个别国会议员和参议员的参与程度而言,你还需要了解当地的公众意见,而不仅仅是全国的。

投票的未来是什么?

Hugo:那么,Andy,你认为投票的未来是什么样的?

安德鲁:我对未来没有太大的感觉,如果你从传统的角度来看,你会说更低的回应率是未来,付钱让人参与,在线小组。我想,也许,总的来说,我们应该把对调查做出回应的人看作更多的参与者,就像医学统计学一样。我们不应该认为我们在测量人,评估药物的效果,而人只是被移动的计数器,我们应该实际上认为病人参与了研究,真正地参与了进来。不仅仅是因为你想得到更多的服从,还因为人们有很多私人知识可以分享,如果他们有更多的联系,人们应该更有动力去帮助。

安德鲁:所以,对我来说,未来将是一个更加合作的时代。另一方面,会有很多被动的测量,比如亚马逊测量你的点击量。这也像投票一样。所以,那是从相反的方向。所以,或者,如果它是侵扰性的,我认为人们应该更多地参与进来,或者它根本就不是侵扰性的。

最受欢迎的数据科学技术

Hugo:那么,Andrew,我的最后一个问题是,你最喜欢的数据科学和统计技术或方法是什么?

安德鲁:我最喜欢的事情是我从没做过的事情,但我读到过。大概是 10 年前,有人造了一台机器,你可以把它放在某人的办公室里,然后,如果他们在打字,10 分钟后它就可以成为键盘记录器。据推测,它是如何工作的,你的键盘上大约有一百个键,所以它会听声音,并使用某种分类算法将这些键的声音分类成一百个簇,然后,完成后,它会使用简单的代码破译技术来估计哪个是空格键,哪个是回车,哪个是字母 E,等等。当然,它不必是完美的,你可以使用统计工具,然后它可以计算出你在键入什么。

安德鲁:所以,我一直想建造它。现在,那种东西我不知道如何建立,它还涉及到有一个麦克风和做声音分析。我只是觉得那会很酷。这些事情非常贝叶斯,你使用了很多先验信息,尤其是第二步,密码破解步骤。当然,艾伦·图灵在二战中用贝叶斯方法破解了英格玛密码。这是我最喜欢的例子,尽管我从未见过。我只是觉得这是最酷的。不过,这不是我能做的事。

安德鲁:如果你想谈论我能做的事情,那么我最喜欢的技术是多级回归和后分层,因为这是我们用来评估州级公众意见的方法。这就是我们在红州、蓝州做的调查,以及对美国不同地区不同收入人群的看法的评估。它允许我们尽最大努力调整样本和总体之间的差异。我们可以在斯坦做。所以,我会推那个。

雨果:太好了。所以,多层回归和后分层,我们会在展示笔记中包括一些链接。它也被称为 MRP 或 P 先生,对吗?

安德鲁:没错。最近我开始称之为正则化预测和后分层,因为严格来说,它是模块化的。所以,第一部分是你拟合一个模型来做调整,第二部分是做了这些之后,你对人群做推论,这叫做后分层。因此,多级回归是建立模型的一种方式,但通常情况下,您可以使用术语正则化预测,其中包括所有其他方法。

雨果:很高兴你能来参加这个节目。

安德鲁:我也是。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值