TowardsDataScience 博客中文翻译 2019(一百三十六)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

数据科学变得太模糊了

原文:https://towardsdatascience.com/data-science-has-become-too-vague-538899bab57?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

大家专精,散了吧!

我不反对淡化“数据科学”这个术语,并把它分解成专门的学科。不要误解,我认为全球“数据科学”运动是必要的,并对坏脾气的企业界产生了积极影响。但这场运动已经取得了胜利,每个人都接受了这个想法。与其继续在“数据科学”的保护伞下宣传和招聘,也许我们应该让尘埃落定,让人们能够适应变化。

数据科学专业人士,请考虑不再让自己背负“数据科学家”的沉重头衔。我们中的大多数人并不具备每个新话题的博士或百科知识。也许我们应该专业化,减轻自己无所不知的压力。数据科学已经成为一个过于宽泛的术语,并且变得如此普遍和模糊,以至于经常毫无意义。为什么会有人想拥有如此不起眼的东西?

同样有趣的是,八年前,那些被你称为“数据科学家”的人也有这些担忧,甚至质疑数据科学不是真正的科学。毕竟,“给我看一门不涉及数据的科学”

在这篇文章中,我想强调“数据科学”是如何发展的,以及为什么是时候对它进行细分了。

[## 2019 年学数据科学的感受

透过(决策树)看到(随机)森林

towardsdatascience.com](/how-it-feels-to-learn-data-science-in-2019-6ee688498029)

贾巴沃克效应

2010 年,有一部短暂但令人难忘的美剧叫做比 Ted 更好。这部剧是一部愚蠢的职场喜剧,以夸张的方式讽刺了企业文化。但是有一集,贾巴沃克(第一季第 12 集),太准确地抓住了公司流行语的效果。

主角泰德试图隐藏一个宠物项目的预算。当他的老板 Veronica 与他对质时,他撒谎说资金被用于革命性的“贾巴沃克”项目,这是他当场含糊地编造的。

有趣的是。维罗妮卡没有澄清“贾巴沃克”是什么,而是假装“知道内情”,害怕因为被排除在外而显得无能。她将不存在的贾巴沃克项目作为公司其他部门的重中之重。令人捧腹的结果是,在贾巴沃克工作的每一位领导和员工都不知道这是什么,但他们绝不敢互相承认自己的无知。

对事态升级的程度感到措手不及,在他们做“贾巴沃克”的主题演讲之前,泰德向维罗妮卡坦白了。Veronica 告诉 Ted 继续进行,因为“产品是为没有演示的人准备的”。

我大概不必解释“贾巴沃克”这个比喻。把这个词换成“区块链”、“大数据”、“比特币”、“人工智能”、“物联网”、“量子计算”、“机器学习”或者“数据科学”,你就完全明白我的意思了。长期以来,企业文化一直在宣传创新,人们假装理解创新,结果却遭遇了它们的局限,并追逐其他东西。

既然我已经强调了“贾巴沃克效应”,让我们继续。

数据科学简史

如果你想把“数据科学”定义为任何与“数据”有关的东西,你可以回到计算的黎明。如果你认为数学和统计学与数据一样对数据科学至关重要,你可以回到几个世纪前,说统计学家是最初的“数据科学家”。

为了简洁起见,让我们回到 20 世纪 90 年代。事情过去很简单。分析师、统计学家、研究人员和数据工程师都是相当独立的角色,偶尔会有重叠。工具栈通常由电子表格、R、MATLAB、SAS 和/或 SQL 组成。

当然,在整个 2000 年,事情都在变化。谷歌将数据收集和分析推到了难以想象的高度。2009 年,谷歌高管坚持认为统计学家将是未来 10 年内“最性感的工作”。那是十年前的事了,但我记得那是一种奇怪的感觉。但你瞧,2011 年《哈佛商业评论》将这一名为“数据科学”的概念纳入主流,并宣布其为21 世纪最性感的工作

就在那时,“贾巴沃克”时尚的热潮开始了。哈佛创造了一个名为“数据科学”的空白,每个人都竞相填补。SQL 开发人员、分析师、研究人员、定量分析师、统计学家、物理学家、生物学家和无数其他专业人员将自己重新包装为“数据科学”专业人员。硅谷公司觉得“分析师”或“研究员”等传统职位听起来太局限,于是将这些职位更名为“数据科学家”,听起来更有权力和影响力。

在硅谷之外,这增加了困惑,因为大多数人认为“科学家”是穿着白大褂的博士。与直觉相反,数据科学家实际上来自不同教育水平的许多背景(技术和非技术)(学士、学士、工商管理硕士,有时还有博士)。许多招聘经理、人力资源部门和组织通常都很难定义他们需要什么样的数据科学家,这就是为什么你们中的许多人可能都有关于年轻数据科学家被扔进 MySQL 数据库,但却无法用它做任何有意义的事情的悲伤轶事。

再加上数据工程(想想“大数据”)的扩展进步,以及“机器学习”的快速进步,“数据科学”的保护伞变得更大、更模糊。越来越多的流行语被抛出,很多人都在说,但很少有人理解。不知不觉中,“大数据”和“机器学习”已经成为同义词,学科的区分也就失去了。

更糟糕的是,公司在不知情的情况下做出决策,并认为他们需要数据科学技能“X”(例如深度学习)来解决调度等日常问题,而实际上他们需要的是懂搜索算法的运筹学人员。当前的热点并不是大多数问题的最佳解决方案,这可能是一个代价高昂的错误。你可以在下面阅读我关于这个主题的另外两篇文章。

[## 深度学习已经达到极限了吗?

又一个人工智能的冬天来了吗?

towardsdatascience.com](/is-deep-learning-already-hitting-its-limitations-c81826082ac3) [## 数独和时间表

用树搜索解决调度问题

towardsdatascience.com](/sudokus-and-schedules-60f3de5dfe0d)

“数据科学”的领域已经被“贾巴沃克”效应耗尽。如果我们希望它继续成功,我们需要使它专门化,而不是用一般化造成更多的混乱。

解散“数据科学”的理由

“数据科学”的推动做了一些伟大的事情。它让脾气暴躁的老企业重新振作起来,做一些新鲜刺激的事情。传统上,IT 部门在提供数据访问和允许非 IT 人员编写代码方面很吝啬,他们被迫发展并支持这样的计划。最重要的是,它将技术大众化到如此多的非技术职业中。律师可以从学习编码中获益的想法已经不再是边缘性的了,这种仪式也不再是计算机科学家、专业程序员和工程师的专利。

不知不觉中,“大数据”和“机器学习”已经成为同义词,学科的区分也就失去了。

但这是“数据科学”运动已经成功并走到尽头的标志。继续推动它开始变得有害。以下是一些原因:

它太宽了

不久前,如果你获得了“商业管理”学士学位,你就可以轻松地向上流动。但是今天,传统的成功往往需要专注于某个特定的领域,这仅仅是因为我们的世界变得复杂了。商科学生学习金融、供应链管理、运筹学、会计学、市场营销或其他特定的商业学科会更好。

我认为“数据科学”需要经历类似的转变。就像商业本身一样,有太多的学科需要完全掌握。尝试学习所有这些知识是徒劳的,尤其是一次就学会。当然,对外面的世界有高层次的认识是有益的。随着时间的推移改变兴趣也是健康的。然而,试图无所不知永远不会产生价值。我发现这种不集中注意力的学习方式是无效的,喜剧演员布莱恩·里根对此做了最好的讽刺:“我想学习!我想成为一名学习者!”

“数据科学”可以在 Excel 或 Tableau 中创建图表,以及构建和调整神经网络分类器,这一直困扰着我。说真的,这是怎么回事?这两项任务在性质、所需的技能和薪水上有着天壤之别。编写 SQL 查询还是构建贝叶斯模型?这些也是不相关的技能组合,绝对不能互换。那么,为什么我们将拥有这些极其多样化技能的人概括为“数据科学家”,并让招聘变得如此模糊和困难呢?

一些读到这里的人可能会说“所有这些学科都是相互关联的,而‘数据科学’学科有助于统一和整合它们。”这在某种程度上是有争议的,但是营销、财务、供应链、会计和其他业务功能也是相互关联的。尽管有一个共同的目标,但它们仍然是不同的领域,我们不再强调“业务管理”的整体。碎片化和专门化是领域成熟的一部分,随着时间的推移,它们比领域本身得到更多的关注。

“数据科学”可以在 Excel 或 Tableau 中创建图表,以及构建和调整神经网络分类器,这一直困扰着我。说真的,这是怎么回事?

这是压倒性的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

促使我写这篇文章的原因之一是,越来越多的数据科学家发表文章,承认他们对“冒名顶替综合征”的感受。有这个我见过流传的。还有这个。随着时间的推移,越来越多的数据科学专业人士不断站出来,承认他们的欺诈感。从专业角度来说,冒名顶替综合症的负担会让你充满恐惧,夜不能寐。这个问题总是挥之不去“多久我会被发现我的欺诈行为?”

但是我相信这是这篇文章中更大问题的一个症状。我花了太长时间才明白“数据科学”已经变成了与“数据”相关的任何事物。可悲的是,有些人认为自己拥有这一切。我不明白为什么会有人想这么做。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This is all you need to become a confident data scientist (as of 2013). Totally achievable, right?

上图是成为数据科学家的流行(但过时)路线图。这不仅对有个人生活的人来说不切实际,而且为什么要开一个“一刀切”的课程?也许你可以在那里获得关于每个主题的浅薄知识,但是人们在不同的环境中工作,会遇到不同的问题。在给定的时间点,为什么不学习您特定工作所需的工具呢?也不要介意工具和平台来来去去,技能很快成为遗产。这个路线图中唯一不容易过时的部分是经典的数学概念。

不要误解,学习和获得现有解决方案的一般概念总是好的。但在日常生活的现实中,有效的人知道如何辨别和优先考虑,而不是被 FOMO 所驱使。

它浸透了一切

数据现在就像电一样。它在任何地方都有不同的用途。在 19 世纪,人们会惊叹于电力带来的一切。

如今,人们对电力的关注越来越少,而是更多地关注它所驱动的设备。我们并不认为电是理所当然的,但是你知道,总有一天你会停止庆祝它。数据也是如此。它成功了,并成为新的常态。与其继续我们疲惫的庆祝,我们应该关注它将带来的下一个创新。

你认为自然语言处理可以创造一个改善客户投诉处理的机会吗?然后推“自然语言处理”,而不是“数据科学”、“机器学习”,或者“AI”。具体而集中。您是否对优化利润、成本、收入或运营可行性感兴趣,然后将自己定位在优化上。“数据科学”现在已经变成了白噪音,作为一个术语已经不太实用了。关注具体的、切实的领域,这些领域的问题还没有得到应用和解决。

流行词困境

作为总结,这里有一些最后的考虑。我明确表示我们应该停止使用“数据科学”这个术语。这真的会发生吗?我想迟早会的。就像“云计算”这个术语已经基本消亡并被专业化所取代一样,我认为数据科学也会发生类似的转变。我要遵循我自己的建议吗?我还不确定。虽然这个术语仍然流行,但这可能是让人们去参加我的讲座或阅读这个名为走向数据科学的博客上的文章的唯一途径。我不能责怪别人也这样做。

也问问你自己:我们是否用流行语来激发积极的改变?还是为了达到我们自己的目的?在全球范围内,“数据科学”这个时髦词也产生了积极的影响。它使各行各业的技术大众化,让许多人成为数字劳动力。但是我确信有人自称为“数据科学家”来夸大他们的能力并利用炒作。

总之,让我们放松对人和角色的概括。也许我们应该停止称角色为“数据科学家”,取而代之的是让角色反映它所承担的任务。雇佣“数据工程师”、“运筹学开发者”、老派“统计学家”和“机器学习分析师”。让每个人都有机会找到自己的位置,并以他们知道的最好的方式做出贡献。随着时间的推移,组织将以合理的方式塑造自己,并根据需求调整角色。

下一篇:

[## 2019 年学数据科学的感受

透过(决策树)看到(随机)森林

towardsdatascience.com](/how-it-feels-to-learn-data-science-in-2019-6ee688498029)

7 个简单步骤中的数据科学

原文:https://towardsdatascience.com/data-science-in-7-easy-steps-ca80d063f175?source=collection_archive---------38-----------------------

高效学习分析数据和解决问题。

以下是如何成为一名数据科学家的分步指导。在本文中,我将介绍数据工程概念,如如何收集和转换数据,如何提取和分类数据,以及如何可视化数据(参见 YouTube 上的整个课程)。为了让你更容易学习,我在这里做了一个精简版的课程,但在文本旁边添加了 YouTube 视频的链接。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Learn data science in 7 easy steps

1.数据分析

数据分析是数据科学的关键原则之一,你必须首先理解这一点。了解如何有效地选择和准备数据分析部分是数据科学的第一阶段。

了解如何使用 Excel 分析数据,如何从电子表格执行基本分析,谁是数据科学家,哪些工具将用于数据分析,如何使用 Python 编写统计测试代码,从数据库到处理和规划步骤。

也就是说:至少在基础层面学习统计和线性代数

2.数据清理

在这一部分中,我们将涵盖所有不同类型的数据,包括原始数据,如何清理标准格式并将其转换为正确的输入格式,以及如何清理并将其转换为我们希望用于数据分析的数据结构。

3.数据工件

这时,您将了解一些对您的数据集负责的工件。这是更有趣的部分之一,因为它是关于数据科学项目的设计和功能实现。

当涉及到数据集时,您希望了解什么是异常值,什么是平均值,什么是偏差。或者换句话说,您希望了解与您的数据相关的异常。

4.数据建模

在第二阶段,你将被引导到两把钥匙中的一把。数据模型是处理、收集、转换和操作数据的艺术。同样关键的是使用关系数据库还是像 MongoDB 这样的对象数据库。

基于您的数据分析经验,您将获得一个关于如何将数据库键实现到您的数据管理系统中的关键想法。

关于处理数据的视频中也涉及到了这一部分。

5.数据工程

我们接下来要讨论的是用 Python 构建数据工程部分,机器学习例程和测试工具。同时,了解如何构建你的管道。还要观察一些数字处理代码——统计推理、分类、聚类等等。

首先使用 sklearn 和 NumPy,然后使用 Keras 和 Tensorflow 来增强机器学习。

6.数据设计

大的小的。设计部分是主要部分之一,在这里您将获得如何通过消除不必要的参数来简化数据的详细说明。

我们需要做的不仅仅是数字运算,也不仅仅是对数据结构的理解。这部分会给你很好的理解,以便设计重要的深度学习管道。

7.数据模式

在第七个也是最后一个阶段,我们将学习应该遵循的模式,以便成功地将我们的数据科学应用程序用于生产。

从稀疏数据到大型数据集。从样本训练和验证数据集到我们需要的所有其他数据。

请在评论中告诉我,在你的数据科学之旅中,哪个部分最重要。

也分享一下自己作为数据科学家的经历。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Data Science Job

最后,如果你想了解成为一名数据科学家意味着什么,那么看看我的书数据科学工作:如何成为一名数据科学家,它将指导你完成这个过程。

商业中的数据科学

原文:https://towardsdatascience.com/data-science-in-business-e3c94c76c182?source=collection_archive---------23-----------------------

简而言之,商业数据科学

数据科学无处不在。如果想要保持竞争力,每个企业都必须在一定程度上应用数据科学,以了解客户和市场。另一方面,我们缺少如此多的数据科学人才,这是考虑转行的最佳时机。这篇文章是针对想学习数据科学的商业人士的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Data Science in Business.

什么是数据科学

数据科学就是理解数据,这在商业中至关重要。它主要是用 Python 或 R(编程语言)完成的,目的是从业务数据中提取有趣的可操作信息。

房地产中的数据科学

房地产中的一个常见问题是预测价格并对价格范围进行分类,以评估哪些可以出售,哪些不可以出售。数据科学有助于将房地产分为不同的类别,然后通过回归分析,根据过去的交易预测价格。

营销中的数据科学

另一方面,如果你不知道谁是你的客户,最好的方法是使用聚类技术。数据科学允许你根据相似性对你的客户进行分组:购物历史、人口统计等。这样你就知道你卖什么给谁。

通过数据科学的推荐引擎

如果你在亚马逊购物或者看《网飞》,那么你可能知道他们正在使用强大的推荐系统向你推荐要购买的新产品或者要观看的剧集。实际上,为你的企业建立一个推荐引擎是可能的——一旦你聚集了你的客户并预测价格,你就可以开始建立一个推荐引擎了。

异常检测

最后,为了理解您的数据,您需要将标准/平均值与异常值或异常值分开。这样你就可以预测谁是你的普通顾客。

商业数据科学和可视化

如果你已经处理好所有的数据并准备好使用,那么最后一步就是让数据可视化,这样其他团队成员就可以理解你在做什么。在 Python 和 R 中,有几个工具(如 plotly 或 Dash)可以用来可视化业务中的数据。然后当然还有 Excel 和 Powerpoint!

商业中的数据科学

如果您已经观看了这个小型课程,那么您已经为开始为您的企业构建数据科学战略做好了充分准备。

这是实施一些工具来发展你的企业的最佳时机。

如果您正在寻找更多关于数据科学的资料,请查看数据科学实用指南

日常生活中的数据科学

原文:https://towardsdatascience.com/data-science-in-daily-life-ee1ed06b93d7?source=collection_archive---------31-----------------------

— —获取数据,整理并分析数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(Source)

我通常确保自己不是“迟到的人”甚至有时我不能提前参加聚会;我准时到达那里。我想,和大多数人一样,我会事先查看谷歌地图,计划好何时出发。然而,你永远无法避免各种各样的事故,让你陷入困境。最近,我刚刚在我的列表中添加了一个新事件。刚搬到西雅图过暑假,第一次被夹在一座可能会关闭的桥里!为了让渡船通过,这些桥会时不时地关闭。有时候 5 到 10 分钟会让你焦虑。

为此我想,为什么不用数据科学知识来做一些基本面的分析。我的朋友曾经告诉我,有一个西雅图大桥 twitter 发布了西雅图所有桥梁的关闭-重新开放信息,我发现这是一个做网络报废的极好资源。在 twitter 内部,我发现这些推文仅仅是六天前的,这对于一个迷你数据科学项目来说已经足够了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(The tweets generally look like this)

一般来说,网络搜集是数据科学家从网站收集数据的一种强有力的方法。即使我们获得了使用 API 的许可,我们可能会发现自己需要从现有数据库之外获取一些信息。这些信息可以帮助我们更好地分析问题,或者为更好的建模增加特性。在所有针对 python 的 web 浏览器包中,BeautifulSoup 和 Selenium 是最常用的工具之一。BeautifulSoup 允许您存储整个 HTML 页面以供进一步解析,而 Selenium 将允许您单击按钮,在框中键入单词,并向下滚动网页。在这个项目中,我使用 Selenium 向下滚动 twitter(就像人一样),使用 BeautifulSoup 存储 HTML 页面并解析它以获取所有信息。

# import web scrapping libraries
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver import Chrome
from bs4 import BeautifulSoup
import re
import requestsbroswer = Chrome()url = '[https://twitter.com/sdotbridges?lang=en'](https://twitter.com/sdotbridges?lang=en')
broswer.get(url)

我们首先导入 web 报废库,并使用 Selenium 打开网页。

def get_all_bridge_openings(browser):
    """
    Scrolls tweets.
    Parameters
    ----------
    browser: webdriver object
    Returns
    -------
    bridge_opening: webelement object
    """
    sel = 'div.tweet'
    prev_items_found = -1
    n_items_found = 0
    while n_items_found > prev_items_found:
        prev_items_found = n_items_found
        bridge_opening = browser.find_elements_by_css_selector(sel)
        n_items_found = len(bridge_opening)
        last_bridge_opening = bridge_opening[-1] 
        loc = last_bridge_opening.location_once_scrolled_into_view
        time.sleep(2)
    print(f"The total number of tweets collected is: {n_items_found}")
    return bridge_openingbridge_openings = get_all_bridge_openings(broswer)

这个函数模拟向下滚动的过程,并获取 web 元素对象进行解析。如打印声明所示,我们总共收集了 821 条推文。

data = [tweet.get_attribute("innerHTML") for tweet in bridge_openings]with open(".secret_bridge") as f:
    password = f.readline().strip()mongo_url = f'mongodb+srv://Colin:{[@cluster0](mailto:password}<a href=)-tnykl.mongodb.net">password}[@cluster0](http://twitter.com/cluster0)-tnykl.mongodb.net/test'
mc = pymongo.MongoClient(host= mongo_url)db = mc['boat_info']html_col = db['tweet_html']for tweet in data[1:]:
   html_col.insert_one({'html': tweet})

在这里,我将我的 JSON 文档存储在 MongoDB 中,这是一个 NoSQL 数据库程序。这个视频很好地介绍了这个数据库。MongoDB 使用带有模式的类似 JSON 的文档,这对于存储 HTML 文件很有用。然而,MongoDB 要求客户端登录。然后,通过使用 insert-one 函数,我们可以追加我们的文档。

def get_bridge_time(info):
    """
    Parse the epoch time in the html.
    Parameters
    ----------
    info: dict
    Returns
    -------
    date: datetime
    """
    soup = BeautifulSoup(info['html'])
    epoch_time = soup.find_all('a')[1].span['data-time']
    date = pd.Timestamp(int(epoch_time), unit='s')
    return date

对于 HTML 解析,我们可以使用 BeautifulSoup。其中一个解析函数如上所示。检查完网页后,我们需要查看 HTML 标记,如" div “、” a “、” span “、” li ",以找到我们想要的信息,并使用正确的方法来定位和调用它们。一旦获得时间戳,我们就可以将其转换为 DateTime 类型。

df.set_index('time',inplace=True)
seattle_time = df.index - timedelta(hours=7)
df.index = seattle_time
df.tail()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在我们解析 HTML 和时间、桥和状态信息之后,我们可以将它们存储到数据帧中。数据框将如下所示。

通常,数据工程过程可能是另一个挑战。有时,会有一些无效的数据记录,如空值,或者可能会有一些由人为错误产生的荒谬记录。这些都需要评估。由于数据清理过程相当繁琐,我不会把它包括在博客中。

这个数据集的另一个问题是很难解释状态。为了帮助在图中绘制,我将“关闭”状态设置为 1,将“重新打开”状态设置为 0。“关闭”状态和“重新开放”状态之间的时间段代表渡船经过的时间。同时,“重新开放”状态和“关闭”状态之间的时间段代表汽车经过的时间。前一个是我感兴趣的状态。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如上所示,每个细长条代表桥的“关闭”状态。六个支线剧情给出了“关闭”频率的直觉,即六天内每座桥的总“关闭”时间。从这个图中,我们了解到弗里蒙特桥、巴拉德桥和大学桥是西雅图最繁忙的桥梁。它们代表最长的总“关闭”时间和最高的“关闭”频率。此外,通过仔细观察,我们可以看出大多数状态变化发生在上午 10 点到下午 7 点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们计算每座桥的总时间段,我们还可以生成该数据框,该数据框显示总关闭时间、总关闭频率以及日平均关闭频率。用总关闭时间除以总关闭频率,可以计算出平均关闭持续时间。由此可见,前三座桥关闭的次数最多,时间最长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从柱状图中可以更清楚地看出,在过去的六天中,弗里蒙特桥处于“关闭”状态的时间是六座桥中最长的。总之,弗里蒙特大桥的关闭状态总计接近 10 个小时。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

更有趣的是,在这六天里,下斯波坎街大桥平均处于“关闭”状态的时间最长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果位置信息相关并包含在数据集中,那么值得尝试在地图上绘制结果。我这里用的是 Tableau,一个强大的数据可视化软件。通过导入 CSV 文件,列将在左侧显示为“尺寸”和“尺寸”然后,您可以“拖动”上面“列”和“行”上的“纬度”和“经度”列。此外,通过将其他“维度”和“度量”拖到中间的“标记”框中,每一行的值都会按照您的需要显示在地图上。您可以尝试不同的标记方法,看看如何有效地说明这些值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

六个圆圈代表六座桥的位置,三座靠近西雅图市中心,而另外三座稍远一点。圆圈的大小表示平均关闭状态持续时间。圆圈越大,平均关闭状态越长。这些数字代表每座桥的平均频率。绿色的透明度取决于总的关闭时间。

现在我们对西雅图大桥有了更深入的了解,这更令人兴奋!我们可以假设为什么不同桥梁的关闭频率和持续时间是不同的。我们也可以从其他网站进行网络搜集,为进一步的研究提供证据。

但更实际的是,因为我通常乘坐公交车通过弗里蒙特桥和大学桥,而且因为我现在知道这些桥应该只关闭 5 分钟,所以我不需要太担心迟到!

我希望这个小项目对你有所帮助。下面随意评论,干杯!

Ecom 数据系列:什么是 KPI?

原文:https://towardsdatascience.com/data-science-in-ecommerce-what-are-kpis-cba6bcc376d0?source=collection_archive---------25-----------------------

让电子商务数据科学概念变得简单,一次一个主题。

找到你真正的北方,引导你的事业前进。

Ecom Data Talk Episode 3: What is KPI?

你不能改进你没有衡量的东西——彼得·德鲁克

KPI 是指引你生意的北极星。

在竞争异常激烈的电子商务领域,为了在竞争中脱颖而出,我们需要不断测试和迭代我们的假设,以改善业务运营。为了确保我们朝着正确的方向前进,我们必须通过数据驱动的分析支持来衡量我们的进展。

数据驱动的决策制定的整个前提植根于与每个业务相关的可靠、有意义和准确的指标。

“但是指标太多了,我怎么知道应该关注什么??"“我听到很多人谈论 AOV、回购率、CLV 等术语,但他们是什么意思,我为什么要关心这些呢”?

请继续阅读并找出答案。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Luke Chesser on Unsplash

什么是 KPI?

在我们定义 KPI 之前,我们需要首先引入指标。那么什么是度量呢?指标只是一个测量单位,用于定量评估或评价。例如,厘米是一种公制,它用来描述长度。度量对于成长是必不可少的,正如现代企业管理之父彼得·德鲁克曾经说过的,“你不能改进你不度量的东西”。就像运动员试图将自己的最好成绩缩短几秒钟一样,电子商务商家也在努力提高他们商店的转化率。

那么什么是 KPI 呢?KPI 代表关键绩效指标,它们只是企业用来衡量目标绩效和业务整体健康状况的一组指标。为每个企业商定正确的 KPI 非常重要,不要陷入追逐看起来很棒但没有意义的虚荣指标的陷阱。例如,当人们试图减肥时,他们通常会关注 lbs,这是一个虚荣的指标,并不能很好地反映你的整体健康状况。身体质量指数(身体质量指数)可能是一个更好的指标。

同样的事情也适用于电子商务。虽然关注顶线很重要,但关注底线利润也同样重要。如果没有一个盈利的计划,你不可能通过无限期亏损来建立一个可持续发展的企业。

接下来,我们将谈论一些熟悉的 KPI,如 AOV回购率。我们还将涵盖一些您可能不熟悉的指标,如 CLV 、收购流失率和平均。购买间隔天数。

KPI 为什么重要?我为什么要在乎?

如果没有对关键指标的适当测量和跟踪,企业就不知道他们做得有多好,关注什么,以及在哪里寻找改进。这就像盲目飞行或在没有指南针的情况下起航,并希望自己不会坠毁。过去可能有一段时间,只有“卷起袖子,努力工作”的态度会变得很好,但那些日子已经过去了。我们现在拥有的是一个竞争超激烈、进入门槛低的互联网市场,在这个市场上,有人在某个地方做着所有值得做的事情。我们每个人都面临着竞争,只有通过不断地衡量和改进,你才能增加脱颖而出的机会。这不是跟踪所有的事情,而是跟踪正确的指标,并考虑如何移动这些指标来提高您的绩效。

如果你还没有开始学习你的度量标准,你真的应该开始研究它。你可以通过谷歌分析和其他工具在网上自己研究。如果你想马上获得关键绩效指标,你总是可以找到一个分析平台,如细分市场

KPI 为什么能为我做?

虽然有很多,但我会尝试总结并包括与客户订单相关的最重要的电子商务 KPI。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先,你有 AOV奥普ARPU 。他们代表 avg。订单价值,平均值。每个用户的订单和平均订单。每用户收入。这三个指标帮助你理解什么是平均值。顾客在你的商店消费的金额,以及你从每个付费顾客那里获得的订单/收入。对于这些指标,值越高,性能越好。它们是你商店的基础,因为了解你在每个用户订单上的单位经济是否会盈利至关重要。在计算这些指标时,你也必须小心。您应该在计算中排除税收、运费和取消订单,从而使用净收入。如果你没有,它可能会扭曲你的结果,认为你比你做得更好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

接下来,我们有回购利率。我们将重复购买率定义为同一时期内的重复顾客数除以总顾客数。这个指标可以帮助你了解你从回头客那里做了多少生意。一般来说,如果你能从同一顾客那里吸引更多的重复购买,你就能获得更多的利润。为什么?这是一个简单的数学问题,因为你已经预先花了钱来获得用户,所以他们花得越多越好。有一些例外,因为某些项目是一次性购买的产品,回购周期很长。婴儿用品、耐用品等都属于这一类。

最后但同样重要的是,我将介绍三个可能不太熟悉的组合指标,它们是 CLVADPACR

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

CLV 代表客户终身价值。顾名思义,这是一个试图衡量顾客一生在你的商店消费潜力的指标,通常具有预测性。理解 CLV 是至关重要的,因为它告诉你在 avg 上的潜在花费。你可以预期,当你计算营销支出等其他费用时,这将进入你的盈亏平衡分析。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ADP 是平均值。购买间隔天数。这个指标描述了你的商店的购买周期,并帮助你判断顾客什么时候可能会回来,什么时候他们可能会有流失的风险。每个产品都有自己的购买周期,你还在你的电子邮件流中使用静态业务规则延迟吗?那么你应该看看你的购买周期。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们有 ACR,收购流失率。ACR 有时被称为漏桶率,它衡量的是相对于你新获得的用户,你保留用户的情况如何。如果这个比率高于 1,那么你获得用户的速度比你失去用户的速度要快。当它低于 1 时,你可能会有麻烦,因为你失去用户的速度可能比你获得用户的速度更快。

总之,我们讨论了跟踪和持续审查 KPI 以衡量您的业务绩效的重要性。请务必询问您的分析提供商指标是如何计算的,并验证它们是否准确。记住,你不能改进你没有测量的东西。在竞争异常激烈的市场中,你越了解你的客户,你就越有可能成功。最好的方法是通过你的数据。

最后,数据就是力量,我们希望将电子商务数据的力量还给人们。因此,请加入我们,立即开始与您的数据一起增长!

制成

LinkedIn脸书找到我们。

最初发表于【tresl.co】

Ecom 数据系列:什么是需求预测?

原文:https://towardsdatascience.com/data-science-in-ecommerce-what-is-demand-forecasting-43a2da2aadec?source=collection_archive---------26-----------------------

让电子商务数据科学概念变得简单,一次一个主题。

几代人以来推动零售和物流运作的黑魔法。

Ecom Data Talk Episode 4: What is Demand Forecasting?

了解过去的事件以预测未来的销售📈📊是零售和电子商务运营的基础优化

在您准确衡量您的定价和促销效果之前,库存计划感觉像是猜测。更糟糕的是,如果你错误地归因于这些影响,它可能会导致利润的侵蚀和销售的损失。

需求预测是通过测量定价促销季节性假日影响来估计未来销售的练习。它不仅有助于库存规划和谈判,而且可以衡量客户对您的定价和促销活动的反应,从而帮助优化营销活动。最后,随着对你的假日效应的深入了解,你可以在一年中的关键时刻防止缺货把钱留在桌子上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Adeolu Eletu on Unsplash

什么是需求预测?

这个问题有两个部分——什么是需求,什么是预测。

那么什么是需求呢?来自维基百科 : 需求是消费者在一定时期内愿意以各种价格支付的一种商品的数量。广义来说,需求就是人们想要的东西。按照目前的价格,预计特斯拉 Model 3 在 2019 年的销量将在 37 万至 42 万辆之间。如果你将价格提高 50%,那么这个数字可能会大幅下降。下降多少由我们称之为需求弹性的指标来衡量,我们将在后面讨论。另一方面,预测是对给定时期内事件未来结果的估计。当你把两者放在一起时,它会突然变成一个引人注目的概念。你能告诉我在不久的将来我可能卖多少吗?

当然,对某样东西的真实需求是不可知的,因为你不可能调查所有人。你可以在 FB 上接近这一点,它拥有世界上三分之一的人口——这就是它如此强大的原因。其次,需求通常滞后于供给。如果你只有 500 件 t 恤要卖,而你在 30 分钟内就卖完了,你怎么真正知道有多少需求?尽管如此,需求预测仍然是一个强大的工具,可以帮助电子商务商店了解客户在价格、促销方面的行为,以及当 BFCM 到来时需要做多少计划。

为什么需求预测很重要?我为什么要在乎?

正如我们刚刚讨论的,不是每个人都知道你的产品和服务。然而,如果你已经正确地建立了你的获取渠道,你应该每个月都把人们送到你的网站上。

100 名访客中,有 60 人立即返回,30 人点击,10 人加入购物车,最后,3 人完成了结账流程。那么什么是需求呢?好吧,实际需求是为商品或服务付款的 3 个人,但也许我们可以把有购物车的 10 个人视为潜在需求。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Charles 🇵🇭 on Unsplash

也许他们没有完成购买,因为他们不喜欢这个价格。或者运输成本太高。或者交货时间太长。或者,他们只是改变了想法,找到了更好的。这样你就可以根据潜在和未来的需求来测试你的定价和促销方案,看看它对转化有什么帮助。在收集了客户对不同价格和促销水平的产品的需求信息后,您可以开始使用流量数据根据您的潜在需求预测未来的销售。在与供应商谈判时,改进的销售预测是一个非常有力的计划工具。想象一下再也不会把钱留在桌子上,当人们拿出信用卡准备购买而没有存货出售的时候。最后,您可以提前备货,从而减少交付时间,为客户提供更好的体验。

为什么需求预测对我有用?

需求预测不仅是了解将会有多少销售额,也是了解你的业务。是以 49 美元的原价显示 39 美元的销售价格,还是提供 10 美元的优惠优惠券?如果您提供 15%的折扣、25%的折扣和 50%的折扣,您希望销售多少?当黑色星期五网络星期一来临的时候,我应该期待多少销售额,这样我才能做好准备?

如何入门?嗯,需求预测通常涉及统计或机器学习模型,以解释与销售相关的定价、促销、季节性和假日的影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Artem Beliaikin @belart84 on Unsplash

价格效应由价格弹性来衡量,价格弹性是单位数量的变化相对于价格变化的比率。如果我们把一个产品的价格降低 10%,而数量增加超过 10%,那么比率大于 1,我们说这个产品是有弹性的。如果比值小于 1,那么我们称之为无弹性。大多数消费品都是有弹性的,卫生纸就是一个例子,人们倾向于在打折的时候多买一些。相反,大多数处方药是无弹性的,一个例子是胰岛素,糖尿病患者无论价格如何都必须购买。

促销效果是衡量销售量相对于促销水平的变化:10%或 25%的折扣,或不同类型的广告,如买一送一,或免费送货优惠。

季节性效应是一年中发生的销售量的周期性变化,通常以周或月来衡量,有时以天来衡量。这些周期通常反映了相对于人们钱包的消费行为。你可能会注意到,当人们有更多的可支配现金时,月初的销售额会更高,随后在月底账单到期时,销售额会下降。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Mein Deal on Unsplash

最后,节日效应。节日效应通常在短时间内销量急剧增加时形成,如黑色星期五、圣诞节、劳动节、7 月 4 日等。不仅大多数商店都计划在这些时间进行促销,而且消费者也希望利用这些销售机会,并处于购买心态。取决于你的产品系列,某些节日可能与你更相关,比如情人节前后的珠宝或浪漫产品。衡量上述协同效应至关重要,这样才能知道是什么在推动变化。

当然,也有你无法控制的外部因素,比如宏观经济、政治、贸易战等等影响到每个人的因素。但是你越了解你的价格和促销效果,你就越有可能得到可靠的预测。

总的来说,我们讨论了需求预测的好处,以及在衡量需求时应该采取的措施。明确你的预测将为你的库存计划和谈判提供一个有用的工具。衡量您的定价/促销的影响将有助于您向合适的人优化您的营销方案。预测季节性/假日效应可以帮助您在一年中的关键时期防止缺货。

最后,数据就是力量,我们希望将电子商务数据的力量还给人们。因此,请加入我们,立即开始与您的数据一起增长!

制成

LinkedIn脸书上找到我们。

【tresl.co】原载于

Ecom 数据系列:Shopify 订单数据中有什么?

原文:https://towardsdatascience.com/data-science-in-ecommerce-what-is-order-data-e2a8430abbc0?source=collection_archive---------25-----------------------

让电子商务数据科学概念变得简单,一次一个主题。

电子商务中最重要的表格第 1 部分,共 3 部分

Ecom Data Talk Episode 5: What is Order data?

【什么是订单数据是电子商务中最常用的表的 3 部分系列的第 1 部分:订单、产品和客户。我们将使用 Shopify 的数据 API 作为例子。由于大多数数据平台都有相似的结构,因此该分析也适用于其他平台。]

我的朋友经常问我为什么选择 Shopify 来建立 SaaS 业务,Shopify 和亚马逊有什么不同?答案很简单:商家拥有数据可用性

亚马逊是一个聚合器(关于这个的更多信息,请看本·汤普森的聚合理论)。虽然它为高意向在线购物者提供了大量的 AmazonPrime 和潜在销售额,但它垄断了客户关系。

Shopify 则完全相反。表面上看,更像是一个简单的建站者。在后端,它就像一个基于云的销售点系统,简化了计费、订购、库存和托管。它允许任何人在 30 分钟内开始在线销售,这就是 Shopify 的强大之处。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Aggregation Theory — source (https://stratechery.com/2015/aggregation-theory/)

这是销售一个梦想——任何人都可以成为百万富翁电子商务企业家,机会的伟大均衡器。

Shopify 投资于简化商家的数据。他们帮助商家跟踪、存储和维护来自他们商店的所有数据。他们的基础设施不仅为商家带来巨大的利益和成本节约;它也是数据科学家的完美乐园。

细分市场,我们希望让数据科学变得触手可及。我们希望向 Shopify 等平台上的数百万中小型企业数字原生品牌提供科技巨头和大品牌享有的相同数据科学见解。

这就是为什么我们做我们所做的。

太多的人不知道什么是可能的,也不在乎去发现。我的目标是通过提供简单的解释来改变这一点,这样人们就可以知道什么是可用的,理解什么是可能的,并建立一个有利可图的生意。

什么是订单表?

一切从订单表开始。在一排排的交易日志下面埋藏着数据科学的小金块,可以用来理解客户行为。

将订单数据视为 excel 中的一行,包含订单、客户和产品的相关数据。我们大多数人以前都见过这样的数据。这叫收据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它说约翰在特定的日期用信用卡在特定的地点花了 3.23 美元买了一杯咖啡。订单表可能包含从简单到复杂的各种信息。然而,它应该始终包括关键信息:谁是客户,他们购买了什么产品,以及订单本身的详细信息。

如果您正在使用 Shopify,您是否想过 Shopify 会代表您收集客户订单的哪些信息?

订单表中有什么?

如前所述,order 表包含关于谁是客户、他们购买了什么产品以及订单细节的信息。

让我们把注意力集中在订单细节上。

首先,我们有时间:这是订单开始和结束的日期。它们不仅可以帮助你记账,还可以汇总几天、几周、几个月或几年的订单,以发现趋势并评估业绩。

接下来是支付信息:价格、折扣和结账。

有两种类型的价格被跟踪——总价和小计价格。小计价格是不含运费和税金的折扣后的标价,总价包含运费和税金。使用小计价格来计算 KPI 和指标通常更准确,因此运费和税费不会影响您的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Daniel von Appen on Unsplash

折扣是促销,这里有一些信息,折扣代码、折扣类型、折扣级别,以及它是否适用于产品或运输。促销与价格密切相关,有助于吸引顾客。此处获取的额外细节可以帮助您评估哪种类型、哪种级别的促销最适合不同类型的客户和产品。

收银台记录了顾客选择付款的方式,他们是通过在线收银台、Paypal 还是其他电子支付服务付款。通常,人们可以支付的方式越多,就越有利于转化。掌握客户付款信息的详细信息可以帮助您对客户群进行细分,以查看他们的平均价格是否有差异。订单价值或客户终身价值。

最后,我们有网站流量信息。

我们从源头开始。“来源”字段告诉您订单来自哪里。他们是使用网络浏览器、智能手机(iPhone vs. Android)订购的,还是您手动创建的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

example google analytics page

然后我们有了登陆网站,它跟踪客户访问你的网站时看到的第一页。当客户直接输入你的网址,或者从谷歌搜索中查找时,他们通常会登陆主页。然而,如果他们通过电子邮件或广告点击,那么他们可能会登陆你选择的页面。

最后,推荐网站获取关于你的推荐流量的信息。推荐流量是来自你的社交媒体参与、媒体报道或合作伙伴渠道的网络流量。例如,有人点击你的脸书广告,Instagram 影响者的帖子,或者你的电子邮件简讯,都在计算你的推荐流量。你有没有注意到你点击的网址末尾有额外的代码?这些胡言乱语包含了谷歌分析用来显示你的流量来自哪里的信息。

您可以看到 Shopify 为商店捕获了相当多的订单信息。接下来,我们将看一些例子来说明为什么你应该关心。

订单数据能为我做什么?

当您汇总每个客户的多次购买时,您可以查看订单之间的时间,以找出第一个订单和第二个订单之间的平均天数。一旦汇总,我们可以检查季节性和假日模式,这样我们就可以更好地为那些大的假日高峰做准备,并避免代价高昂的缺货。

至于 KPI,平均订单价值(AOV)、平均每用户收入(ARPU)和重复购买率是可以用订单表构建的一些例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Segments Executive Summary (https://segments.tresl.co/)

商家经常想知道是否进行 10 美元折扣的促销比 10%折扣的促销更好。看看提供免费运输是否比 25%的折扣更有利可图?

我们可以研究历史促销来帮助找到这些问题的答案。

一旦你知道客户如何访问你的网站,以及他们如何选择支付,你就可以细分你的客户,找到有利可图的渠道,并优先考虑收购努力。这些都是您可以用来优化运营、增加销售和收入的信息。

总之,我们讨论了订单表中包含的信息、它们的含义以及可能的分析。重要的是要知道你能得到什么信息,这样你就能充分利用它们并制定你的策略。研究什么是可用的,了解什么是可能的,并通过数据驱动的决策建立一个有利可图的业务。

最后,数据就是力量,我们希望将电子商务数据的力量还给人们。因此,请加入我们,立即开始与您的数据一起增长!

制成

LinkedIn脸书上找到我们。

原载于tresl.co

Ecom 数据系列:Shopify 产品数据中有什么?

原文:https://towardsdatascience.com/data-science-in-ecommerce-what-is-product-data-66641c09dc6b?source=collection_archive---------28-----------------------

让电子商务数据科学概念变得简单,一次一个主题。

电子商务中最重要的表格第 2 部分,共 3 部分

Ecom Data Talk Episode 6: What is Product data?

如果不知道沿途购买的产品,顾客的旅程就不完整。所有的生意都建立在理解顾客的口味,并根据他们购买的产品推断他们是什么样的人,他们可能喜欢什么的基础上。例如,网飞仔细检查了每一个标题中每一个场景的每一分钟的细节。他们付钱给数千名人类评论者,让他们给你能想到的几乎任何东西贴上标签,比如男演员/女演员、情绪、地点、地标、色调、文化背景等等。这些标签成为关于标题的元数据,用于构建描述不同标题的 70K+子分类。所以是的,他们知道你是谁。(来源:https://www . theatlantic . com/technology/archive/2014/01/how-网飞-逆向工程-好莱坞/282679/))

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by freestocks.org on Unsplash

你说这和电子商务有什么关系?虽然没有必要走网飞路线,但我们都可以想出独特的标签来描述你店里出售的产品类型。从简单的标签,如颜色、性别、产品类型和尺寸,到更高级的标签,如“夏季”、“花卉”、“奢侈品”或主题标签,如“动漫”、“权力的游戏”。这些都可以作为制作有用的客户档案和改善客户体验的有用元数据。接下来,让我们从基础开始,看看产品表中包含哪些常见的数据类型。

什么是产品表?

产品表通常存储描述产品的信息。它包括标题、产品类型(是一条牛仔裤还是一双鞋)等信息,以及颜色和尺寸、价格和成本等其他属性。它通常还有某种产品层次结构信息,也称为消费者决策树。消费者决策树代表了购物者在面临购买决策和选择时的购物方式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Raquel Martínez on Unsplash

例如,如果我想买发胶,也许我首先要决定我是喜欢液体发胶、发蜡还是润发油。然后,也许我会检查品牌,我是否喜欢这种气味,它是否在我的价格范围内。

通过了解消费者如何购物,您可以构建您的产品类别、产品系列,甚至优化标题和描述,以便让您的客户清楚地做出选择。

让我们再看一下 Shopify 的产品表,看看我们通常可以获得哪些数据,以及它们为什么重要。

产品表中有什么?

让我们把它分成 3 个部分:属性、集合和关联。

在属性中,你有价格。价格通常是人们看到的第一件事。你可以通过设定一个更高的原价来固定人们的看法,同时降低销售价格,使产品看起来更有吸引力。注意标题和描述——不仅要准确和吸引人,还要考虑如何优化搜索引擎优化,让它们更容易被搜索到。

然后是产品选项,在 Shopify 的术语中称为产品变体。变体是相同的产品,但具有不同的尺寸、颜色或材料。您可以决定每个产品是独立的还是现有产品的变体。

还有一个字段让您记录产品的供应商名称。

然后,我们有产品系列。该系列是一套产品。您可以通过基于规则的方法(在 Shopify 中称为智能收藏)来创建它们,或者手动创建它们。一些典型的例子包括“新品发布”、“畅销商品”、“销售商品”,你也可以根据不同的产品类型、顶部与底部,或按性别(男性和女性)创建系列。当你有大量的 SKU 时,当人们在你的网站上进行搜索时,通常很难返回相关的结果。因此,你如何组织你的产品,让它们更易购买变得更加重要。此外,产品在每个系列中的位置对转化非常重要。理想情况下,你可以根据购物者创建不同的个性化收藏,并将更相关的商品放在首位。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Jessica Ruscello on Unsplash

然后我们有产品关联,在 Shopify 中称为标签。标签是由逗号分隔的任何文本,每个产品最多可以有 250 个标签。标签是一种灵活的方式,您可以按照自己喜欢的方式对产品进行分组。也许你有《权力的游戏》主题的物品,你想给它们贴上“权力的游戏”的标签,放在一个收藏里。或者你有一个“全黑”系列,因为你知道你的顾客中有一小部分人只喜欢买黑色商品。使用标签,您可以根据顾客的购物方式创建产品系列,并根据他们的口味进行定制。

接下来,我们来看几个例子,看看为什么你应该关心。

产品数据能为我做什么?

我们可以了解每个地区的产品购买趋势,并找到针对每个地区进行优化的机会。

我们可以在我们的产品组合中识别流量驱动因素、销量领先者和摇钱树。

我们还可以执行购物篮分析,以查看哪些商品是经常一起购买的,或者是同一个人在不同时间购买的。

通过了解经常一起购买的产品,我们可以为追加销售、交叉销售和捆绑销售提供更好的建议,从而提高平均订单价值和收入。我们还可以测试产品变体的不同价格。也许红色能卖得比黄色高。

只需 2 张桌子、订单和产品,就有机会让您的收入和运营增长一倍以上。

总之,我们看了产品表中的内容,它们的含义,以及如何更好地组织它们以提高可发现性并使您的网站更具可购买性。重要的是,不仅要找到顾客喜欢的产品,还要考虑如何根据顾客的购物方式来组织这些产品。拥有更多变体有助于转化,拥有互补产品可以增加 AOV。

使用产品购买来构建客户档案,帮助您了解您的客户,并建立细分以提高投资回报率。

最后,数据就是力量,我们希望将电子商务数据的力量还给人们。因此,请加入我们,立即开始与您的数据一起增长!

制成

LinkedIn脸书上找到我们。

原载于tresl.co

国际发展中的数据科学

原文:https://towardsdatascience.com/data-science-in-international-development-part-i-working-with-text-44ebb6e0feef?source=collection_archive---------17-----------------------

第一部分:使用文本

合著凯尔西·巴顿-亨利 ,版本和图片由 米格尔·瓦雷拉

今天,头条新闻充斥着关于人工智能(AI)能够做以前只有人类才能做的事情的说法。识别图像中的对象、响应语音查询或解释复杂的文本实例等等。但是 AI 应用是如何工作的呢?在国际发展和安全领域有哪些人工智能解决方案?在这篇文章中,我们总结了一些计算机使用机器学习处理人类语言并做出反应的基本技术,使用了我们在AK tek的几个项目中的真实场景。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image: AKTEK Ltd

开发人员经常处理大量的文本和语音数据。这些数据包含了理解冲突和社会动态的关键信息。近年来,社交媒体、新闻和其他文本存储和共享机制产生了更多的数据。因此,能够快速准确地处理文本比以往任何时候都更加重要。人工智能可以提供帮助。

人工智能处理文本的领域被称为自然语言处理(NLP)。NLP 技术是许多众所周知的应用的基础,包括垃圾邮件过滤器、互联网搜索引擎、对话机器人、推荐系统、客户服务应用和机器翻译。驱动所有这些工具的核心技术之一叫做文本分类

文本分类是机器学习的一部分,在机器学习中,计算机学习以高精度自动将给定的文本分配到特定的类别,然后它可以重复这样做,而无需进一步的人工干预。

AKTEK ,我们已经利用自然语言处理和文本分类来创建在该领域有效的技术解决方案:检测在线的潜在有害的极端主义内容,或者帮助揭露在线传播的虚假信息。

检测在线极端主义

我们的旗舰 NLP 项目涉及检测欧洲某个国家的在线极端主义。我们建造、训练并部署了一个能够准确识别网上极端主义文本的探测器。

为了建造它,我们与当地环境和语言的研究专家一起工作。第一步包括研究人员审查和标记我们从选定的在线公共平台提取的不同文本样本。他们研究了这些内容,并根据当地的政治背景将每一篇文章标记为极端主义或非极端主义。

这种监督为我们提供了足够的标记数据来驱动机器学习引擎。我们利用这些数据,设计了一套算法来寻找数据中的模式,并学习复制和推断研究人员的决策过程。因此,我们有了检测器,它可以从几个在线公共平台接收文本,并提供与文本与不同类型的极端主义和仇恨言论相关联的概率相关的分数。

这个人工智能引擎允许我们自动处理来自在线领域的数百万条评论,这是手工不可能做到的。与我们的专家研究人员一起,我们建立了一个由数据驱动的网络空间极端主义的图片,以支持政策制定和安全。

打击虚假信息

按照类似的过程,我们开发了一个原型来检测和揭露网上虚假信息。这个原型是在经过事实检验的新闻文章上设计和训练的。通过这种方式,它能够在真实和虚假的文本中找到共同的语言模式,这些模式表明真实的新闻或虚假信息。

在这种情况下,我们发现单靠文本不足以检测虚假信息:我们还为我们的算法提供了关于文章在哪里发表、文章来源、作者是谁以及文章如何在社交媒体上分享(以及由谁分享)的数据。

包含这些信息使我们能够分析社交媒体中精心策划的活动的常见模式以及机器人的存在。有了这些数据的组合,我们的原型已经能够达到类似于文献中发表的针对特定场景的一些最先进的人工智能研究的精确度。

这个项目的目的是提供一种探测器,可以近实时地在线标记虚假信息。我们旨在帮助记者、出版商、政策制定者,尤其是媒体消费者更好地理解虚假信息的本质,并保护自己免受虚假信息的攻击。

目前,这个原型只在一小部分标签数据样本上进行了测试。现在估计原型的性能将如何外推到现实世界还为时过早,但我们正在朝着这个方向采取措施,寻找编辑更多事实核查文章的方法,并包括跨来源的自动事实核查过程。

这两个项目都基于文本分类、自然语言处理和其他机器学习技术。但是它们是如何工作的呢?

工作原理:自然语言处理和文本分类

计算机是如何处理文本的?

如今,为大多数强大的人工智能应用提供支持的机器学习技术是……数学算法。这意味着,这些技术的核心是处理数字。图像(或视频)识别将像素颜色亮度作为数字输入进行处理;声音信号被数字化并被转换成用于语音到文本应用的振幅和频率。我们如何将文本转换成数字是我们在这篇文章中讨论的任何项目的关键步骤之一。这个过程叫做文本矢量化

文本矢量化:从单词包……

最基本的——尽管通常很强大——矢量化技术是基于计算文本中的词频。这些数字可以用来填充一个矩阵,这给了我们继续前进所需要的数字。毕竟,在进行文本分类时,直觉地认为某些词的出现和重复与文本所属的类别有很强的相关性,对吗?

当然,这是一个巨大的过度简化。事实上,以这种方式计算单词可能会导致一些被多次提及的单词权重过大,但这些单词并没有为手边的文本分类带来任何信息。这就是为什么在一篇文章中有几种“计算”单词的方法。在某些情况下,删除“停用词”(非常常见的词,如*‘the’,‘a’或‘is’*)以提高算法的性能。

这些类型的单词对文本意义没有显著贡献,因此不能帮助确定其类别,所以最好将其删除。在其他情况下,这些常用词的权重会降低,以降低它们的重要性。有关更复杂的矢量化方法的示例,请参见词频逆文档频率

如果一个单词拼错了怎么办?我们如何解释同一个单词的多次倾斜?有几种方法可以处理这类问题,比如词汇化和词干化。另一种处理方法是计算字符集(也就是字母),而不仅仅是单词。

你可能会注意到,使用字符和单词作为文本单元来分解句子会使我们丢失部分上下文信息。为了部分克服这一点,我们不仅计算单词和字符,还计算 2、3 或更多的组合。这些组合被称为 n 元语法

…到单词嵌入

然而,复杂分类问题的挑战是,即使使用 *n 元语法,*我们仍然可能丢失部分上下文含义。在计算上,这些方法也具有挑战性,因为它们导致必须由计算机处理的巨大矩阵,并且难以在存储器中维护。

更糟糕的是,那些巨大的稀疏矩阵(大部分是 0 的矩阵)使得算法很难学习和避免过度拟合。这被称为维度诅咒。因此,我们必须认真实施一个非常稳健的统计框架,以控制这些问题的影响。对于这些更复杂的任务,我们可以使用单词嵌入方法来提高性能。

开发单词嵌入是为了克服上述的一些限制,并捕捉更多的语义信息和语言中单词之间的关系。为了构建单词嵌入,我们首先对大量无监督的文本数据进行数学处理。然后,我们让一个算法(通常是一个狭窄的神经网络)学习预测一个单词是否属于给定的上下文(或者反之亦然)。

在这个过程的最后,计算机仍然不会像人类一样理解单词的意思。但是通过这种重复查看文本的统计过程,它将“学习”以有意义的方式向量化单词。语义和句法关系将出现在这个新的数学超空间上,检查一下可以获得的常见类比,有些真的很神奇。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image: AKTEK Ltd

此外,单词嵌入的构建使得我们必须处理的数字矩阵不再像以前那样庞大和稀疏。在单词袋模型中,一整段文本被转换成稀疏的一维向量(具有几十万维或更多维),而在这里,一个单词被转换成密集的一维向量(只有几百维)。

因此,一段文本(多个单词)可以被排列成例如矩阵,一种二维数字结构。然后,这种结构开辟了将深度学习技术应用于文本分类的可能性,为此,文本的顺序和上下文结构使其成为构建翻译系统、聊天机器人或极端主义检测器等东西的合适场所。

当然,这并不是故事的结尾:段落嵌入、字符嵌入、ULMFiT、ELMo…当您阅读本文时,令人印象深刻的新技术正在研究中。

我们如何训练计算机对文本进行分类?

一旦矢量化完成,我们就可以将文本转换成计算机可以进一步处理的形式。但是,即使在将文本转换成数字之后,我们仍然需要教会计算机执行我们感兴趣的特定文本分类。

监督学习

对于这一步,我们需要一个由分析师标记的文本片段(帖子、文档或文章,取决于任务)的智能样本。分析师团队手动将这些文本片段分配到它们相应的类别中,我们认为这种分配是它们各自的基本事实标签。与矢量化的文本一起,基本事实标签形成了训练集,这样我们就可以对文本进行分类了。

存在多种算法来执行这种分类,它们都有各自的优点和缺点。在很高的层次上,算法是数学公式,它对文本向量进行运算,并输出文本属于特定类别的概率。为了能够尽可能准确地对新文本进行分类,算法会尽量减小它们在训练集上的预测与这些相同文本的真实分类之间的误差。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image: AKTEK Ltd

最小化的过程本身是另一个丰富的数学领域,它通常通过微分、代数和其他强大的数值方法来进行。摄取标记数据并最小化预测误差的过程称为训练。这个过程允许算法学习数据中的模式,这些模式确定一篇文章是否属于特定类别(例如一篇帖子是否是极端主义)。

经过训练后,当算法看到一段新的文本时,它可以在没有任何人工干预的情况下对其所属的类别做出明智的预测。在这个阶段,计算机已经学会了,可以近乎实时地做出新的预测,这个过程现在很容易扩展到海量数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image: AKTEK Ltd

稳健的统计框架

在模型开发和训练的所有部分中,最重要的方面是拥有定义良好的统计框架。为了支持每个模型选择:要做哪些文本预处理(词汇化、词干化、停用词),要使用哪些特定的矢量化(BoW、tf-idf、嵌入),要选择哪个分类器或集成(更简单的算法或复杂的深度学习构造)或如何调整所有这些,我们需要持续评估模型在新数据上部署后的预期表现。这种模型选择通常是通过所谓的验证来完成的。

然后,我们可以通过向最终算法展示它从未见过的新数据,来测试它在数据中发现模式的能力。这个新数据必须与训练集分开保存,在所谓的测试集中。我们通过算法传递这个“新”数据,并将算法的预测与再次从分析师那里获得的真实结果值进行比较。这给了我们一个非常可靠估计,当我们的算法被应用到真实世界应用中的新数据时,它将如何准确地执行。

观点

我们在这里总结的每一种技术背后都有丰富的文献。我们鼓励您进一步调查它们;这个领域当然值得深入研究!这里提到的所有技术,以及更多的技术,正在推动许多现实世界的应用:搜索引擎、翻译系统、聊天机器人、极端主义探测器。

当与研究专家合作应用时,数据科学正在为国际发展和安全领域目前面临的一些最复杂的问题提供答案和解决方案。本条目仅涵盖了基于文本的解决方案的一小部分示例—在以后的条目中,我们将描述使用其他类型数据的方法。

凯尔西·巴顿-亨利合著。最初发布于www . AK tek . io

库存管理中的数据科学:管理仓库的真实案例

原文:https://towardsdatascience.com/data-science-in-inventory-management-real-case-in-managing-a-warehouse-6259cad17c0e?source=collection_archive---------3-----------------------

在这篇文章中,我们将知道如何用最有效的预算来管理仓库

大家好,欢迎回到另一个关于数据科学的故事!这是一个真实案例,不仅仅是一个理论或学术文章,所以我们将在现实生活中用问题做一个测试实验。所以如果你有任何担心,让我们留下评论,我们可以一起讨论!

思考这个问题

好的,让我们想想你购物时经历的两个购物案例。有一天,你去鞋店决定买一双新鞋,不幸的是,你遇到了问题:

  1. 你挑选了一个好模特,但是他们没有适合你脚的尺码
  2. 他们提供了另一款适合你脚的型号,但是你不喜欢

多么糟糕的一天,对吗?

作为店长,他们也不高兴。他们失去了一个顾客——就是你。如果这是你第一次去商店,你会回来吗?当然…“可能吧”。但是如果这是你第二次在这家商店遇到同样的问题,你会回来吗?绝对是店长的噩梦。

找到(达到目的)的方法

那么如果你是在扮演店长的角色,如何避免这个问题呢?当然,我们不能因为我们无法控制同一天会有多少同样款式同样尺码的顾客光顾你的商店。这要看我们的运气了!

然后我们结案,放弃这个问题,试着向我们的大老板解释“好吧,对不起,是我运气不好”?

绝对没有!我们有足够的统计工具来解决这个问题。但是请记住,我们无法确保每位顾客都有自己的鞋子,但是我们可以利用数据科学增加顾客在我们商店找到他们最喜欢的鞋子的机会(所以不要浪费我们的运气)。

查看历史数据

在计划未来之前,我们需要回顾过去的历史——记住这一点!所以第一步,我们需要与销售部门会面,以获得过去几年的销售历史。这是我们从销售部得到的数据(你可以在这里下载

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Al Bundy raw data

检查和清理数据

让我们检查一下数据集中的字段:

InvoiceNo、ProductID、Year、Month:它们只包含数字,但它们不是数字字段,而是分类字段

日期,国家:分类字段。我们已经有了日期字段,它同时具有年和月字段的含义,所以我们应该保留日期,并将年和月排除在我们的数据集中

商店:绝对是按国家 ID 分组的分类字段(美国、英国、加拿大、德国)

Size(美国),Size(欧洲),Size(英国):分类字段。但是让我们三思!3 个字段具有相同的含义,因为我们可以使用这张转换图将尺寸(美国)转换为尺寸(欧洲)和尺寸(英国),反之亦然。所以在这种情况下,我们应该只保留 1 个字段作为代表。我会选择美国尺码,因为它看起来比欧洲尺码简单,浮动数字也比英国少。请记住男性和女性的尺寸是不同的,所以不要使用没有性别字段的尺寸字段,否则会犯严重的错误!

性别:另一个基本范畴

单价、折扣、销售价格:数字字段。在进行任何计算之前,我建议我们应该将包含百分比值的折扣字段转换为 float,以便于计算。如果你是一个聪明的人,你可以看到这些场之间隐藏的等式

SalePrice = UnitPrice * (1 — Discount)

…所以我们应该只保留数据集的销售价格

完成这一步后,我们将有一个更简单的数据集:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Cleaning up the data set

分析数据

数据集已经准备好进行分析了!现在我们必须计算前一时期(可能是一年,或一个月……)卖出了多少件商品。在数据分析中,统计单个对象的出现次数称为“频率”。为了计算频率,在这种情况下,我们将通过以下方式对数据集进行分段:

  • 国家
  • 尺寸
  • 性别 (正如我之前提到的,没有性别就不能使用尺寸,所以我们也必须包括性别)

我们的交叉表将只有 2 个维度,但我们这里已经有 3 个维度,所以我们必须按性别将表分成 2 个不同的维度。这是结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Sizes distributed by country

定义问题

  1. **问题:**根据我们的观察,有可能售出的鞋子数量(型号、尺码)是多少?
  2. 条件:我们将以 95%的置信区间找到问题的答案
  3. 计划:
    -使用过去 12 个月的数据集
    -使用男鞋数据集
    -使用美国数据集

这一步,你会想为什么我们只使用男鞋和美国数据集。让我们想一想:如果一个男人去商店,一个女人会来吗? 我们无法回答,因为在这种情况下性别是相同的。它没有任何反射在一起。另一方面,例如,如果一个孩子去商店,他的父母也很有可能一起去,因为那个孩子不能独自去购物和自己用钱。但是在我们的例子中,如果一个男人去商店,他可以一个人去,或者和他的兄弟,或者和他的女朋友,甚至一群朋友一起去。男访客和女访客的几率没有联系。这就是我们所说的相同的

当然,国家和性别是一样的,他们都是一样的。

*那为什么要设置 12 个月的数据?*因为足够了代表一年的完整周期。购物行为大多基于一整年的周期,如:年终大甩卖,黑色星期五,公司的周年促销,人们可能会在冬天到来时更换鞋子(以购买更暖和的鞋子)…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Men shoes sold in 2016 distributed by Size and Month

将数据放入热图,让我们看看数据集中隐藏的信息

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Men shoes sold in 2016 distributed by Size and Month — Heatmap on Tableau

现在我们可以很容易地看出隐藏的信息:

  • 太小的尺码(6 至 7.5)和太大的尺码(13 至 16)不受欢迎。所以,一个人来我们店里买这双鞋的几率非常低,尤其是超大号的 15 和 16 码——我们全年都没有卖出过这个尺码的鞋!
  • 平均尺寸(9 到 10.5)看起来很不错。美国男人的脚的尺寸是 9.5,似乎超出了其他尺寸的数量。专注于生产和储存这种尺寸的鞋子,我们有很大的机会去卖鞋子和赚钱!

但这只是高水平的考试。继续深入挖掘,揭示我们的数据集隐藏的全部隐藏信息。

计算

因为我们有 17 种不同的鞋码(仅限男士——基于我们的计划),所以我们需要计算 17 种不同的 CI(置信区间)。首先让我们用 Microsoft Excel 的=average(number1, [number2]...)函数来计算平均值(在这篇文章中,我不会过多提及编程。只是坚持吻校长)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Men shoes, US 2016 & Mean

我们确实不知道人口方差并且我们的数据集仅包含 12 个观察值(由 2016 年的 12 个月表示),那么我们必须使用 T 统计量

让我们在 T-统计表中找到 11 个自由度的 95%置信区间的值!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们解释一下,以防你担心:

  • 11 是用df = n— 1(n = 12)计算的 12 个月的自由度
  • 0.025 是使用SL = (1 - CI) / 2计算的 95%置信区间的显著水平(更喜欢下图)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Probability Density 2 tails

好吧!查看下面的 T 统计表,我们可以发现的 T 值是 2.201 (正好在红色列和蓝色行的交叉点)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

T-Statistic Table of 95%CI (0.05%SL) and 11DF

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

T-Statistic Value

现在,让我们计算标准误差和边际误差!

在 Microsoft Excel 中,可以使用以下公式计算标准误差:

=STDEV.S(number1, [number2]...)/SQRT(n)

使用:

  • 数字 1,数字 2…是卖出的鞋子的数量
  • n = 12(月)

Margin Errors = Standard Errors * t(11, 0.025)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Mean, SE, and ME

最后一个,计算置信区间

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Confidence Interval formula

我知道你对上面的公式感到头疼,但是等等!我们已经有了均值和边际误差,对吗?那么我们可以计算 CI 为(Mean — ME; Mean + ME)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Mean, SE, ME, and CI(95%)

在 95%的情况下,每双鞋销售的真实总体平均值将落入各自的区间。CI 的上限值(上限或更高的值)向我们显示了所需鞋子的最大数量。反之亦然,因为它们是卖出的鞋的最小数量。因为我们不想库存太低,所以解决这个问题的一个可能的办法是,尽可能多地购买最接近最大销售可能性置信区间上限的双鞋。当然,我们需要储存超过 CI 地板限制的,以确保所有顾客(男性,有特定鞋码)都能买到他们喜欢的鞋子**,而不是因为商品缺货而不买就离开我们的商店。**

让我们总结一下 CI,看看:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Conclusions based on sample data set

我们解决问题了吗?

没有!别怪我

  • 好吧。这是 2016 年的结论,但现在是 2019 年,我们可以使用它吗?绝对是!我们可以计算 2017 年、2018 年,然后取它们的平均值,给出 2019 年的预测
  • 由于其他因素,2019 年的预测可能不正确,例如:今年的流行趋势发生了变化,人们更喜欢使用运动鞋而不是鞋子;或者我们旁边刚开了另一家鞋店。但是这篇文章只分析了历史数据
  • 这篇文章我们使用了美国 2016 年的数据,并且只分析了男人的尺寸。因此,如果你是一名商店经理,你必须对女性进行同样的分析,以便对你的商店有更全面的了解

延伸!让我们再深入一点

我想知道你是否注意到在之前的“基于样本数据集的结论”图片底部的数字 105 和 175。这是什么意思?

  • 105:卖出最少数量的鞋子。所以作为商店经理,我们必须准备足够多的库存来储存这些鞋子,否则我们就会缺货
  • 175:库存大是好,但没必要库存巨大!大到可以存放 175 双就够了。请记住,您的库存越大,管理费用就越高

你穿 16 码的有什么?如果你的眼睛足够敏锐,你可以看到没有这种尺寸的产品出售。让我们检查一下 2017 年和 2018 年的数据。如果没有商品售出,你需要停止生产或进口这种尺寸的商品

如果你的库存不够大,不能存放最少数量的鞋子怎么办?别担心。这是全年售出的商品数量。让我们来看看这篇文章顶部的热图,你可以看到 12 个月内的分布情况。将每个数字(每月)转换为频率—该月占全年的百分比。你可以计算出哪个月我们卖得最多,仔细检查库存,准备进口计划,然后你就不用担心供求趋势了

结论

  1. 数据分析不能帮你回避问题,但是帮你反映历史数据预测未来趋势
  2. 在数据科学和统计学中,我们不保证任何事情,我们只是根据有多少信心给出结论(这个帖子是 95%)
  3. 而最后一个,你可以通过频繁分析历史数字来增加自己的信心。保持每年、每月或每周更新。更新数据越频繁,预测的准确性就越高

再次感谢您的阅读时间。

天天快乐学习!

生产中的数据科学

原文:https://towardsdatascience.com/data-science-in-production-13764b11d68e?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://pixabay.com/photos/factory-industry-sugar-3713310/

用 Python 构建可扩展的模型管道

作为一名数据科学家,我最大的遗憾之一是我太久没有学习 Python 了。我一直认为其他语言在完成数据科学任务方面提供了同等的优势,但是现在我已经跨越到 Python,没有回头路了。我已经接受了一种语言,这种语言可以帮助数据科学家快速地将想法从概念变为原型并投入生产。最后一个术语, production ,可能是不断发展的数据科学学科中最重要的方面。

知道如何建立机器学习模型是有用的,但像 AutoML 这样的新工具正开始将数据科学家的工作商品化。现在,您可以构建健壮的模型,扩展到产品组合,而不是让数据科学家为单个产品构建定制模型。随着新角色的出现,如应用科学家,混合了人工智能工程和数据科学的能力,数据科学有了新的机会。

在我目前的职位上,我是数据产品开发的先锋,这些产品实现了数据科学的承诺,我们构建了组合规模的系统来提供预测信号。我们希望建立我们的产品团队可以使用的生产质量系统,我希望为下一批数据科学家提供学习材料。这就是为什么我决定写一本关于 Python 的书,因为我想提供一个文本,清楚地阐明从产品到应用数据科学的过渡需要学习哪些技能。我们的目标是为分析从业者和数据科学毕业生提供参考,通过实践经验提升他们的技能。为了交付数据产品,这本书将通过大量的例子从你的本地机器到云再到无服务器。

自助出版

虽然我有机会与大出版商合作,但我已经决定为这本书寻求自助出版。我完全承认,这本书的质量不会与出版商支持的质量相同,但我觉得这将是一个更加开放的创作体验。我的计划是用 bookdown 来创作和设计这本书,用 Leanpub 来发布并获得反馈。

从经济角度来看,写书对作家来说通常不是一笔大的支出。自助出版有可能获得更高的版税,但你可能会失去更多的读者。除了版税,我想自己出版的原因如下:

  • **时间线:**你想写就写,根据需要回复社区反馈。你决定哪些问题是最重要的。
  • **所有权:**对我来说,与传统出版商打交道最大的恐惧就是写完一本书的大部分内容,然后把它打包。我想写博客并获得反馈,拥有我写的所有东西。
  • **内容:**各大出版社希望书籍能涵盖相关主题,比如 GDPR,但这超出了我希望涵盖的范围。
  • 也许对我来说最重要的一点是,我希望能够为我的书开展营销活动。然而,像亚马逊赞助这样的事情通常不会在合同中提及。
  • 工具:我可以使用我认为最适合工作的工具来写我的书,并避免格式之间的翻译问题。

虽然与出版商合作是一种选择,但我决定单干,安德烈·布尔科夫是我追求这一选择的最大灵感之一。有许多开放的工具可以用来设计你的书,在出版前获得反馈,建立一个社区,并重复你的工作。

我出版这本书的计划是在 Leanpub 上提供早期访问,在 GitHub 上发布代码示例,并在媒体上分享摘录。

[## 生产中的数据科学

从初创公司到数万亿美元的公司,数据科学在帮助组织最大化…

leanpub.com](https://leanpub.com/ProductionDataScience/)

书籍内容

这本书的主题是采用简单的机器学习模型,并在多个云环境的不同配置中扩展它们。这本书假设读者已经具备 Python 和 pandas 的知识,以及一些使用 scikit-learn 等建模包的经验。这是一本关注广度而非深度的书,目标是让读者接触到许多不同的工具。虽然我将探索一些我以前在博客上写过的内容,但这将是所有新的写作。以下是我打算在文中涉及的内容:

  1. **简介:**这一章将推动Python 的使用,并讨论应用数据科学的学科,展示全书中使用的数据集、模型和云环境,并概述自动化特征工程
  2. **模型作为 web 端点:**本章展示了如何使用 Web 端点来消费数据,并使用 Flask 和 Gunicorn 库将机器学习模型作为端点。我们将从 scikit-learn 模型开始,并使用 Keras 设置深度学习端点。
  3. **模型作为无服务器功能:**本章将建立在前一章的基础上,并展示如何使用 AWS Lambda 和 GCP 云功能将模型端点设置为无服务器功能。
  4. **可重现模型的容器:**本章将展示如何使用容器来部署带有 Docker 的模型。我们还将探索使用 ECS 和 Kubernetes 进行扩展,以及使用 Plotly Dash 构建 web 应用程序。
  5. **模型管道的工作流工具:**本章重点介绍使用 Airflow 和 Luigi 安排自动化工作流。我们将建立一个模型,从 BigQuery 中提取数据,应用模型,并保存结果。
  6. **批量建模的 PySpark:**本章将读者介绍使用社区版 Databricks 的 PySpark。我们将构建一个批处理模型管道,从数据湖中提取数据,生成特性,应用模型,并将结果存储到一个非 SQL 数据库中。
  7. **批量建模的云数据流:**本章将介绍 GCP 云数据流的核心组件。我们将实现一个批处理模型管道,使用这个工具获得与前一章相同的结果。
  8. **模型工作流的消息系统:**本章将向读者介绍 Kafka 和 PubSub 在云环境中的消息流。阅读完这些材料后,读者将准备好使用 Python 来创建流数据管道。
  9. **使用 PySpark 和 Dataflow 的流式工作流:**本章将展示如何结合使用消息系统和第 6 章& 7 中介绍的批处理模型管道来创建低延迟的流式模型管道。
  10. **模型部署:**本章将讨论使用模型存储时将模型产品化的不同方法,并将提供 Jenkins 用于持续集成和 Chef 用于以编程方式支持模型服务的例子。
  11. **模型生命周期:**本章将讨论对已部署模型的监控和变更选项,并提供检查数据沿袭和模型漂移的例子。它还将涵盖模型剧本和事后分析的主题,以及发生故障时的通信处理。

阅读完这些材料后,读者应该对构建数据产品所需的许多工具有了实践经验,并对如何在云环境中构建可扩展的机器学习管道有了更好的理解。

结论

应用科学是 ML 工程和数据科学交叉的一个成长领域。这个领域的需求正在增长,因为投资组合规模的数据产品可以为公司提供巨大的价值。为了帮助满足这种需求,我正在写一本书,重点是用许多承担应用科学角色所需的工具来构建 Python 的实践经验。我正在使用 Leanpub 自行发布这篇文章,并启用社区反馈。

本·韦伯是 Zynga 杰出的数据科学家。我们正在招聘

数据科学:在任务中,而不是在标题中

原文:https://towardsdatascience.com/data-science-in-task-not-title-65eaa676f423?source=collection_archive---------29-----------------------

数据科学是目标;我们中的一些人可能在我们意识到之前就已经在那里了。

TL;公平博士警告:本文更多的是启发他人。我最后给出的建议对我有用,也希望对阅读这篇文章的人有用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Vladislav Klapin on Unsplash

你好世界!我有消息告诉你;我是一名数据科学家。或者至少我认为自己是。多年来,数据科学家的定义在很大程度上已经固化为高调的人工智能和人工智能初创公司,他们是工作描述和团队结构的先驱。然而,我不在这些团队中的任何一个工作。我甚至没有在这些公司中的任何一家工作过,也没有在我的公司中见过这些团队中的任何一个。我认为自己是一名数据科学家,因为我收集、研究、建模、分析、创建可视化数据,并向内部和外部的利益相关者解释数据。当我把它写出来时,听起来好像很多,但我敢打赌,我们中的许多人在没有数据科学这个名字的情况下,也在从事相同或类似的工作。我们是数据科学家,但不是数据科学家。

我不是通过任何常规途径来到这里的,我严重怀疑是否有这样的途径。数据科学是关于每天追随探索和学习的热情。这种持续的自我驱动的增长将我们从最初的地方慢慢带到今天的地方,即数据科学。无论是作为一个领域还是作为该领域的人,没有人能从学校学到数据科学所需的一切。其实学校只是给了我们一个基础。我曾与具有生物医学测试、计算机科学、运筹学、统计学和心理学背景的人共事过。连我都是从音乐教育开始的。那么我是如何发展自己的道路,从音乐老师到数据科学家是怎么走的呢?激情。

激情:从音乐到数据

我仍然记得生枫树鸡蛋壳的感觉。当我换一个鼓面时,胶水和木头的味道是如此的清晰和舒缓。我还记得当我跟不上乐队其他成员的节奏时,我内心的纠结。我不是一个糟糕的表演者,但我不是伟大的。我对教学充满热爱和激情。看到一个孩子脸上的理解的点击和喜悦的条纹让我坚持了 5 年。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Josh Sorenson on Unsplash

我像工程师一样接触音乐、打鼓和打击乐。也许是那种放慢节奏、研究每一个片段的欲望让我在演奏时止步不前,但当我坐在一个学生旁边时,它让我与众不同。我可以用无数种方式解释握力、紧张和感觉,慢慢弥合有时感觉无法逾越的理解差距。我教书的时候很开心,真的很开心。发生了什么事?野心。

对我来说,一辈子做私人教师或在某个小学校教书是不够的。我想成为大池塘里的一条大鱼。并且…排队人生的下一个阶段。我挣扎!我成了人海中的无名小卒。接下来的一年我做了贴身男仆,但我从未让我的热情熄灭。在我休息和沉默的时候,我继续阅读一本书,这本书是我写的一篇关于基于大脑的教育,即神经科学应用于教学的研究论文的奇妙基石。

在激情和才华的交汇处

几个月后,我发现自己被一所大学录取,攻读心理学硕士学位,重点是神经科学。太不真实了。我以为我不知何故抢了别人的位置(录取通知书上写着‘哈罗德’),但实际上我的教授选择了我,因为我的音乐背景。他的研究集中在患有阅读障碍的孩子以及他们如何处理听觉信息。他在寻找一位音乐家来为他的作品提供新的视角。我非常适合!我终于找到了一群想像工程师一样仔细研究行为细节的人,就像我以前研究音乐一样。这一阶段的行为聚焦研究将在以后与利益相关者打交道时证明是有用的,但不是我进入数据科学的最终催化剂。这个荣誉属于卑微的回归阶级。回归最终成为我对一个世界的介绍,令我惊讶的是,这个世界会吞噬我的每一个想法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Aaron Burden on Unsplash

我对统计学很感兴趣。这对我有意义,对这个世界也有意义。我转到了最小众的领域,量化心理学,我又一次快乐了,真正的快乐。这种不断自我驱动的成长和不落在我的同龄人(他们中的许多人在学士学位中有统计学)后面的决心迫使我阅读额外的教科书和文章,只是为了理解我的作业。幸运的是,我的教授们非常鼓励想法、问题和批评。很快我就养成了这三种习惯。我问了许多问题,提出了可供选择的理论,并试图将新的统计方法应用到成熟的领域。当时我觉得他们中的许多人都是愚蠢的问题(事后来看,许多人肯定是),但我知道这样做有助于我成长。那两年帮我找到了自己擅长的东西,教会了我如何自学。

从学术到应用

毕业后,我将最终被释放到这个世界上。带着原始的激情和少量的天赋,我要重新定义世界看待一切的方式。至少我是这样认为的,直到我的老朋友让我再次成为一名初级分析师。我用了我所学的最小的一部分。均值、最大值和最小值统治着世界,一系列的条形图被用于客户演示幻灯片,这就是我们的数据芒格。成功了。公司赚了钱,但我不觉得我只是做了一直以来做的事情就有所贡献。

自从踏入企业界以来,这是一条艰难的道路。我不会再写一篇长文来概括这一阶段的生活。幸运的是,我不必为了证明我的观点而这样做。我在成长过程中并不想成为一名数据科学家(在我成长的过程中这也不是一件事)。我上学不是学数据科学的。我开始追随我的激情。接下来,我充分利用了我的才能,然后让我不断自我驱动的成长欲望占据了上风。放学后,我仍然像其他人一样做好了准备,走进了这个世界。我有一个基金会。

在过去的 5 年里,我一直让这种不断自我驱动的成长来定义我和我所交付的工作质量。正是这种驱动力让我,作为一名普通分析师,能够构建 soundex 聚类算法来匹配手动输入数据中的医生,使用异常检测自动编码器重新定义市场时机模型,并实现 openCV 来从广告图像中恢复信息。学校从没教过我这些。我自学了如何成为一名数据科学家,我敢打赌,我不是唯一一个像没有头衔的数据科学家一样自学梦想、构建和交付的人。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Markus Spiske on Unsplash

因此,对于那些热爱数据科学、感觉自己是局外人的人,我的最后一条建议是。

1.找到你热爱的事情。
2。找到你的才能产生最大影响的地方。
3。在一和二相遇的地方成长和发展。

走出去,吸收其他领域或行业的想法,并将它们应用到你的工作中。每周五花几个小时去研究一个新的想法,因为成长不会自己到来;你培养它。数据科学也不会自己找上门来;你每一步都在培养它。

对所有正在实施大创意的分析师大声喊出来。我们是任务中的数据科学家,而不是头衔。

设计过程中的数据科学

原文:https://towardsdatascience.com/data-science-in-the-design-process-754954c996de?source=collection_archive---------12-----------------------

第一部分

服务设计者的框架

“设计流程中的数据科学”的第 1 部分,旨在帮助服务设计师在设计流程的所有阶段使用数据,从使用数据进行研究和分析到使用数据作为创意媒介和工具。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

摘要

近年来,我们生活和环境的数字化导致了数字数据的激增。通过可穿戴技术的兴起和手机的出现,我们在网上甚至网下都留下了我们行为的数字痕迹。技术使公司能够存储这些数据,这些公司开始意识到这些数据对其产品、服务和营销的价值。根据《哈佛商业评论》(Harvard Business Review),数据科学家的角色已经成为“21 世纪最性感的工作”(Davenport,2012),所有行业的组织都在使用数据科学从他们收集的大量数据(大数据)中提取价值。

服务设计机构也需要使用数据科学,因为越来越多的客户向他们的设计机构施加压力,要求将数据的使用纳入他们的工作方式。因此,这项研究旨在解决服务设计师在设计过程中纳入数据科学的程度。通过设计进行研究的方法用于调查设计师如何使用数据科学,因为传统上设计过程深深植根于定性研究。这项研究揭示了数据设计师面临的广泛挑战,以及数据不仅可以用来补充定性见解,还可以探索数据作为一种新的设计媒体。此外,还提出了一个框架和工具包作为建议的解决方案,该报告说明了原型是如何开发、测试和迭代的。接下来的步骤中提出的解决方案的发展强调,最后,建议作出进一步的领域实践为基础的学术研究在这一领域。

大数据的兴起

大数据已经成为一个热门词汇,引起了所有行业的企业、政府和媒体的关注(Davenport & Patil,2012)。数据的收集和存储变得比以往任何时候都更简单、更便宜。我们的生活已经变得数字化,从网上交谈,到分享假日照片,登记航班,甚至网上约会,我们在每一步上都留下了我们活动的痕迹。我们现在每两天创造的关于我们自己的信息与从早期文明到 2003 年创造的信息一样多:每 48 小时 5 艾字节(McGuier 等人,2013;Gobble,2013)。随着智能手机和可穿戴跟踪设备的发展,我们现在不再只有在工作时登录电脑才能产生数据;数字正在渗透我们的家庭和个人生活。“睡眠、锻炼、性、食物、情绪、位置、警觉性、生产力,甚至精神健康都被跟踪、测量、分享和展示”(Wolf,2010)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 1: Extract from Black Mirror episode ‘Be right back’

《黑镜》是一部英国电视“科幻选集系列片,探索了一个扭曲的高科技未来,在那里人类最伟大的创新和最黑暗的本能碰撞”(网飞,没有日期)。第二季第一集《马上回来》(Be right back)由查理·布洛克编剧,欧文·哈里斯执导,展示了人们如何仅仅基于他们的在线身份被再造。一位最近去世的寡妇了解到一项新的在线服务,该服务通过使用算法和他的社交媒体和在线历史来重现她已故的丈夫(见图 2)。

仅在十多年前,最有价值的公司名单主要由制造和生产公司组成,如通用电气和福特,但今天,从信息中产生价值的公司,如谷歌、亚马逊和脸书,已经成为领导者(Osman & Mines,2015)。

数据科学和大数据紧密相连,但又不完全相同。大数据涉及数据捕获、传输、存储、归档和分析等,而数据科学基于通过算法、应用数学和统计学从数据中提取信息(Osman & Mines,2015)。可以说,这是谷歌和 LinkedIn 等公司建立的基础,也是在科学研究中越来越受欢迎的基础(Hey et al .,2010;Tolle 等人,2011 年)。

Wolf (2010)描述了一种对数据近乎痴迷的关系,他说“对数字的迷恋是现代管理者的典型特征。面对敌意股东的企业高管口袋里装满了数字”。事实上,商业世界已经习惯于使用数据,因为可量化的数据和数字便于比较和测试。此外,Alharti 等人(2017 年)认为,大数据可以支持组织提供更好、更个性化的体验,从而提高效率和盈利能力,并且是获得竞争力的最重要因素之一

优势,因为它允许企业以新的方式创新(LaValle 等人,2011)。然而,McGuier 等人(2013 年)发现,首席营销官(CMO)仅在 29%的时间里根据数据分析做出决策,这凸显了数据在使用不当时的无足轻重。这可能是因为组织在充分利用大数据可能带来的价值时面临许多障碍,例如“过时的 IT 基础设施、大数据固有的复杂性和混乱性、组织内部缺乏数据科学技能、隐私问题以及不利于数据驱动的运营或数据驱动的决策的组织文化”(Alharti 等人,2017 年,第 286 页)。

数据科学家及其在商业世界中的角色

如果数据不能被解释,数据的数量和丰富性的增长是没有意义的,雇佣一个专门的资源来操纵和提取数据的意义的想法只是在 2001 年才出现,当时“数据科学”一词首次在克利夫兰的一篇论文中使用(2001;波拉克 2012)。这为许多大学促进数据科学领域的发展开辟了道路,他们开设了数据科学机构和中心,正式将数据科学作为一种职业来教授,例如爱丁堡大学数据科学博士培训中心、伯克利数据科学研究所和纽约大学数据科学中心等。十多年后,数据科学已经成为每个行业的基本要素,无数作者将数据称为“未来的货币”,并将它比作黄金(Pollack,2012;Johnson,2012)和数据科学家已经成为这种新货币成功的一部分。Bakhshi & Mateos-Garcia (2014)将数据科学家定义为“使用统计、计算和其他学科的分析技术从新(‘大’)数据中创造价值的专家。”

随着数据量的不断增加,数据分析变得比以往任何时候都更加复杂,许多组织的解决方案已经变成雇用数据科学家,并期望他们挥舞魔杖,从根本上改变他们的业务。然而,实际上这并不那么简单(Wettersten & Malmgren,2013)。许多公司都试图了解如何在其业务中定位数据团队。在零食公司 Graze,数据团队直接向首席执行官安东尼·弗莱彻汇报。他表示,这不是一种典型的方法,但他们希望从一开始就在组织内部围绕数据创建正确的文化。数据科学家负责向企业内的利益相关者提供可操作的见解,并需要为销售、营销和财务等部门提供这些见解(Davis,2016)。如今,团队跨业务工作,这一方面对数据科学家很有吸引力,因为他们可以处理各种类型的问题,另一方面,这使整个工作团队的数据“民主化”。

快速产生的不断增长的数据量已经超过了处理、分析和解释数据的能力。因此,数据科学家已经成为商业世界中一种稀缺和急需的人才商品。Parsons(Davis,2016 年引用)宣称“数据科学家是数字世界的火箭科学家,首席数据科学家(CDS)的角色正在出现”,甚至受人尊敬的《哈佛商业评论》(Davenport,2012 年)也将数据科学家的角色称为“21 世纪最性感的工作”。

数据和设计——协同还是二分法?

Treseler (2015)指出,在医学、工程和其他安全关键系统中使用科学方法测试新事物是常见的做法,但在消费品和网站设计中使用这种方法是相对较新的现象。看看发表的关于商业、技术和营销相关数据的文章数量,很明显数据是当今的主题*,Treseler (2015)认为应该让“数据科学”超越统计学家的角色,让设计师将数据科学作为他们技能的一部分。*

有一种流行的观点认为,设计师基于本能和创造性直觉做出决定,这可能会导致一些人认为设计从来没有以数据为基础,不能被视为一种经验主义学科。因此,设计站在数据科学的对立面(King 等人,2017)。这样做是正确的,产品和服务的设计是基于与用户建立共鸣,通过探索和创造过程创造“巧妙”的体验。与“科学”的认识论过程不同,“设计是感性的。[……]设计不能被合理化和约束”(金等人,2017 年,xi 页)。一些专业人士(DigiCult,无日期;艾斯林格,2017)担心数据可能会对设计师的直觉、经验和创造力造成潜在的限制。

在光谱的另一端,从一个极端的角度来看,数据科学被视为一个无可争议的真理,为商业领袖创造了一个备受追捧的确定性。King 等人(2017 年)描述了从数百万用户收集数据的极端观点,这些用户被认为回答了所有设计问题,因此,这些数据可以取代设计。事实上,Denham (2018)甚至称赞数据科学家是未来的 UX 设计师。

Waechter (2016)将设计和数据科学置于光谱的相反两端,认为设计师和数据科学家“通常不会说相同的语言,更不用说对期望的用户体验有共同的理解”。这一概念引出了一个问题,即数据科学和设计是否可以协同共存,并创造一种互惠互利的关系?Wettersten & Malmgren (2018)似乎正是这种信念。当 IDEODatascope Analytics 合并他们的团队时,设计总监 Wettersten 和数据科学家 Malmgren 开始密切合作(Wettersten & Malmgren,2013)。他们将在他们著名的以人为中心的设计过程中使用数据科学称为“以人为中心的数据科学”,他们陈述了跨学科团队的结果,并建议从业者应该合作并相互学习,而不是一个人同时成为设计师和数据科学家。

一方面,有人认为,数据科学家在参与设计研究时,可以学会与研究对象建立更多的同理心。此外,设计方法,如可视化和草图,可以帮助数据科学家在分析阶段看到数据中的模式(Osman & Mines,2015)。另一方面,设计师也可以从数据科学中学到很多东西,例如使用指标来与业务目标保持一致,而不是依赖“直觉”,他们可以使用数据和指标来测试和评估他们的假设和假说(黄,2016)。

数据驱动设计是答案吗?

任何领域变得更加“数据驱动”的需求,都是人们越来越熟悉的需求(King et al .,2017)。组织越来越依赖数据来帮助决策,包括关于设计和用户体验的决策。尽管术语“数据驱动的设计”在文献中已经变得流行,但 King 等人(2017)讨论了三种不同的方式来思考数据以及如何在设计流程中使用数据。他们讨论了熟悉的术语数据驱动的数据通知的*,并额外创造了术语数据感知的。*

以下概述了这三个术语的定义:

  • ***数据驱动设计:*数据决定产品和业务的结果
  • 可以优化对其主要指标的影响。当设计项目的目标明确,并且有明确的设计和研究问题需要回答时,数据驱动设计是最常见的。
  • ***基于数据的设计:*数据与其他资源一起使用,如战略应用、用户体验、直觉和竞争。以数据为基础的方法意味着它没有那么集中和有针对性,但数据是一个可以告知如何看待问题空间和做出决策的元素。
  • ***数据感知设计:*通过这种方法,设计师意识到有许多类型的数据可以回答大量不同的设计和研究问题,而且设计师通常意识到在整个设计过程中他们可以使用不同类型的数据。

King 等人,2017 年

Ngai (2016)相信用量化数据补充定性见解的好处。他解释说,对于许多公司来说,设计和数据是相互关联的,因为有一个持续的数据流来监控数百个指标和迭代。他表示,“虽然设计本能仍然很有价值,但数据和分析可以帮助你磨练对产品的理解,并确保你的决定让利益相关者满意”。

由于随时可用的数据量不断增加,组织面临着利用其数据集的压力。这种压力传递给组织雇佣的机构,设计师需要通过对客户数据的量化分析来支持他们收集的定性见解。量化研究专家 hertto(Likkanen,2017 年引用)批评说,太多的项目在压力下毫无目的地收集量化数据,最终得到“从设计角度看不可操作的数据”。这一点得到了艾斯林格(2017)的支持,他批评说,数据不能轻易地支持每一个设计决策。他有力地指出,利用基于过去行为的数据来塑造未来的产品开发,对许多人来说是一个陷阱。他以摩托罗拉为例,当时该公司拒绝了一项关于触摸屏智能手机的提议,因为市场数据显示,消费者希望购买与当时的诺基亚类似的手机。显然,在应该创造什么样的的问题上,设计师的洞察力要优于基于数据的洞察力(Likkanen,2017)。

数据和创意

Bakhshi & Mateos-Garcia (2014)强调了一个事实,即大多数人认为数据科学工作与“创造性”完全相反,许多人认为它是例行公事、可预测的,甚至是无聊的。Digicult(无日期)指出,设计师难以处理数据的原因之一是,他们将自己的工作视为一种艺术形式,他们担心自己的“创造力和直觉将被数据和事实取代”。Pardi (2017)认为,在创作过程中,数据应该用来告诉我们事实,这可以作为提出问题和试验“邻近可能性”的基础,以便发现原始数据无法提供的见解和潜力。他认为,创造力是对可能结果的探索,但它只能是可能性的一小部分,因为我们的记忆、偏见和我们利用的视角限制了我们的想象力。

在这种情况下,团队中的经验和背景的多样性变得非常宝贵,数据的使用可以激发不同的观点、新的想法,更重要的是提出更多可能不会被认为是可能的问题。

下一篇文章

如果您对这个主题感兴趣,可以通过下面的链接阅读本系列的其他文章:

参考

*Bakhshi,h .和 Mateos-Garcia,J. (2014) *数据科学工作是创造性工作(第一部分)。可从:https://www . Nesta . org . uk/blog/data-science-work-is-creative-work-part-1/(访问时间:2018 年 10 月 7 日)。

Cleveland,W. (2001),“数据科学:扩展统计领域技术领域的行动计划”,《国际统计评论》,69 (1),第 21–26 页。

Davenport,t .和 Patil,J. (2012)“数据科学家:21 世纪最性感的工作”,《哈佛商业评论》,* 90 年,第 70-76 页。*

Davis,H. (2016) 数据科学家的角色以及我们为什么需要他们。可从:https://www . raconteur . net/technology/the-role-of-a-data-scientist-and-why-we-need-them(访问时间:2018 年 10 月 13 日)。

Denham,L. (2018) 数据科学家是下一个 UX 设计师。可从:https://channels . the innovation enterprise . com/articles/data-scientists-is-the-next-UX-designers(访问时间:2018 年 10 月 6 日)。

DigiCult(无日期)关于数据驱动设计你需要知道的 3 件事。可从:http://digi cult . it/digi mag/3-things-need-know-data-driven-design/(访问时间:2018 年 10 月 8 日)。

h .艾斯林格(2017) 大数据挑战。可从:https://www.frogmut.com/2017/05/08/big-data-challenge/(访问时间:2018 年 10 月 9 日)。

*黄(2016) *设计师如何利用数据创作出令人惊叹的作品。可在:https://www . invision app . com/inside-design/how-designers-can-use-data/(访问时间:2018 年 10 月 10 日)。

j . Johnson(2012),“大数据+大分析=大机会”,财务主管,28 (6),第 50–53 页。

King,r .,Churchill,e .,Tan,C. (2017),用数据进行设计。加利福尼亚州塞瓦斯托波尔:奥莱利媒体公司。

Likkanen,l .(2016)Web 服务的数据驱动设计工具。可从:https://www . LinkedIn . com/pulse/tools-data-driven-design-we B- services-lassi-a-liikkanen?trk=mp-reader-card(访问日期:2018 年 10 月 9 日)。

McGuire,Meyer,c .和 Stone,D. (2013) 数据驱动的生活。可从:https://www . McKinsey . com/business-functions/marketing-and-sales/our-insights/the-data-driven-life 获取(获取时间:2018 年 10 月 12 日)。

网飞(无日期)黑镜。可从:https://www.netflix.com/gb/title/70264888(访问时间:2018 年 11 月 15 日)。

Ngai,J (2016) 用数据进行设计——作为一名设计师解释和分析数据。可从:https://uxdesign.cc/designing-with-data-ed721ffa008e(访问时间:2018 年 10 月 9 日)。

Osman,A. & Mines,K. (2015)“数据科学作为设计的新前沿”,国际工程设计会议。2015 年 7 月,意大利米兰。

Pardi,B. (2017) 如果你想有创造力,就不要被数据驱动。可从:https://medium . com/Microsoft-design/if-you-want-to-be-creative-don-be-data-driven-55db 74078 EDA(访问时间:2018 年 10 月 4 日)。

Pollack,N. (2012) 亿字节革命:Kaggle 如何将数据科学家变成摇滚明星。可从:https://www.wired.co.uk/article/the-exabyte-revolution(访问时间:2018 年 10 月 12 日)。

Tolle,k .,Tansley,s .和 Hey,A. (2011),《第四范式:数据密集型科学发现》,IEEE 会议录,99 (8),第 1334-1337 页。

Wettersten,j .和 Malmgren,D. (2018) 当数据科学家和设计师一起工作时会发生什么。可从:https://hbr.org/2018/03/what-happens-when-数据-科学家-设计师-一起工作(访问时间:2018 年 10 月 5 日)。

Wolf,G. (2010) 数据驱动的生活。可从:https://www . nytimes . com/2010/05/02/magazine/02 self-measurement-t . html(访问时间:2018 年 10 月 12 日)。

创业世界中的数据科学

原文:https://towardsdatascience.com/data-science-in-the-startup-world-2b8833d11e5b?source=collection_archive---------25-----------------------

苹果 | 谷歌 | SPOTIFY | 其他

周杰伦冯在 TDS 播客

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

编者按:这是迈向数据科学播客“攀登数据科学阶梯”系列的第六集,由 Jeremie Harris、Edouard Harris 和 Russell Pollari 主持。他们一起经营一家名为sharpes minds的数据科学导师创业公司。可以听下面的播客:

我以前说过,现在我再说一遍:“数据科学”是一个模糊的职位名称。人们用这个术语来指代数据科学、数据工程、机器学习工程和分析角色,这已经够糟糕了。但更糟糕的是,成为“数据科学家”意味着完全不同的事情,取决于你所工作的公司的规模和阶段。例如,一个小型创业公司的数据科学家可能与一个大型企业公司的数据科学家几乎没有任何共同之处。

因此,今天,我们决定与一位在这两个层面上都了解数据科学的人交流。Jay Feng 最初在 Jobr 从事分析和数据科学方面的工作,后来被 Monster.com 收购(后者又被一家更大的公司收购)。在许多其他事情中,他的故事揭示了一个你以前可能没有想过的问题:当数据科学家的公司被收购时,他们会发生什么?

以下是我们从对话中获得的主要收获:

  • 如果你想进入数据科学领域,你的品牌非常重要。像许多入门级的候选人一样,杰伊起初很难获得牵引力,但一旦他开始通过博客建立个人品牌,一切都变了。最终,他的博客让他获得了一次面试机会,尽管他没有通过交给他的编码挑战。他的博客清楚地表明,他知道如何像数据科学家一样交流和思考,这比他的编码测试表现对公司更有价值。
  • 雇主希望看到申请者真正感兴趣的迹象,甚至是热情。2010 年中期的所有数据科学炒作导致了一大批被动的爱好者,公司必须淘汰他们,所以热情的迹象是显示你认真的好方法。
  • 在初创企业的早期工作意味着你必须更加务实,身兼多职。你不仅仅是在做“数据科学”的事情,比如清理数据、建立管道和训练模型。你将不得不与客户交谈,倾听销售电话,你甚至可能做软件工程来构建需求特性。这是学习通才技能的绝佳环境。
  • 导师对于在你最弱的地方成长非常重要,好公司的结构是让新手也能得到这种指导。
  • 很多时候,人们决定加入创业公司,是因为他们能够与之共事的团队。他们没有考虑的是,如果他们的初创公司被收购,这个团队会如何改变。收购导致了大量的变动,有时这意味着团队的分裂,或者团队的优先权发生了很大的变化。

额外收获:Jay 还运行面试查询,每隔几天发布一份包含数据科学面试问题的时事通讯。如果你正在寻找一些很棒的脑筋急转弯,就去看看吧。

如果你在推特上,随时欢迎和我联系 @jeremiecharris

数据科学访谈:线性回归讲解

原文:https://towardsdatascience.com/data-science-interview-linear-regression-explained-f2ffff6803ad?source=collection_archive---------18-----------------------

用非技术性的方式解释线性回归

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学是一个新兴的领域,它吸引了像我这样想在毕业后从事该领域职业的本科生的兴趣。我对这个领域的热情和兴趣遇到了挑战,因为缺乏资源和招聘过程中不明确的路线。此外,许多开放数据科学职位要求潜在员工拥有硕士学位、博士学位或几年的工作经验。

我想通过分享我的经历来帮助简化这个过程。我有几个朋友也试图进入这个领域,他们有着相似的经历,如果不是非常不同的话;因此,这绝不是一个放之四海而皆准的指南,因为每个位置都是独一无二的。

挑战

与其他技术角色不同,没有出版关于如何为数据科学面试学习的书籍。我发现很难找到学习和练习的资源。也许这是因为数据科学仍然是一个相对较新的领域。

我已经面试了 3 个数据科学职位,每次都被问到不同的问题。缺乏清晰的资源和路径使得准备面试充满挑战。

共同主题

除了面试经验,我还接触了从事数据科学工作的校友。我问了他们的面试经历和学习技巧。通过我的经历和与校友的交谈,我已经能够确定大多数角色(如果不是所有角色的话)的一个共同主题,那就是解释你所知道的。

这是有意义的,因为他们希望你能够解释你所知道的,因为这份工作需要你和不一定有相同背景的人一起工作。

目的

我决定写这篇文章有两个原因:

1.我希望通过阅读,那些没有统计学背景的人能够理解线性回归,一个重要的统计学概念。

2.我也希望那些有统计学背景的人在采访中努力解释技术统计概念,发现这是许多方法之一。

线性回归

对于这篇文章,我决定介绍线性回归,因为线性回归是我个人统计知识的基础。在过去的几年里,我已经使用线性回归完成了一些项目,并逐渐意识到了它的重要性。此外,在我最近的一次采访中,我被要求以非技术性的方式解释线性回归。

当面试官说“非技术性”时,我立刻明白了,我要假设面试官之前没有统计学知识。这意味着我还必须解释线性回归的基本构件,如响应和解释变量。

鉴于我在新闻和讲故事方面的背景,我立刻想到最好的方法是使用类比。

类似

想象一下这样一个场景,你有一个设备可以记录你睡觉的时间,你睡觉的时间和你醒来的时间。每天醒来后,你可以对自己的情绪进行一到五级的评分。在记录了过去十天的这些数据后,你开始好奇如何在早上改善自己的情绪。

数据是设备收集的所有东西和你早上的心情。天数是数据集中的总行数。你的心情,你最关心的数字,就是反应变量。设备收集的潜在影响你情绪的因素是解释变量。

线性回归映射了响应和解释变量之间的关系。它通常以这种方式连接响应变量和解释变量:

Y = aX1+bX2+cX3

其中 Y 是响应变量,Xs 是各自的解释变量。

各个 x 前面的系数是权重。权重取决于变量的重要性。为了简单起见,让我们假设你的睡眠时间会显著影响你的情绪,那么它会比其他两个变量有更大的权重。

您可以在两种编程语言(如 R)中找到权重并使用线性回归,然后用数值计算,尽管用 R 更容易。

在 R 中,在模型中键入后,它还可以告诉你哪个解释变量(如果有的话)不显著。无关紧要的变量意味着它对响应变量没有任何影响。

对线性回归了解得越多,对数据集建模的不同方法就了解得越多。这只是冰山的一角。

结论

我希望你已经对线性回归的工作原理有了直观的理解。如果你已经理解了线性回归,那么我希望你已经学会了一种分解技术概念并解释它的新方法。感谢阅读!

20 个必须知道的数据科学面试问题

原文:https://towardsdatascience.com/data-science-interview-questions-ef87a3543b84?source=collection_archive---------15-----------------------

和相关阅读。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我遇到的一些好的数据科学问题的非穷举()列表。我希望这个列表对想温习一些基本概念的人有用。向这里提到的所有令人惊叹的帖子的作者致敬。

Q. 定义均值、众数、中位数。向外行人解释这些概念。两者孰优孰劣。举实际例子。

解释不同类型的分布。为什么正态分布对数据科学家如此重要。什么是中心极限定理?举个现实生活中的例子。

[## 常见概率分布

数据科学家的表格!

medium.com](https://medium.com/@srowen/common-probability-distributions-347e6b945ce4)

一个有趣的分布是 T8 T9 T9 分布。 搞笑什么啤酒能从一个家伙身上弄出来!

[## 吉尼斯的天才和他的统计遗产

今年圣帕特里克节,世界各地的狂欢者将聚集在街头,寻找爱尔兰的国酒之一:阿…

theconversation.com](http://theconversation.com/the-genius-at-guinness-and-his-statistical-legacy-93134)

**问.**解释术语: 峰度偏度

[## 偏斜和峰度:数据科学中你需要知道的两个重要的统计学术语

如果您不知道数据科学中的其他一些常用术语。然后点击这里。

codeburst.io](https://codeburst.io/2-important-statistics-terms-you-need-to-know-in-data-science-skewness-and-kurtosis-388fef94eeaa)

Q. 用实际例子解释 异方差 。你会怎么解决?statsmakemecry精辟地解释了这个无法言说的字。

简而言之:

  • 一个变量相对于一个独立预测变量的可变性的方差。

不那么- 中简称:

[## 令人困惑的统计术语解释:异方差(Heteroskedasticity)

异方差是一个很难发音的词,但它不需要成为一个很难理解的概念。

www.statsmakemecry.com](http://www.statsmakemecry.com/smmctheblog/confusing-stats-terms-explained-heteroscedasticity-heteroske.html)

当你在博客上的时候,也检查一下 多重共线性残差 。还有,相关 xkcd 漫画:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Seriously, this is not debatable!

解释偏差/方差,权衡。各种模型在偏差/方差方面如何比较?用实例解释第一类和第二类错误。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Google for the rest.

Q. 解释决策树和 XGBoost 的工作原理以及它们之间的所有模型(装袋、随机森林、Boosting、梯度 Boosting)。谈论这些模型中的并行化。谈论这些模型的偏差/方差。

[## 随机森林算法

随机森林是一个灵活的,易于使用的机器学习算法,即使没有超参数调整…

towardsdatascience.com](/the-random-forest-algorithm-d457d499ffcd) [## XGBoost 算法:愿她统治长久!

接管世界的机器学习算法的新女王…

towardsdatascience.com](/https-medium-com-vishalmorde-xgboost-algorithm-long-she-may-rein-edd9f99be63d) 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Statistically speaking, carry a bomb on a plane. The odds of two people carrying a bomb on the same plane are very very very low.

什么是 贝叶斯法则 。实际例子。什么是先验概率和后验概率?如果你的 3 个朋友各以 1/3 的概率说实话,他们说目前正在下雨,那么实际下雨的概率是多少?为什么会有那么多撒谎的朋友?

[## 应用贝叶斯规则

在现实世界问题中使用贝叶斯推理

towardsdatascience.com](/bayes-rule-applied-75965e4482ff)

我怎么推荐上面这篇文章都不为过。

你将如何构建一个 推荐引擎 ?描述从头开始建造一个的来龙去脉。什么是协同过滤 。下面的阅读非常吸引人。

[## Spotify 怎么这么了解你?

一位软件工程师解释了个性化音乐推荐背后的科学原理

medium.com](https://medium.com/@sophiaciocca/spotifys-discover-weekly-how-machine-learning-finds-your-new-music-19a41ab76efe)

如何处理 不平衡数据集

简而言之:

  • 对较大样本进行子采样。
  • 对较小的样本进行过采样。
  • 为较小的样本创建伪样本。
  • 调整模型以平衡类权重。

不那么- 中简称:

[## 机器学习中不平衡数据集的处理

面对不平衡的班级问题,应该做什么,不应该做什么?

towardsdatascience.com](/handling-imbalanced-datasets-in-machine-learning-7a0e84220f28)

**问。**谈论各种模型及其性能评估指标。向外行解释 F1 的分数。F1 分数是怎么算出来的?

多类与多标签分类。

**问。**描述你解决一般分类问题的首选方法。谈论你会考虑的所有因素。你如何选择和确定一个特定的模型?

什么是迁移学习,强化学习?例子,例子,例子。

树构建算法在节点处拆分使用的是什么算法?

什么是过拟合和欠拟合?将其与偏差/方差联系起来。你如何处理过度拟合?谈谈正规化及其类型。

描述聚类技术。在聚类技术中如何确定聚类的个数?讨论处理偏差/方差权衡时的聚类数。

[## 选择最佳集群数量的 10 个技巧

聚类是最常见的无监督机器学习问题之一。观察值之间的相似性被定义为…

towardsdatascience.com](/10-tips-for-choosing-the-optimal-number-of-clusters-277e93d72d92)

Q. 如果 logistic 回归是一个分类模型,为什么叫 logistic 回归?解释它的内部工作原理。

[## 为什么 Logistic 回归不叫 Logistic 分类?

逻辑回归本身绝对不是一个分类模型。人们会注意到编辑过的广告吗?在评论里打我。

stats.stackexchange.com](https://stats.stackexchange.com/questions/127042/why-isnt-logistic-regression-called-logistic-classification)

你如何处理缺失的特征?哪些型号支持缺失的功能?谈论估算和填补缺失值的方法。删除观察值如何处理缺失值的插补?

[## 如何处理丢失的数据

“归罪的想法既诱人又危险”

towardsdatascience.com](/how-to-handle-missing-data-8646b18db0d4)

Q. 天魔堂 问题:经典概率问题:

  • 有三扇门,门后有两只山羊和一辆汽车。
  • 你选一扇门(称之为门 A)。你当然希望有辆车。
  • 游戏节目主持人蒙蒂·霍尔检查了其他的门(B & C 饰),打开了一扇有山羊的门。(如果两扇门都有山羊,他随机挑选。)

游戏是这样的:你是坚持用门 A(最初的猜测)还是换到未打开的门?**有关系吗?**为什么或者为什么不?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A comic for everything!

数据科学中的 DevOps。等等,现在怎么办?

[## 数据科学家 DevOps:驯服独角兽

当大多数数据科学家开始工作时,他们配备了从学校学到的所有简洁的数学概念…

towardsdatascience.com](/devops-for-data-scientists-taming-the-unicorn-6410843990de) 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

DevOps Engineers, where you at?

说说一些软件架构模式。

[## 简而言之,10 种常见的软件架构模式

想知道大型企业级系统是如何设计的吗?

towardsdatascience.com](/10-common-software-architectural-patterns-in-a-nutshell-a0b47a1e9013)

你的弱点是什么?

提前考虑一下也无妨。这是一个很常见的问题,所以很多人在谈到这个问题时都会笨手笨脚。说你在任何项目上工作太努力,或者说不完成任务不罢休,这不是弱点。你可以提出这个问题的技术方面。

[## 我作为数据科学家的弱点

不认识到我们的弱点,我们将永远无法克服它们

towardsdatascience.com](/my-weaknesses-as-a-data-scientist-1310dab9f566)

数据科学很无聊

原文:https://towardsdatascience.com/data-science-is-boring-1d43473e353e?source=collection_archive---------0-----------------------

我如何应对部署机器学习的无聊日子

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Julian Howard on Unsplash

TLDR :许多人选择从事数据科学(或 ML,机器学习)中令人兴奋的部分来激励自己和他人。*但是我们必须面对一个现实:真正的工作通常是“无聊”的——和人们浪漫化的工作相比是无聊的。*感到无聊产生紧张感;这最终会导致数据科学领域的高人员流动率。我想分享我实际上做了什么,以及我是如何应对“数据科学中的枯燥”的。希望能帮助各位有志的数据科学家,树立正确的预期。因此,一旦你决定从事数据科学职业,你就要做一场持久战。享受吧。

更新:走向数据科学,我记录了关于这个博客的采访。见文末视频链接。

喜欢读什么? 跟我上 领英 ,或者 推特 。还有,作为一名数据科学家,要不要学习商业思维和沟通技巧?查看我的《 用机器学习影响 》指南。

免责声明 :这篇文章没有得到我工作的任何公司的支持或赞助。我交替使用术语数据科学和 ML。

1.故事时间

我年轻英俊的表弟肖恩最近来到了加拿大。他在这里攻读计算机科学硕士学位。和很多学生一样,Shawn 对机器学习非常有热情。他想在两年后毕业时成为一名数据科学家(或任何与 ML 有关的工作)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作为一个对 Shawn 的成功真正感兴趣的哥哥,我决定分享我在数据科学职业生涯中最谨慎的学习——它是 而不是像 HBR 描绘的“21 世纪最性感的工作”;很无聊;它正在流失;令人沮丧。就像其他职业一样。

我有义务告诉肖恩真相,即使这很令人失望。这将有助于他对自己的职业选择做出明智的决定(更重要的是,我会避开妈妈和叔叔凌晨 3 点打来的电话,他们肯定会给我上关于家庭、责任、指导和诚实的课)。

作为一个聪明、上进、好奇的年轻人,**肖恩让我详细解释一下“无聊”是什么样子。**这就是这篇文章的内容。

此外,我们还将触及 ML 的主要趋势,以及如何保持相关性并脱颖而出。我将在几篇后续文章中分享这一点。 关注我 上媒有兴趣的话。

2.设置一些背景

重要的是要认识到我是如何来到这里的(我的 LinkedIn),这样你才能正确看待事情。我作为数据科学经理提供我的观察和意见,他领导团队在财富 100 强企业部署 ML 系统,管理客户关系,并做一些技术工作。

几个更重要的定义。一个 ML 系统是一个解决商业领域问题的解决方案,有一个 ML 组件,并且有所有其他与人或机器一起工作所需的非 ML 系统的东西。

部署意味着获得推动实际业务运营的解决方案。例如,建立实验来训练和验证一个 ML 模型是而不是一个部署;设置一个推荐引擎,通过电子邮件发送每月产品报价,这是一种部署。部署 ML 系统面临着非常不同的问题,而不仅仅是建立一个好的 ML 模型。有兴趣的话在这里阅读更多

也就是说,我并不代表那些作为初级开发人员加入谷歌或其他高科技公司并成为技术经理的人。这些公司确实做得很好,但我认为它们只代表了“最顶尖的 1%”。其他财富 100 强企业通常在技术成熟度、采用速度以及工具和工程人才投资方面落后。

3.让我们开始吧

简而言之,当我说数据科学很无聊时,我指的是当一个人意识到浪漫化的期望和现实之间的差距时的沮丧感。

GIFHY

大多数年轻的数据科学家希望将大部分时间花在修补和构建花哨的 ML 模型上,或者用丰富多彩的可视化展示突破性的商业见解。当然,这些仍然是工作的一部分。

但是,随着企业受到的教育越来越多,它们更加关注真正的运营价值。这意味着企业 想要部署更多的 ML 系统;他们不太关心自己有多少新车型或花哨的仪表盘。因此,数据科学家被要求做非 ML 的工作。这让人厌烦。

让我们进一步限定在数据科学中“无聊”是什么样子,如果我向你展示我从周一到周五的典型一天,那将是非常无聊的。因此,我将把我的工作分成几个主要的工作类别,突出预期和现实,并分享我的应对机制。

我将使用叙述*“我们”*,因为这些例子来自经验和团队的集合。这些例子可能并不详尽,但我认为它们会说明问题。

3.1 设计(5-10%的时间)

这是我们集体变得“兴奋”起来解决问题并提出绝妙想法的时候。这些想法可以包括新的模型架构、数据特性和系统设计等。很快,我们就会陷入低谷,因为由于时间限制和其他优先事项,我们需要采用最简单的(通常也是最无聊的)解决方案。

预期 :我们实现可以在著名的 ML 期刊上刊登的想法,比如 NIPS,Google 的 AI 研究博客等。甚至可能赢得下一届诺贝尔奖。

现实 :我们实施能很好完成工作的事情。我们拍了一些漂亮的白板画的照片,这些照片值得装裱。

应对机制: 1)和我领域之外的朋友边喝边聊那些疯狂的想法;他们可以非常诚实(和粗鲁)地关闭疯狂但愚蠢的想法,2)把疯狂和聪明的想法作为次要项目,3)事实证明,大多数疯狂的想法并不真正有效,或者只是比简单的想法好一点点。因此,确认和强化接吻原则(保持简单愚蠢)总能给我带来安慰和结束。

3.2 编码(20–70%的时间取决于角色)

这里没什么好说的。这是我们戴上耳机,喝点咖啡,伸展手指,锁定屏幕,打出漂亮的代码行,让奇迹发生的时候。

我们的代码通常分为五类(占代码总行数的百分比):数据管道(50-70%)、系统和集成(10-20%)、ML 模型(5-10%)、支持调试和演示的分析(5-10%)。和别人的观察大致吻合。这里有一个更大的图片。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The proportion of the model code (illustrative); here is a link to the Hidden Technical Debt of ML by a team at Google

如你所见,我们大部分时间都花在无聊的非 ML 工作上。虽然 ML 组件非常重要,但现代框架和编码语言(例如 Keras、XGBoost、Python 的 sklearn 等)已经抽象出了许多复杂性。这意味着实现我们需要的结果不需要大量的代码;工作流已经被很好地标准化和优化了(做低级别的优化是不同的,但这可能是 1%的情况)。

预期 :你把大部分时间花在开发和提炼 ML 组件上;其他人会处理好的。

现实 :没有人希望 1)做你不想做的事情,2)你把所有的好东西都留给自己,3)你在已经优化好的工作流程上花费过多的时间。

应对机制 :我们都根据自己的领域专业知识带头做出设计决策,并成为我们这一方的主要开发人员,同时对其他人起到支持作用(例如贡献想法、进行一些实际开发或 QA)。这样做可以让我们在向他人学习的同时发挥自己的优势。更重要的是,它有助于避免因争夺“性感工作”而产生的紧张情绪。

3.3 质量保证、调试和修复 Sh*t (至少 65%的时间)

在我看来,这是任何技术开发工作中最无聊最痛苦的部分。开发 ML 系统也不例外。

在 ML 环境中,有两种类型的“错误”:糟糕的结果和传统的软件问题。糟糕的结果指的是低模型分数(如准确度或精确度)或不敏感的预测(如基于业务经验的概率非常不准确)。代码没有问题,只是结果没有意义或者不够好。传统的软件问题包括代码损坏或系统配置问题。

预期 :我们只需要处理不好的结果,想出更聪明的办法来建立更好的模型。这在某种程度上还是很吸引人的。由于一些好的想法,看到业绩上升也是值得的。

现实 :在我们花费在 QA/调试/应用修复上的时间中,大约 70–90%是在传统软件问题上。通常,在我们构建了端到端的模型训练和验证管道之后,我们可以相当快地获得足够好的结果。然后,我们通常会降低建模的优先级,将重点放在系统问题上。

应对机制 : 我用 Github 的 Issues 功能游戏化并保留了一个“奖杯板”。当我关闭发行票时,我有一种瞬间多巴胺冲动。看到我们“征服”的问题,我感到自豪,越是自豪。当然,如果当我点击“go”时一切都神奇地工作,我会更自豪——这在大学的一次编程作业中只发生过一次。我会一辈子记得那种感觉。如果在现实生活中再次发生,很可能是出了问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A Snapshot of the Gibhut Issue Board

3.4 消防(10-50%的时间)

这对于任何交付团队经理来说都是一场噩梦,而不仅仅是数据科学。时间线有多长并不重要。事情总会出现,让你偏离轨道。具体来说,意外可以分为三类: a) 外部问题如范围变更、上游系统依赖和客户投诉, b)内部团队问题如需要比预期长得多的时间来解决的恼人的 bug、人们获得新工作而没有正确过渡、人员配备不足、个性冲突,以及 c) 我自己的无知,这是“其他人”的一个杂桶。

预期 :从头游弋到底。来自客户、老板和团队的击掌和拥抱。

现实 :意想不到的事情一般发生在最不方便的时候。有通用的模式,但没有包罗万象的公式,这令人沮丧。

7)执行就好。其中许多本身并不是应对机制,但它们是良好的做法,并且一直运作良好。

4.综上

所有这些都是说现实世界的数据科学是困难的。有志于从事 ML 职业的人应该认识到这样一个事实,即不仅仅是构建模型。你最终会感到厌倦和沮丧,就像你从事任何职业一样。**没事,正常。**最重要的是,你要制定应对机制,这样你才能长期留在游戏中,享受一路上的小奖励和最后的胜利

这只是我和 Shawn 谈话的一部分。在接下来的两篇文章中,我将分享我对该领域两年后可能会是什么样子如何保持相关性和脱颖而出的想法。敬请期待!

**喜欢你读的书吗?**关注我LinkedIn ,或者 Twitter 。还有,作为数据科学家要不要发展商业影响力?查看我的“对机器学习的影响”指南。

这是一个关于这个博客的采访。希望你喜欢它。

你可能也会喜欢这些…

[## 对生活的追求

一个发现为什么许多 ML 项目失败的工具

towardsdatascience.com](/the-pursuit-of-lift-why-ml-projects-fail-f032dc31a303) [## 最有用的 ML 工具 2020

每个懒惰的全栈数据科学家都应该使用的 5 套工具

towardsdatascience.com](/the-most-useful-ml-tools-2020-e41b54061c58) [## 被遗忘的算法

用 Streamlit 探索蒙特卡罗模拟

towardsdatascience.com](/how-to-design-monte-carlo-simulation-138e9214910a) [## 12 小时 ML 挑战

如何使用 Streamlit 和 DevOps 工具构建和部署 ML 应用程序

towardsdatascience.com](/build-full-stack-ml-12-hours-50c310fedd51) [## 越狱

我们应该如何设计推荐系统

towardsdatascience.com](/how-to-design-search-engines-24e9e2e7b7d0) [## 我们创造了一个懒惰的人工智能

如何为现实世界设计和实现强化学习

towardsdatascience.com](/we-created-a-lazy-ai-5cea59a2a749) [## ML 和敏捷注定的联姻

Udacity 的创始人巴斯蒂安·特龙毁了我的 ML 项目和婚礼

towardsdatascience.com](/a-doomed-marriage-of-ml-and-agile-b91b95b37e35) [## 抵御另一个人工智能冬天的最后一道防线

数字,五个战术解决方案,和一个快速调查

towardsdatascience.com](/the-last-defense-against-another-ai-winter-c589b48c561) [## 人工智能的最后一英里问题

许多数据科学家没有充分考虑的一件事是

towardsdatascience.com](/fixing-the-last-mile-problems-of-deploying-ai-systems-in-the-real-world-4f1aab0ea10) [## 数据科学很无聊(第二部分)

为什么我喜欢无聊的 ML 问题,以及我是如何思考这些问题的。

towardsdatascience.com](/data-science-is-boring-part-2-d7c702422004)

下次见。

伊恩·肖

数据科学很无聊(第二部分)

原文:https://towardsdatascience.com/data-science-is-boring-part-2-d7c702422004?source=collection_archive---------19-----------------------

为什么我喜欢无聊的 ML 问题,以及我是如何思考这些问题的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Julian Howard on Unsplash

TLDR :我喜欢无聊的机器学习(ML)问题。他们是企业的核心。在这篇文章中,我讨论了为什么无聊的问题是好的,并分享了两个简单的工具: ML 原型MJIT 。它们可以帮助数据科学家和 ML 产品经理识别有意义的问题,更快地生成有效的解决方案,并清晰地表达强有力的信息。

谢谢! 本系列第 1 部有超过 3.4K 的拍手(仍在统计)。不到 4 天就在培养基上达到了前 1% 。我非常谦卑,非常感谢你的支持。一如既往,希望你喜欢这篇文章。

**喜欢你读的东西?**在媒体LinkedInTwitter 上关注我。还有,作为一名数据科学家,要不要学习商业思维和沟通技巧?看看我的“对机器学习的影响”指南。

免责声明 :这篇文章没有得到我工作的任何一家公司的认可。我交替使用术语“数据科学”和“ML”。

1.故事时间

第 1 集在《数据科学很无聊》中:在一次去 Shawn 的学校(我的小表弟)的公路旅行中,我分享了我是如何应对部署 ML 的无聊的。

我在激励他方面做得很棒,所以肖恩问:“**你用 ML 解决了什么问题?**真题,不是我在网上看到的玩具例题。”

“很好。首先,你需要认清一点:**现实问题的现实是它们都挺无聊的。**但是,我爱无聊的问题!如果你想认真对待数据科学职业,你也应该……”我说,故事继续。

2.让我们开始吧

简而言之,我认为 a)无聊的问题是好的b)我们应该应用 ML 来解决更多无聊的问题,但要创新

**为什么无聊的问题是好的?**无聊的问题是好的,因为它们代表了稳态操作问题。这些运营驱动着企业的核心。业务的核心是创造持续和实质性的价值。因此,企业优先投资解决阻碍其核心的无聊问题。无聊的问题得到真实的、持续的关注。

那又怎样?作为一名专业的数据科学家或 ML 产品经理,如果你能够认识到并清楚地表达 a)真正的问题是什么,b)如果你能够证明 ML 为什么以及如何能够更好地解决问题,那么说服你的老板(客户或顾客)接受你的 ML 想法就更容易了。考虑到问题的重要性,许多人可能已经解决了相同的问题。ML 原型和 MJIT 可以帮助区分你的想法,请继续阅读。

作为一名有抱负的数据科学家,这意味着你可以向招聘经理展示你务实的能力,你对如何解决现实世界的问题有直觉,最重要的是,你有正确的态度(例如,3 个月后你不会感到“无聊”)。

**这篇文章不是关于什么的?**企业用 零对一 解决方案进行“创新项目”的原因很多。我也喜欢思考和解决这些问题。但是,从统计上来说,我没有特权每天从事这样的项目。如果你有一个零到一的想法并且需要帮助,给我发信息。你可以在 MediumLinkedInTwitter 上找到我。

那么,真正(无聊)的问题是什么?而今天人们又是如何用 ML 解决的呢?

2.1ML 原型:了解历史

尽管最近大肆宣传,但我们今天看到的许多 ML 解决方案并不是新的(这样想将是无知的)。因此,理解永恒的基本原理是很重要的——它们在过去、现在都是正确的,将来也可能如此。

ML 原型关注基本面,提出以下问题:

  • 每个 ML 原型解决了什么潜在的问题?
  • 有哪些不考虑业务职能(例如营销、运营、财务等)的应用程序的具体示例。)?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Author’s Analysis

像任何包罗万象的框架一样,可能会缺少一些东西。请在下面留下评论,如果需要我会更新。

你可能会问:像“具有知识转移能力的分布式强化学习”这样的前沿东西怎么样(我自己的工作。等等,好像是个玩具例子)还是“人脸生成使用生成对抗网络”?我认为它们分别属于优先化和模式化原型。这些例子只是如何更好或不同地解决问题的“技术”;它们不是问题。这里的关键是关注潜在的问题和输出类型

让我们更进一步。每个原型都可以是一个独立的解决方案。更重要的是,每个 ML 原型都可以是一个更大、更复杂、更“酷”的 ML 应用程序的构建块

举例来说,这里有一个我最喜欢的 iPhone 功能的例子——“给你的”个性化相册。我将特性分解成原型和更细粒度的实现细节。这过于简化了(UX、数据和系统都很重要),但是我希望你能看到ML 原型是如何一起工作并构建成一个更大的 ML 应用程序的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Link to the iPhone screenshot; author’s analysis

注意事项 :这是我自己的分析,用于说明目的。可能并不能代表苹果工程师实际是如何实现的。

那么,怎么用呢?作为一名有抱负的数据科学家,ML 原型充当了【地图】。你可以用它来制定一个学习计划,选择你感兴趣的,并深入学习。如果你想超越,也许你可以 1)选择一个最喜欢的原型,在 Github 上建立一些开源项目,并应用简单和复杂的方法,2)以创造性的方式结合多个原型来做一些很酷的事情。

作为企业中的专业人士和 ML 产品经理,你可以用这个作为**【画布】来布局你的 ML 组合(比如去掉“样本解决方案”,用你的实际用例及其性能来代替)。此外,使用“画布”探索不同的可能性。因此,你可以发现差距和机会。这就引出了我们的下一个话题。**

2.2 MJIT:为渐进式创新找到正确的优势

**现在你对已经做了什么和可以做什么有了一个概念,这里有一个更重要的问题:**下一个直接的机会是什么?许多数据科学家(或工程师,包括我自己)会立即想到最疯狂、最大胆、最复杂的想法。

这不是一件坏事。它只是显示了一种推动边界的内在动力。然而,正如我在的上一篇文章中提到的,许多疯狂的想法往往过于复杂,因此考虑到递增的回报,它们不值得付出努力。

所以,找到最小合理改进(MJI,我称之为“M-gee”)是至关重要的。我这样做是通过穿越下面的空间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Link to the original image

好吧,开个玩笑。我的大脑无法处理这件事。所以,我开发并使用了一个更简单的心智模型,叫做 MJI 树(MJIT) 。MJIT 是一个结构化和高效的问题解决和解决方案生成工具,用于解决三个基本问题:1) 为什么我们要这样做?2)我们怎样才能做得与众不同?3) 到底能做什么

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

说到增量创新,MJIT 建立在久经考验的工具之上,包括管理咨询中使用的假设驱动的问题解决,软件开发中的最小可行产品(MVP) 概念,以及计算机科学中的树搜索算法。西蒙·西内克提出了“为什么——如何——做什么”的方法。我只对 ML 的合并和改编负责。**

重要提示: 我只收录了和 ML 问题最相关的例子。数据科学家应该对其他非 ML 解决方案有更广阔的视野。ML 是有用的,但不是银弹。

我到底要做什么?

A) I 从上到下遍历树并通过各自的索引。我写下所有与目标直接相关的可行选项。我估计了每个选项的工作量。这项工作因情况而异,所以尽可能运用你的最佳判断或与团队一起完成(这有助于消除偏见和风险)。

B) I 入围顶级创意;我会记录那些需要太多时间的想法。

C) 我对我的候选名单的总体改进做了一个粗略估计。在我真正去做之前,通常很难知道;这取决于经验和直觉的结合。****

这可能是决定项目成功的最关键的一步。我可能会分享一个后续的帖子,用几个例子来说明我是如何做到这一点的。请关注我上 领英 ,或 推特 敬请关注。**

由于问题的框架和这棵树的结构,随着您的进展,选项通常会按照每单位工作的预期增量进行排序。也就是说,前几个选项是你的 mji。每个 MJI 可以是一个小任务或项目,可能需要大量资金和数月的工作。同样,这是视情况而定的,运用你的判断。****

下一步(又)是什么?假设你正确地执行了 mji,但它们仍然不够好,每次你遍历这个树,选项将不可避免地变得“更创新,但更昂贵”,因为你应该划掉“无聊,但立即有效”的选项。遍历、思考、执行、重复,直到没有任何选择,或者你的头脑爆炸(或者气炸)!

想试试吗?作为一个思想实验,你为什么不把 MJIT 应用到你当前的 ML 项目中,试着产生 10 个如何改进它的想法,假设你有 4 周时间,然后按顺序写在笔记本上?

如果您没有 ML 项目,您可以尝试使用上面的 iPhone“为我”示例。假设你是苹果公司的一名 ML 工程师,你的任务是改进该功能,将“与家人分享的照片数量”增加 10%,你有 4 周的时间拿出一个原型,然后你需要向蒂姆·库克展示(假设他在乎)。

(请不要说“挺苹果,加入谷歌做安卓的拍照 app,获得灵感,加薪回苹果”。这很聪明,但在这种情况下这是作弊。)

具体来说,下面是我的输出通常是什么样子的两个例子:

  • 数据想法:使用表 X、Y 和 Z,结合列 A 和 B,在第 1 个月和第 12 个月之间,开发一个客户级别的 3 个月美元支出滚动平均值。
  • 模型思路:将 XGBoost 模型换成目标和特性相同的 LightGBM 在 1-10 之间的最大树深度上搜索时,通过 F1 分数进行性能基准测试。

这种级别的细节可以帮助您更好地确定工作量和 MJIs 的优先级。一旦你熟悉了这个过程,你应该为你的领域问题和优先级开发你自己的 MJIT 。你可以有不同的索引,这没关系。MJIT 并不意味着是一种精确的科学算法。

****琢磨有什么技巧?网上有很多好的资料,强调了技术的复杂性和应用范围。这里有一个例子(虽然只适用于建模)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Link to the article

3.综上

无聊的问题很棒。它们构成了业务的核心,代表了真正的运营需求。我们应该解决更多无聊的问题,因为你的工作会转化为直接的、切实的、可持续的价值。从战术角度来看,重要的是 1)认识到存在哪些基本问题以及相应的 ML 解决方案,2)ML 原型如何构成强大的 ML 应用程序,3)确定下一个最佳机会,以提供即时价值并获得更多关注。我希望 ML 原型MJIT 有所帮助。

一如既往,欢迎反馈。请在下面留下评论。

****喜欢你读的东西?媒体LinkedInTwitter 上关注我。还有,作为一名数据科学家,要不要学习商业思维和沟通技巧?查看我的“对机器学习的影响”指南。

你可能也会喜欢我的其他作品:

*** [## 数据科学很无聊

我从事数据科学的正常(无聊)日子以及我如何应对

towardsdatascience.com](/data-science-is-boring-1d43473e353e) [## 人工智能的最后一英里问题

许多数据科学家没有充分考虑的一件事是

towardsdatascience.com](/fixing-the-last-mile-problems-of-deploying-ai-systems-in-the-real-world-4f1aab0ea10) [## 基于人工智能的操作:商业和技术经理的学习

利用强化学习解决城市自行车再平衡问题及其他问题

towardsdatascience.com](/ai-based-operation-learnings-for-business-and-technical-managers-3ec53e32b6a8)

下次见。

伊恩·肖***

向高中生解释数据科学

原文:https://towardsdatascience.com/data-science-is-hot-heres-why-it-s-cool-ddfdb8739a22?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Data science is hot; here’s why it’s cool.

我试图让数据科学变得很酷(因为它很酷)

自从我的孩子出生后,我就想在职业介绍日成为一个酷爸爸,在那里我的明智建议会改变一个人的一生。但我在高科技领域工作,即使对大多数成年人来说,科技也是可怕的,而不是酷的。但是当我的儿子杰克选修计算机科学时,我自愿谈论数据科学,让它听起来很酷。在我演讲的一周前,当我的演讲曲目不令人兴奋或激动时,恐慌袭来。幸运的是,我有一个知情者:我的儿子杰克。

高中生想知道什么?

我问杰克,他认为全班会想知道什么。他说,“我所有的朋友脑子里想的第一件事就是:你能赚多少钱?”

这不是我想要的鼓舞人心的介绍,但这是一个开始,杰克还有很多其他的基本问题。

几周后,在试管和周期表中,我从杰克的问题开始。“数据科学家的平均年薪是 11.3 万美元.”

茫然的脸。

当我试图转移杰克的注意力时,他也有同样的表情。一年 11.3 万美元对他来说毫无意义。他的朋友谈到每小时 10 美元、13 美元和 16 美元。"知道每小时多少钱吗?"我问。一名学生猜测每小时 30 美元,因为这是她收入的两倍。

我透露:“11.3 万美元是 67 美元/小时。”

几个背挺直了。我引起了他们的注意。

为什么数据科学家很重要

“但真正重要的是数据科学为什么重要,你如何用数据科学改变世界,以及它为什么有趣,”我继续说道。

这个世界的祝福和诅咒是我们有大量的数据,但没有足够的洞察力,也没有足够多的人关心提取这种洞察力。这就是数据科学家所做的:他们从数据中提取意义。它们帮助我们了解世界,发现新事物。

数据科学家从数据中提取意义。它们帮助我们了解世界,发现新事物。

我举了一些简短的例子,比如阿尔·戈尔利用数据科学来宣传全球变暖政策变化;《纽约时报》用数据科学来解释边境墙是如何工作的;ESPN 利用数据科学展示爱国者队如何赢得另一场不可思议的超级碗比赛。

具体来说,我向全班展示了这张数字表,并问他们看到了什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

他们的不回应正是我想要的。这个数据没有讲故事。我们需要一位数据科学家在这些无意义的数字中寻找意义。

我向全班展示了约瑟夫·密纳德是如何在 1869 年发现这些数字的意义的。他创造了许多人认为是有史以来最好的统计图表。在一张图中,他展示了六个维度的数据,并讲述了一个毁灭性的故事。

这些数字描述了拿破仑对俄罗斯的进军,包括时间、部队规模、部队位置和温度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Charles Minard’s statistcial graphic of Napoleon’s disastrous Russian campaign of 1812.

黄褐色的锯齿状线条代表了拿破仑军队的规模和方向。从左路开始,拿破仑率领 422,000 人的军队于 1812 年进入俄罗斯。随着他们从左到右向东行进,褐色墨水逐渐减少。六个月后,军队到达莫斯科。

322,000 人死亡。然后他们转过身来。

在最右边,拿破仑开始撤退。返回的部队规模是黑色的。米纳德在底部添加了一个线形图来显示温度,从 0 度开始,下降到零下 30 度。

薄薄的黑色长条显示 422,000 人中只有 10,000 人幸存。

米纳德的图形是统计图形中的蒙娜丽莎——你逗留的时间越长,看到的就越多。例如,1813 年 9 月 28 日,黑线上的数据标签显示为 50,000,然后是 28,000。22000 人死于明斯克附近的别列兹纳河。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

密纳德为什么要创作这个图形?这是对战争可能带来的破坏的警告。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现代数据科学的例子

我以数据科学在药物发现、机场情报安全、风能分析、算法交易、家庭物联网应用、社会分析中的现代例子来结束,以更好地理解人口统计和健康问题。

我的最后一个迎合策略是展示梅赛德斯方程式赛车团队如何使用分析来优化赛车配置、超车策略和实时比赛条件。

学生们被问到数据科学如何应用于地质学、法学和艺术。好问题。

我认为我的传教使命已经完成。

我的演讲也对我产生了影响

我的间谍杰克无意中听到几个孩子谈论科学家制造了多少数据。至少他们在说话!

额外收获是,解释为什么数据科学很重要让我重新认识到为什么数据科学很酷。通过教学,我重新给自己注入了能量。

马克·帕尔默是 TIBCO 软件公司的 SVP 分析师。作为 StreamBase 的首席执行官,他被《时代》杂志评为将改变你生活的技术先锋之一。要连接,请访问 我的约。Me 页

数据科学是实用的

原文:https://towardsdatascience.com/data-science-is-practical-91965d1e6425?source=collection_archive---------37-----------------------

学习数据科学的最佳方式莫过于编码

数据科学中的“科学”可能会产生误导。毕竟,数据科学是一项非常实用的工作。为了真正得到它,你需要写很多代码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Work harder, work smarter

所以你想成为更好的数据科学家?代码。收集数据库,可视化,分析,理解它。然后学习如何将这些知识应用到新的数据集。

作为一名数据科学家,很重要的一点就是要确保对尽可能多的数据进行分析,因为这些数据只是需要分析的更多数据。

您可以随时返回并尝试再次获得您的最佳结果集,但作为一名数据科学家,您真的希望在开始以更系统的方式查看数据之前获得尽可能多的数据。

开始构建 Github 组合

越早开始构建开源项目的 Github 组合越好。这样你不仅会学到很多东西,还会有更好的机会找到下一份理想的工作。它极大地提高了您作为数据科学家的知名度,并允许您记录您的数据科学之旅。

如果你有兴趣在数据科学领域工作,但不确定该选择哪家公司,试着从某个特定领域或类别的公司获取报价。让招聘人员相信你能胜任某项特定的工作要求,比让他们认为你是大众的数据科学家要容易得多。

实际上,最好的方法是研究特定领域的公司,例如通过 Crunchbase ,然后建立与该领域相关的数据科学项目组合。如果利基是你的爱好,这是一个双赢的局面。

什么是好的数据科学项目

如果你认为你能做到,或者你认为它很适合数据科学的思维模式,并且你有机会学习做这件事所需的技能和经验,那就去做吧!

数据科学项目都是关于学习的,你拥有的数据科学技能越好,你就越有可能建立一个成功的项目。

下面列出了创建数据科学项目时需要考虑的最重要的方面。

  • 该项目需要有某种可衡量的结果。
  • 这个项目应该是简单的。
  • 客户应该很好地理解这个项目。
  • 这个项目应该在客户的控制之下。
  • 这个项目应该符合他们的最大利益。
  • 项目应提供清晰、简明的信息和结果。

你应该用这些数据开始一个项目。这往往是第一步。从你知道什么,不知道什么,以及原因开始。

你应该有一个清晰的项目议程和时间表。

这个项目必须从你想做什么的清晰想法开始。如果没有,就没有明确的方向。

实验

数据科学就是实验。一个好的工具可以让你更好地理解你的数据是什么样的,但只有当你能从中获得洞察力时,它才是有用的。当查看数据集时,除了查看它是否有模式之外,您还需要做更多的事情。

要从数据集中获得洞察力,您需要知道要寻找什么。您可以识别哪些模式,以及如何将其转化为可操作的见解?

如果你已经想好了这些问题,那么你就可以开始获得能够带来商业成果的洞察力。你可以开始利用这些见解来提高你的工作质量和技能。

一旦你对你要寻找的东西有了一个坚实的理解,有三种方法可以让你从你的数据中获得洞察力。

最后,查看数据的最佳方式之一是创建自己的报告。做一个电子表格,记录你在一个项目中做的每一件事。这样你就能让一切井井有条,你会学到很多东西,并准备好处理更复杂的项目。

祝你好运!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Data Science Job

最后,如果你想了解成为一名数据科学家意味着什么,那么看看我的书数据科学工作:如何成为一名数据科学家,它将指导你完成这个过程。

如果你想了解更多关于数据科学的知识,我推荐以下几本书:

数据科学给年轻自己的求职建议

原文:https://towardsdatascience.com/data-science-job-seeking-advice-to-my-younger-self-7be10a601030?source=collection_archive---------17-----------------------

数据科学职业建议

在我的职业生涯中,我换过几次工作。这是我现在知道的,我希望我在那些搜索中已经知道了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不久前,我写了一些我希望早些知道的关于从事数据科学职业的事情。一些读者亲自联系我,说他们也曾为同样的问题而挣扎,或者担心同样的决定。在那些谈话中,我意识到我的建议更多地集中在如何决定你想要什么样的工作,而不是如何找到并得到那份工作。除了我毕业后的第一份工作,我所做的每一个职业决定都包含了离开我当时的职位去寻找更好的事情的决定。我并不总是以最有效的方式去找工作,每次找工作都会对我的情绪健康造成相当大的伤害。

所以这篇文章是关于我会有什么不同的做法。

拒绝更多的机会

这一课花了我比其他任何人更长的时间来学习,它源于这样一个事实,即数据科学行业(以及其他行业)的人力资源实践确实非常不规范。一次成功的求职不仅取决于你有多迫切需要一份新工作,还取决于你有多少精神和情感上的耐力。互联网申请过程产生了大量的烟雾,但没有太多的热量:你会发出 100 份申请,如果你幸运的话,你可能会收到其中 20 份的回复,可能会有 10 份的初步电话筛选,可能会有 4 份进入下一轮,可能会有 1 或 2 份进入最终面试。如此多的拒绝——尤其是对大多数机会不回应的消极拒绝——会让人精疲力尽。在我的大部分求职中,这种疲惫实际上让我在那些相对罕见的获得面试机会的情况下表现更差。

我花了很长时间才意识到很多拒绝是不必要的,因为我可能是第一个放弃的人。我曾经被一家猎头公司招聘,希望在一家著名的对冲基金中填补一个新的数据科学指导职位。在参加一整天的面试之前,我经历了几次面试前的面试和编码挑战。这些采访大多是令人振奋和亲切的。但随后我被带去采访该公司的数据科学负责人。他非常粗鲁。我得到的印象是,在招聘委员会中,只有他不想让我加入。他问了一堆毫无意义的脑筋急转弯式的问题,一再贬低我的经历,并以简单地解雇我结束了采访,甚至拒绝和我握手。真的很可笑。

我应该打电话给招聘人员,告诉她我不再感兴趣了。如果我是一名招聘官员,一名求职者也这样做,我也会这么做。但是我真的想要一份工作。因此,我提出了我对这种互动的担忧,得到了第二次面试机会,他的老板基本上告诉我,我不应该脸皮这么薄,最终他们通知我,他们不会考虑我的候选资格。从我接受红旗面试到他们解雇我,我浪费了很多时间,更重要的是,我浪费了很多精力。

那不是我唯一一次遇到这种事。虽然这位高管的行为特别恶劣,但大多数进入面试阶段的机会都引发了某种主要的担忧:我被反复给予含糊不清的编码挑战,而没有任何解释,即使在问了他们试图评估什么之后;我的推荐人受到了不专业的对待,他们安排了电话,但在最后一刻取消了;我会明确表示,某些东西是我在工作中寻找的重要部分,然后在接下来的互动中,招聘官员明确表示,他们要么没有听,要么不记得,要么不关心。作为提供工作的人,他们当然有权做所有这些事情。我有权离开。我没有经常行使这个权利。

只在值得的时候付出努力

与我之前的观点相关:仅仅因为有工作机会并不意味着我必须去申请。我上交的申请越多,我的申请就变得越普通,我也变得越累,因为我只能通过一个申请门户网站来制作稍加修改的求职信和回答固定的问题。我决定采用一种特殊的方法来寻找高质量的机会:

首先,我在网上寻找相对新鲜的(最近两周发布的)看起来有趣的工作。目前我不申请任何职位。相反,我会在 LinkedIn 上看看,看看我的关系网中有没有人能把我推荐给提供这些工作的公司里的任何人。我不只是找到我有关系的公司——我联系这些关系,告诉他们我正在考虑申请这家公司,并请他们把我介绍给他们的联系人(不一定是招聘官员),并具体解释我正在考虑申请什么工作,这样联系人就知道我想专门与他们交谈,以决定是否申请这份工作。顺便说一下,这就是为什么我不接受我在 LinkedIn 上收到的大多数联系请求——我只把我的关系网留给那些足够了解我的人,我可以推荐他们,或者他们可以推荐我。

接下来,我与联系人交谈,倾听如果我申请这份工作,可能会引起我注意的信息:最糟糕的情况是,他们会提到团队正在进行的一个项目,我可以将该项目作为我最终求职信的基础;充其量,他们认识这个职位的招聘经理,我可以请他们帮我联系。在这个阶段,我不会试图去争取这份工作。我只是想要信息或额外的介绍。我这样做,直到我联系到招聘经理,确定我联系不到招聘经理,或者决定我不再感兴趣。如果仍然有兴趣,而且我还没有联系到招聘经理,我会填写在线申请,并写一封求职信,提及我过去的谈话,解释为什么这些谈话让我决定申请。这使得为每一份工作写一封定制信变得相对容易。

如果我还没有和招聘经理谈过,但我能认出他们是谁,我会给他们发一封电子邮件,告诉他们我已经申请了。有时候,我发现临时投资一个求职者 LinkedIn 账户是值得的,这样我就可以给我不认识的人发邮件了。我的信息非常简短:“我最近申请了[公司]的[职位]。我想给你写封短信,亲自表达我对这个职位有多么感兴趣。如果您对我的资格有任何疑问,或者我可以向您提供关于我的任何其他信息,请随时与我联系。”就是这样。我给他们我的电话和电子邮件。

这些规则也有例外。如果我遇到一份看起来很棒的工作——不仅仅是好——但我找不到任何能帮我找到突破口的关系,我有时会去申请。在我对公司或职位有所了解之前,我不会这样做,这样我就可以很容易地写一封求职信来解释我的兴趣。我很少这样做,主要是因为它能带来任何东西的机会非常小。

对于相对较少的应用程序来说,所有这些看起来都是大量的工作。我确信,随着越来越多的简历无法从空白中恢复,这比慢慢陷入绝望更令人沮丧。

报告(或论文或演示文稿)是分析工作走向死亡的地方

以上所有这些都回避了这样一个问题:什么样的工作首先值得考虑?在我职业生涯的早期,我认为执行分析并写出结果和相应的建议是我工作描述的主要部分。当我的建议没有得到重视时,我经常感到沮丧。随着时间的推移,我学会了少去责怪组织中的决策者。我现在意识到他们不是问题所在。它们是症状。

分析报告的影响取决于很多因素:决策者实际上关注了多少报告;财务、后勤和其他运营问题限制了在任何给定时间点实际可行的决策范围;决策者在同一主题上收到多少不同权威和可信度的其他相互矛盾的报告;在收到报告和做出报告应该告知的决定之间,决策者忘记了多少报告;为了抓住人们的注意力并让他们投入到分析结果中而对报告进行修饰的修辞/表现/设计。

我花了很长时间才意识到我需要创造产品,而不是幻灯片。那不仅仅是为了我自己的成就感。一个生产分析的组织和一个希望在报告中得到分析的组织之间的区别是一个支持个人贡献者的组织和一个不支持个人贡献者的组织之间的区别。如果我的雇主足够信任我,让我做一个分析,他们应该足够信任这个分析,有一个明确定义的路径,让这些结果自动化,或者至少增加企业内的具体决策。

如果有一个看门人可以挑选分析的结果并传播或采取行动,那么这个分析就不是生产性的。如果没有产品化,分析就是政治工具,而不是技术工具。政治工具没问题。它们不是我想要建造的。在我的职业生涯中,我花了太多的时间去思考如何更好地展示自己。我确实学会了如何更好地表达,这当然很有用,但我不再认为一份工作值得追求,如果它不是我的工作投入生产的默认条件。这从一开始就把很多数据科学的工作从我的搜索中过滤掉了。

没有办法修复一个糟糕的经理

除非我急需用钱,否则没有一份工作值得一个爱辱骂、爱操纵或不支持我的老板去做。我不仅仅是说我尽量避免和难相处的人一起工作。一个难相处的人会让你的生活很痛苦,继续和一个难相处的人一起工作的成本不应该被低估。但与一位难相处的经理共事意味着,你可能会把几个月或几年的职业生涯投入到某件事情中,而一旦你不再坚持不懈地为之奋斗(而且,通常情况下,即使你还在为之奋斗),这件事情就会消失。致力于即将消亡的事物是一种很好的耗尽精力的方式。

当我看到对期望的摇摆不定,放弃责任,然后称之为“管理风格”,指责员工不理解非指示,或简单地忽视他们提出的诚实问题时,我会在其他地方寻找就业机会。糟糕的管理者最糟糕的一点是他们很难被修复。如果雇用他们的人认识到他们有多糟糕,他们就不会被雇用,但这些人不会知道他们的错误,因为如果他们在受雇期间抱怨,可能会启发他们的人就有失去工作的风险,如果他们离开时提到这一点,会被视为只是表达酸葡萄心理。

一个糟糕的经理相对容易被发现,这是一个无能组织的标志。如果公司有能力处理好你的工作职能,它就不会让一个糟糕的老板来管理你,因为它会更了解你。一个糟糕的经理是我见过的唯一明确的迹象,表明我需要停止寻找工作。我可能决定的任何其他事情都是值得努力或试图改变的,但不包括糟糕的经理。

一个伟大的团队只会让事情变得更困难

团队放大。当我在一个好的情况下,一个好的团队让我更快乐,更有效率,更专注。事实上,当工作的其他方面都好的时候,一个强大的团队就是好的工作环境和伟大的工作环境之间的区别。然而,当我处于糟糕的情况时,即使是(事实上,尤其是)一个非常好的团队也会让事情明显变得更糟。

在我从研究生院毕业后的第一份工作中,我们中的一部分人最初被雇用来创造解决组织问题的新方法,但在给予我们相对较短的创新自由后,雇用我们的人开始一致并积极地反对我们做任何与过去不同的事情。我们团队从彼此的消极中获益。一切都成了委屈。在美好的时光里,我们互相贬低,就像我们互相扶持一样。我们的核心技术人才看到了不祥之兆,一个接一个地离开了。我当时并没有意识到,但那个团队解散是我可能遇到的最好的事情。我们已经变得如此有害,最好还是分道扬镳。但我当时不这么看。

在我寻找工作的过程中,我常常对我将与之共事的团队过于兴奋,以至于忽略了这个团队需要运作的大环境。工作的组成部分是乘法的,而不是加法的。一个+10 的团队和一个-2 的组织不等于+8 的经验。等于 a -20 经验。但在求职中很难看到这一点,因为团队动力比组织动力更容易看到。这是一个很难在面试过程中发现的问题。还是很值得找的。

一份不好的工作可能是得到一份好工作的最好方法

有一种情况,我会忽略我上面写的所有东西。在我职业生涯的早期,为了摆脱不健康的工作环境,我接受了一份工资相对较低的工作,我认为这几乎肯定是一个没有前途的职位。他们要求有人根据特定的选择标准提取客户名单,我提出了利用他们现有的数据做更多事情的想法,但我认为他们可能对无法在电子表格中完成的分析没有任何兴趣。我在公司的头几个月得到了初步印象的证实。

在用了他们恐怖的数据库前端一天后,我和 IT 部门聊了聊,直接进入数据库,开始自学 SQL。然后,我开始在 R 中创建脚本,这些脚本基于常见用例调用和组合特定的查询组合。几个月后,我的全职工作占据了我每周三到十个小时的时间。只要销售团队拿到了他们的客户名单,我就可以在剩下的时间里做任何我想做的事情。在那份工作的两年里,我从对 SQL 仅有一点基本的了解,到能够毫不掩饰地将它列为我简历上的核心能力之一。我开始自学 Python。我开始使用机器学习来模拟客户流失之类的事情。一个新的主管来了,他暂时有相似的兴趣,所以工作实际上被使用了。大约一年后,我的工作仍然没有出路,但我的简历更有市场。

即使是一份非常糟糕的工作也可能对你的职业有好处。就我而言,我资历够浅,能力够强,他们给了我足够的自由来发展新技能。当然,一份好工作会更好,让我成长得更多,但那不是我当时生活中的一个选择。我在职业生涯中已经走得够远了,我不知道我还需要再做一份垫脚石的工作。我希望我没有。但是在我经验比较少的时候,这是一件很有用的事情。

适度的恐惧是健康的

找工作压力很大。当你有一个家庭要养活,或者你需要找到新工作的最后期限到了,这是非常可怕的。我发现求职中固有的恐惧非常有用。大多数时候,我真的不知道我想从下一份工作中得到什么,就像我的潜在雇主不知道他们想从下一次雇佣中得到什么一样,所以我经常会感到左右为难,是接受一份体面的工作还是寻找一个更有前途的机会。在大多数情况下,恐惧促使我接受体面的工作,这推动了我的职业生涯。

有几次,恐惧变得如此之大,以至于盖过了所有其他的考虑。例如,在我职业生涯的早期,我很难挣到房租,因为我不得不把钱花在尿布和婴儿奶粉上。对于如何应对这种情况,我真的没有什么好的建议——在那段时间里,我一直处于崩溃之中。但在所有其他时候,当我可以在餐桌上获得食物,但希望从工作中获得更多满足感或在职业生涯中获得更多发展时,我的情绪健康和自尊经常受到严重打击,因为我没有意识到我有能力在求职中维护相当大的权威。

以我的经验来看,以申请者而不是恳求者的身份去找工作是值得的。通过认定某些条件我根本不会接受,通过在潜在雇主未能证明他们能够容纳这些必备条件时就切断他们的联系,我能够让自己保持精力充沛和头脑清醒,去寻找那些真正值得我关注的机会。

数据科学工作和他们的薪水

原文:https://towardsdatascience.com/data-science-jobs-with-their-salaries-171acd3bf9be?source=collection_archive---------6-----------------------

顶级数据科学工作及其薪酬和工作职责

没关系!但是,你挣多少钱?

数据科学工作是 IT 行业薪酬最高的工作。在过去的几年中,我们遇到了大量的数据科学角色,因此很难对它们是什么以及它们有何不同有一个基本的了解。即使这些角色的名称不同,也无济于事。

对数据科学家的需求相当大。对数据科学家的需求正处于顶峰,他们是美国薪酬最高的人群之一,平均基本工资为13 万美元。麦肯锡的预测表明,在未来几年,数据科学专业人员的供需将出现 50%的缺口。你也可以 掌握数据科学 从数据中理出头绪。

数据科学中的各种工作角色:

有太多的数据科学角色可能难以理解。 每个工作角色所需的技能互不相同 。数据科学领域使用数学。统计学和计算机科学学科,以及一个公共工具集,包括 Python、R、Tableau、SQL 等。如今对数据科学专业人员的需求很大,下面,我们将讨论数据科学领域提供的不同职位:

1。数据科学家— 数据科学家可能是当今世界该领域最热门的职位之一,也是最受欢迎的工作。他们负责处理原始数据,借助上述各种技术进行分析,并以有助于预测业务问题的方式提出见解。一个数据科学家使用 机器学习 ,也根据过去的模式预测未来。

数据科学家的平均工资范围(美国)是 11.9 万美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source:Google

2。数据分析师— 数据分析师是分析数据的人。但这一过程需要创建系统,帮助企业用户获得洞察力并确保数据质量。他的职责是收集、处理和执行统计数据分析。数据分析师从可用数据中找到有意义的信息,并使用 R 或 SAS **。**不仅仅是 IT 行业,医疗保健、汽车、金融、零售和保险等行业的所有公司都需要数据分析师来运营业务。

数据分析师的平均年薪(美国)为 6.2 万美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source:Google

3。数据架构师— 随着大数据的兴起,数据架构师的角色越来越重要。他的职责是创建数据管理系统,以整合、保护和维护数据源和公司信息。他负责数据库架构、数据的设计、创建和优化。他非常依赖 Microsoft Excel 进行属性映射和设计表格。Pig、Spark、SQL、XML、Hive 等技术都需要数据架构师掌握。

该职业的平均年薪(美国)为10 万美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source:Google

4。数据工程师— 他们不是分析数据的人,而是为其他专业人员构建某种软件基础设施来完成这项工作。他们之所以能够做到这一点,是因为他们对 Hadoop 和 大数据技术 有着深入的了解,如 MapReduce、Hive 和 Pig、NoSQL 技术、SQL 技术。他的职责是开发、测试和维护大规模处理系统。超过 50%的工作是数据争论,其中数据工程师胜过有软件工程背景的人。

这份工作的平均工资是 95000 美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source:Google

5。统计员— 统计员的角色是了解影响企业发展的不断变化的市场趋势。这项工作是收集数据并将其转化为有用的信息。他们的技能使他们能够处理各种数据,无论是结构化的还是非结构化的。他们常用的工具和技术包括 SAS、SPSS、Matlab、Python、Scala、SQL、R 等。他们有很强的统计学背景,包括描述性和推理性的主题。

统计人员的平均工资(美国)是 7.5 万美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source:Google

6。数据库管理员— 他们是受过培训的专业人员,负责存储和组织公司的数据。所有与数据保护、监控、维护和安全相关的活动都由数据库管理员执行和指导。这有助于让用户(包括员工)在任何时候都可以使用数据库。用于此目的的各种工具有 MySQL Workbench、Toad、Adminer、DatabaseSpy 等。

这个职位的典型平均工资(美国)是68,000 美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source:Google

7。业务分析师— 业务分析师的角色类似于数据分析师。然而,业务分析师拥有业务领域的专业知识。他们用自己的技能指导企业改进产品和服务。他们收集和分析基本的业务需求和要求,并负责带来和管理业务的变化。业务分析师使用的工具有 Microsoft Office,包括 PowerPoint、Excel、Word 和 Visio、Google Docs、Sheets 和 Slides、SmartDraw、Balsamiq 等。

这份数据科学工作的平均工资(美国)为65,000 美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source:Google

8。数据&分析经理— 数据&分析经理负责开发有效的数据分析、解释和报告流程。他们为数据分析师团队提供指导,还负责做出招聘决策。他们需要在数据科学领域拥有 7-10 年的经验。他们可以根据市场趋势向组织领导提出改变的建议。他们必须精通计算机编程语言、数据库系统、 大数据工具 ,以及机器学习。

这个职业的平均工资(美国)为 11.6 万美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source:Google

结束语:

在寻找你梦想的数据科学工作时,要考虑到角色的不同,这就是为什么你需要确保你详细了解每个角色,然后选择你认为适合你和你的技能的角色。如果一个人选择在数据科学领域从事他的 职业,他知道他会享受这份高薪且有需求的工作。随着数据渗透到我们的生活中,公司试图理解产生的数据,职业机会预计将长期增长。

数据科学知识:试点项目会大规模开展吗?

原文:https://towardsdatascience.com/data-science-knowledge-will-that-pilot-work-at-scale-32244e8bfab5?source=collection_archive---------26-----------------------

所以你的团队证明了它作为一个试点是有效的,但是它在其他地方也会有效吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Aaron Thomas on Unsplash

烹饪。你花了很多时间学习它的背景、理论和实际情况。多年以后,你会知道铸铁和不锈钢锅的区别会在你做的菜里表现出来。

然而,你只为一小群人做过饭。现在突然之间,你不得不在工厂里同时准备你的招牌菜,工厂会把它包装好,运到全国的杂货店。与此同时,一家特许经营餐厅正在将您的菜肴(附带)添加到它的菜单中,它将在北美各地的餐厅提供。

不过你并不担心,在你纽约的小房子里,这道菜你已经做了上百次了,而且总是做得很好。你可以在睡梦中添加和多次添加配料,并花了无数个小时向其他厨师解释方法和步骤。

你怎么知道在一个地方行之有效的方法在另一个地方也会同样有效呢?输入外部有效性!(很快,这个比喻变得越来越牵强……)

在之前的一篇文章中,我介绍了数据科学的内部有效性概念和风险。在这篇文章中,我想花一些时间来讨论外部有效性。

外部效度关注的不是自变量和因变量之间的因果关系,而是你在一个例子中经历的结果或结果是否可以在另一个例子中预期。

在统计学中,当您从感兴趣的人群中抽取样本,并希望了解您在样本中观察到的情况是否可以推广到该人群时,通常会出现这种情况。

在其他情况下,我们建立实验或试点,因为我们想知道一个新的想法或理论是否会在我们投入大量资源投入生产之前奏效。

例如,假设你认为在周末在媒体上发布文章比在工作日发布更有效,比如周二晚上。你用你公司的博客进行一次关于社区服务活动的试点。基于您的评估(以及您对内部有效性的专家理解!)你会发现,在周末发布中型新闻时,阅读率更高,观看时间更长。耶!

现在,你在下一次员工会议上简要介绍你的发现,并告诉你的老板,他们需要立即为公司开展外联和营销工作,以利用这一点。但是你的老板有一个问题,“我们如何知道你在试点项目中发现的东西对我们的整个拓展战略是正确的?”

他怎么会问这个?他没看到你的滑梯吗?!?!在你再次开始陈述之前,要意识到被问到的只是一个关于你的实验的外部有效性的问题。

外部效度是在特定研究中观察和证明的因果关系在多大程度上可以被推断为存在于更大的样本、人群或不同的环境中。

当关注外部有效性时,你要考虑在发现观察到的因果关系的人群和没有参与初始研究的不同人群之间可能存在差异。

在我们的例子中,周末和工作日发帖时间之间的因果关系以及观察到的他们阅读时间的变化有什么独特的特征吗?

我们基于社区拓展活动博客进行了实验,但这适用于公司的所有内容吗?会不会是不同类型的内容之间存在差异,导致了与我们实验中观察到的结果不同的结果?

我们来看看通过外部效度思考时需要关注的东西。外部有效性的五个典型威胁是:

跨受试者 —作为外部有效性的主要威胁或担忧之一,我们需要知道观察到的结果是否适用于不属于实际研究的受试者。

当我们在决定扩大项目规模之前测试有效性时,这一点尤其令人感兴趣。即使治疗对研究对象有效,我们怎么能确定它们对非研究对象也有效呢?

一种主要的方法是从大量受关注人群中随机选择受试者。通过这种方式,我们可以相当确定随机选择允许我们在观察到的和在更大的群体中预期的之间做出推论。

然而,当你观察不同人群时,这并不一定适用。在这些情况下,你需要专注于推断。外推是分析您的试点人群和另一人群之间的相似性和差异的行为,记住成功所需的因果机制和属性,以合理预测您的计划将如何在不同人群中工作。

时间 —是对外部有效性的另一个关注点。仅仅因为一个程序或一项新技术在一个实例中有效,我们怎么知道它在将来还会继续有效呢?

理解这一点的一部分是要对变量之间的因果联系有一个很强的把握,这样你就可以监控那些变量是否会随着时间而变化。

设置 —很重要,因为它们可以自己成为独立变量。此外,有时研究必须在特定的环境中进行,这些环境不同于它们将来可能应用的目标自然环境。

一个普遍的例子是在一个实验室或一所特定的学校进行一项试验,然后试图推广这些发现,期望在其他地方得到某些结果。您的试点设置与生产环境有多相似?

治疗——可以用许多不同的方式操作。如果你有一个在许多地点执行的计划,这个问题会扩大,因为在这些地点之间试图有一个一致的处理,或者甚至知道确切的差别是什么,会更加困难。

因此,我们如何确切地了解治疗是什么,并比较所有地点的结果,就好像他们接受了相同的治疗?

结果度量— 如果结果度量可以以几种不同的方式操作,则是一个问题。例如,发布时间是否导致了所有的结果(例如,更高的观看率,更长的阅读时间,更多的掌声,等等)。)或者是这些事情中的一些导致了其他的,比如更长的阅读时间导致更多的掌声(另一种假设是,人们在一周内快速浏览,并不是为了放松,放松阅读导致掌声)。

包装它

重要的是要着眼于内部有效性和外部有效性。最终,如果你的实验或试点是高度可概括的(强外部有效性),这并不重要,但它并没有实际导致你认为它会导致的结果(弱内部有效性)。同样显而易见的是,你的程序实际上并没有引起因变量的变化,没有必要放大它。

此外,严格关注控制所有可能的变量来收紧你的内在有效性会对你的外在有效性产生负面影响。这是因为你可以人为地为你的实验创造一个环境,这个环境除了在你的初步研究中不存在。

为了创建有用的评估,必须在内部和外部有效性之间保持平衡,因为目标通常是了解该计划或治疗在其他情况下是否有效,而不仅仅是在实验中找到完美的因果机制。

好的试点和实验只有在规模或生产中成功应用时才有意义。然而,在这些情况下,很容易创建一个不以相同方式工作的试点。关键是要确保在试点设计和评估中充分考虑外部有效性。

数据科学狂人

原文:https://towardsdatascience.com/data-science-lunacy-cee7f063fa6a?source=collection_archive---------41-----------------------

作者注:我通常不会用第一人称写作,但是考虑到这种咆哮,这似乎很恰当。这些观点完全是我自己的,应该被认为是非常可疑的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Howling at the moon.

逐渐减弱的信任

我很难认真对待 LinkedIn。如果你的反馈和我的一样,一半是明目张胆的自我推销,另一半是通过保险杠贴纸式的口号进行的赤裸裸的自我推销

我认为这本身没有什么奇怪的,这肯定与我在其他社交媒体上看到的行为一致。虽然这不是我寻找灵感时经常去的平台,但看到关于毅力和成就的小广告,或者加强我的泡沫的观察也是不错的。我不想看到一个冷漠和不公平的世界的冷酷和赤裸裸的真相。

是的,随机人力资源专家:我绝对同意——即使数据不支持——人们辞职的是老板,而不是工作。谢谢你重申了我的世界观。

但是,有一条鼓舞人心的消息(来源可疑)让我感到无止境的惊愕;对应该是不言自明的事情的本能反应:

如果你想走得快,就一个人走。想走远,就一起走。

我无法解释为什么这点缺乏营养的智慧如此难以理解。谁不想建立同志关系,有效地合作,并冒险达到新的高度?如果我回避这些无害的理想,我会是什么样的厌世者呢?在我中彩票之前,工作不是可有可无的,我最感兴趣的是不要在地下室找我的红色订书机。所以,我没有告诉人们去踩沙子,而是违背了我的本性,和别人玩得很好。

幸运的是,我棘手的认知失调问题已经解决了。原来, 你想去的地方 是比速度和/或距离更重要的考虑因素。听起来很疯狂?数学是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Talk nerdy to me.

做的功与走的路无关,所以在漫无目的的徘徊之前,我们或许应该决定去哪里。如果你想要一个不寻常的解决方案,一个大团队不是最好的选择。

那为什么我感觉更糟呢?

日益增长的怀疑

撇开自我膨胀不谈,我最大的问题不是团队合作,而是我有多愿意接受这些信息是真的。协作符合时代精神——我为什么要质疑它?我的团队合作苦难可能无法与选举舞弊运动相提并论,但我会识破那些谎言吗?

我们根本没有足够的时间来仔细检查给我们的数据点。而且,即使有无限的时间,我怀疑我能否复制谷歌/脸书/LinkedIn 的黑盒算法来决定呈现什么信息。没有人不受暗示的影响。我怎么能相信这些呢?我多久才能走完所有满洲人的候选人?

前面提到的地下室看起来越来越诱人了。但是,在我对锡纸帽子感到太舒服之前,有两个相互交织的解决方案可以帮助结束这种疯狂:告诉我我需要知道的告诉我我不想听到的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Shield your eyes.

完全公开

数据可能是危险的。可以误用武器化。我无法在任何时候都冷静地评价这一切。但是我知道谁可以——这是他们工作职责的一部分。

就像我们对医学宣誓,对工程宣誓,对光明会宣誓一样,我们也需要对数据科学宣誓。在这个誓言中,数据科学家不会故意制造混乱歪曲事实,并且实施合理的隐私控制

如果有人在推进一个议程,没关系,只要告诉我。如果价值主张是好的,那就没有什么好的理由来欺骗我同意你的观点。但是,试图蒙蔽我们的集体眼睛在伦理上是模棱两可的,你的产品可能很糟糕——毫无疑问。

新来源

他的这个对我来说有点棘手,因为它看起来自相矛盾,但我需要你告诉我我不想听到的。就像其他人一样,我被自己认同的消息来源包围着,这很危险。福克斯新闻频道可能会打破一个故事,但我永远不会知道,因为我极力避免它。这和我年长的亲戚憎恨 MSNBC 有什么不同吗?是的,但还不够。

我们不应该害怕消化与我们的世界观不平行的数据。如果我不喜欢事实所说的,问题就不是事实。如果我的观点经不起严格的质疑,它们可能需要被改变。

这个过程不一定是敌对的——谁知道我错过了什么精彩的节目,因为网飞认为我只看(奥威尔式)科幻小说?让我们给信号添加一些噪声,看看我的观看习惯是否改变,我是否达到了沙发土豆涅槃的更高状态。

重叠容量

我愿意承认,现在我确实知道了很多事情。我的无知很大一部分是因为懒惰,但更大一部分是因为缺乏能力;我们的世界非常复杂,而且每一分钟都在变得更加复杂。当我们做出自己的决定时,我们被迫依赖他人的决定,但是知道我们经常被欺骗是令人不安的。

我也许可以仔细检查一下 5 个牙医中的 4 个是否真的更喜欢 T2、T3、T4 和 T5,但是我不会打电话给 668 名密歇根居民,看看他们是否真的更喜欢基德洛克作为他们的参议员。我想选民们已经做出了更奇怪的选择,所以我可以理解为什么这是可信的,尽管这是错误的。

再加上数字回声室,它似乎放大了耸人听闻的东西,却懒得检查真实性。在 FactCheck 或 Snopes 的好人们有机会纠正记录之前,假新闻——真实的和一大早就在推特上发布的假新闻——已经在全球跑了好几圈。到那时,我可能已经形成了一个观点,并开始了一场争论,所以我现在不会退缩,否则我会看起来比平时更愚蠢。

我们为什么要容忍这些江湖骗子和蛇油贩子?答案是因为我们不得不这样做,至少目前是这样,因为即使是事实审查员也不堪重负。虽然我欣赏这种自上而下的方法,但我们真正需要的是一种自下而上的模式:一种数据科学家和统计学家集体聚在一起——带着他们的可乐瓶眼镜和口袋保护器——并宣布他们不会将他们的技能用于邪恶。

愤怒吧,愤怒吧,对抗死亡之光,你们这些书呆子,因为 我需要你们的帮助 。我们没有理由满足于一个真相如此难以辨别的世界。

不要相信你在网上看到的一切。

—亚伯拉罕·林肯

数据科学变得简单:使用 Orange 进行数据建模和预测

原文:https://towardsdatascience.com/data-science-made-easy-data-modeling-and-prediction-using-orange-f451f17061fa?source=collection_archive---------9-----------------------

尝试不同的学习算法并根据训练好的模型进行预测从未如此简单!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image taken from the official Orange website

您现在正在阅读数据科学变得简单系列的第四部分。本文是关于根据我们使用训练数据训练的模型对测试数据执行预测。大多数时候,数据建模和预测部分是最有趣的,因为它需要您思考和调整底层参数来改善结果。在我们开始之前,请确保您已经安装了 Orange。请阅读第一部分进行设置和安装,如果您错过了,底部会有链接供您浏览整个 Data Science Made Easy 系列。首先,我将向你解释如何使用预测小工具。然后,我将介绍一些可用于数据建模的最常见的模型。

预言

预测小部件接受两个输入。一个是数据集,通常来自测试数据,而第二个是“预测器”。"预测器"指任何模型小部件的输出。您可以连接任意数量的模型小部件和预测小部件。整个数据建模和预测过程只需要几天时间。

分离训练和测试文件

第一种是通过两个不同的文件小部件,它们保存了训练集和测试集的数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

  1. 向画布添加两个文件小部件。装载列车组并测试。根据您分别加载的数据重命名这两个小部件。
  2. 将任何型号小部件添加到画布上。在本例中,我添加了一个树小部件。这个 widget 其实指的是“决策树”。将训练文件小部件连接到模型小部件。
  3. 添加预测微件,并将微件连接到其上。之后,如上图所示,连接测试小部件。
  4. 双击预测控件打开界面。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

您应该会看到类似于上图的内容。在第 71 行,我们可以注意到模型预测它是 Iris-virgica,但是实际的类是 Iris-versicolor。您还可以看到每个预测的置信度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

如上图所示,您可以测试其他模型并在其上添加。请记住将模型与正确的数据集连接起来作为训练数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

您会注意到预测小部件的输出有一个大问题。它只显示基于一行数据的结果。如果你想得到整体的结果或者从中得到一些启示。您将需要使用一些评估小部件。我们在上一篇文章中已经谈到了这一点。请检查一下,然后再继续。我们将只试用其中一个小部件。

  1. 向画布添加一个混淆矩阵小部件。
  2. 预测部件与混淆矩阵部件连接。
  3. 双击混淆矩阵小部件打开界面。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

您应该会获得类似于上图所示的结果。你可以用其他型号测试一下,看看它们的性能。

使用数据采样器

或者,如果您没有用于测试的专用数据集,我们可以依靠数据采样器小部件将数据分为训练集和测试集。正如我在上一篇文章中提到的, Data Sampler widget 与 sklearn 的 train_test_split 功能相似。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

  1. 向画布添加一个文件小部件,并加载您的数据集。
  2. 数据采样器小部件添加到画布,并将文件小部件连接到画布。
  3. 添加一个小部件,并连接数据采样器小部件。
  4. 添加一个预测小部件,并将数据采样器小部件连接到它。
  5. 双击数据采样器控件和预测控件之间的链接,打开界面。将链接从剩余数据修改为数据。如果你不确定该怎么做。查看下面的 gif。
  6. 可选地,您可以添加混淆矩阵小部件以从结果中获得更多信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Gif by Author

预测与测试和分数

不要混淆预测小部件和测试&得分小部件,因为它们执行不同的任务。

  • 测试&得分小部件用于评估基于训练数据集的模型。它将根据定义的折叠数执行交叉验证。如果将折叠数设置为 10,它会将数据集分成 10 个部分,并使用数据集的 9/10 作为训练集运行 10 轮评估,而剩余的 1/10 作为训练集。每轮将使用不同的部分作为训练集和测试集。
  • 预测小部件用于根据训练好的模型预测测试数据。它不执行任何类型的交叉验证。使用训练集训练模型,并将模型连接到预测小部件以测试测试集。与测试&分数相比,结果会有所不同。

模型

我将粗略地解释一些可用的模型和可以为每个模型修改的参数。这是为了让初学者更好地理解。对于高级读者,你可以从官方的文档中找到大部分信息。

widget 是指带有正向剪枝的决策树学习算法。它可用于离散和连续数据集。该界面具有以下参数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

  • 归纳二叉树:构建二叉树(拆分成两个子节点)
  • 最小。leaves 中的实例数量:如果选中,算法将永远不会构造一个分割,将少于指定数量的训练实例放入任何分支。
  • 不分割小于的子集:禁止算法分割小于给定实例数的节点。
  • 限制最大树深:将分类树的深度限制在指定的节点层数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

您可以将它与上图所示的 Tree Viewer 小部件连接,以获得更多关于树的外观的信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

您应该能够获得如上图所示的类似结果。

随机森林

随机森林是一种构建一组决策树的集成学习方法。它可用于多种任务,如分类和回归。该界面具有以下参数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

  • 树的数量:类似于决策树的工作方式,确定森林中将包含多少棵决策树
  • 每次分割考虑的属性数量:决定在每个节点任意抽取多少属性进行考虑
  • 随机生成器的固定种子:确定使结果可复制的种子

线性回归

线性回归微件试图根据提供的数据点找到最佳拟合线。它可以学习和识别预测变量 x 和响应变量 y 之间的关系。请注意,线性回归小工具只能用于回归任务。您可以设置正则化的类型及其各自的强度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

正则化的概念不在本教程的范围之内。请随意从其他来源查看。基于官方文档,Lasso 回归使用 L1 范数罚函数最小化最小二乘损失函数的惩罚版本,而岭正则化使用 L2 范数罚函数最小化它。

逻辑回归

逻辑回归小工具的工作方式与线性回归小工具略有不同。尽管它有回归这个词,但它只适用于分类任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Author

这些参数几乎类似于线性回归,因为您可以在山脊正则化或套索正则化之间进行选择。此外,您还可以修改强度,默认值为 C=1。

结论

这次我们学习了如何使用预测小部件来基于训练集和测试集进行预测。或者,我们可以使用一个数据采样器小部件将数据集一分为二。我们还粗略解释了预测小部件和测试&得分小部件之间的区别。然后,我们继续讨论一些常用的数据建模学习算法。我们从小部件开始,它可以连接到树查看器小部件来显示决策树。然后,我们继续讨论随机森林小部件及其各自的参数。最后,我们探索了线性回归窗口小部件和逻辑回归窗口小部件。线性回归控件只能用于回归任务,而逻辑回归控件用于分类任务。感谢阅读数据科学变得简单教程的第 4 部分。在下一部分,我将介绍使用 Orange 的图像分析。❤️

数据科学变得简单

  1. 交互式数据可视化
  2. 数据处理
  3. 测试和评估
  4. 数据建模和预测
  5. 图像分析

参考

  1. https://orange.biolab.si/
  2. https://github.com/biolab/orange3
  3. https://orange.biolab.si/docs/
  4. https://data science . stack exchange . com/questions/20572/why-orange-predictions-and-test-score-produce-different-results-on-the-Sam/21672
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值