TowardsDataScience 博客中文翻译 2016~2018(八十)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

创业公司的数据科学:跟踪数据

原文:https://towardsdatascience.com/data-science-for-startups-tracking-data-4087b66952a1?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: kristinakasp at pixabay.com

我正在进行的关于在初创公司建立数据科学学科的系列文章的第二部分。你可以在 简介 中找到所有帖子的链接,还有一本基于这个系列的关于 亚马逊 的书。

为了在创业时做出数据驱动的决策,你需要收集关于你的产品如何被使用的数据。您还需要能够衡量产品变更的影响以及营销活动的效果,例如在脸书上部署定制受众进行营销。同样,收集数据对于实现这些目标是必要的。

通常数据是由产品直接生成的。例如,移动游戏可以生成关于启动游戏、开始附加会话和升级的数据点。但是数据也可以来自其他来源,例如电子邮件供应商提供关于哪些用户阅读和点击了电子邮件中的链接的响应数据。这篇文章主要关注第一种类型的数据,即产品生成的跟踪事件。

为什么要记录产品使用数据?

  1. **跟踪指标:**您可能希望记录绩效指标,以跟踪产品健康状况或其他对业务运营有用的指标。
  2. **进行实验:**为了确定对产品进行改变是否有益,你需要能够衡量结果。
  3. **构建数据产品:**为了做出类似推荐系统的东西,你需要知道用户在和哪些项目进行交互。

有人说数据是新的石油,有各种各样的理由从产品中收集数据。当我刚开始进入游戏行业时,从产品跟踪的数据被称为 遥测 。现在,从产品中收集的数据经常被称为跟踪

这篇文章讨论了收集什么类型的产品使用数据,如何将数据发送到服务器进行分析,构建跟踪 API 时的问题,以及跟踪用户行为时需要考虑的一些问题。

录什么?

部署新产品时首先要回答的问题之一是:

关于用户行为,我们应该收集哪些数据?

答案是,这取决于您的产品和预期的用例,但有一些关于在大多数 web、移动和本机应用程序中收集什么类型的数据的通用指南。

  1. **安装:**用户基数有多大?
  2. **会议:**用户群的参与度如何?
  3. **货币化:**用户花了多少钱?

对于这三种类型的事件,数据可能实际上是从三个不同的系统生成的。安装数据可能来自第三方,如 Google Play 或 App Store,会话开始事件将从客户端应用程序生成,在应用程序中花钱或查看广告可能会被不同的服务器跟踪。只要您拥有生成数据点的服务,就可以使用相同的基础设施来收集不同类型事件的数据。

收集关于有多少用户启动和登录应用程序的数据将使您能够回答关于您的基础规模的基本问题,并使您能够跟踪业务指标,如 DAU、MAU、ARPDAU 和 D-7 保留率。然而,它没有提供太多关于用户在应用程序中正在做什么的信息,也没有提供许多对构建数据产品有用的数据点。为了更好地了解用户参与度,有必要跟踪特定领域或产品的数据点。例如,您可能希望在控制台的多人射击游戏中跟踪以下类型的事件:

  1. GameStarted: 追踪玩家何时开始单人或多人游戏。
  2. PlayerSpawn: 追踪玩家何时产卵进入游戏世界,并追踪用户正在玩的职业,比如战斗医疗兵。
  3. **玩家死亡:**追踪玩家死亡和卡住的地方,并允许计算指标,如 KDR(杀死/死亡比率)。
  4. **等级:**追踪玩家升级或解锁新等级的时间。

这些事件中的大多数可以很好地转化为其他射击游戏和其他类型,如动作/冒险。对于特定的游戏,例如 FIFA,您可能希望记录游戏特定的事件,例如:

  1. **进球得分:**追踪球员或对手得分的时间。
  2. **球员替换:**跟踪球员何时被替换。
  3. RedCardReceived: 追踪玩家何时收到红牌。

像先前的事件一样,许多这些游戏特有的事件实际上可以推广到体育游戏。如果你是一家像 e a 这样的公司,拥有不同的体育项目组合,那么在你所有的体育项目中跟踪所有这些事件是很有用的(红牌事件可以概括为点球事件)。

如果我们能够收集关于玩家的这些类型的事件,我们就可以开始回答关于玩家基础的有用问题,例如:

  1. 收到更多红牌的用户更有可能退出吗?
  2. 在线专注玩家比单机专注玩家玩的多吗?
  3. 用户玩的是刚发布的新职业模式吗?

大多数跟踪事件都集中在收集已发行游戏的数据点上,但也有可能在开发过程中收集数据。在微软工作室,我与用户研究团队合作,为游戏测试进行跟踪。因此,我们可以生成可视化效果,用于向游戏团队传达玩家遇到的困难。将这些可视化整合到游戏测试结果中,会得到游戏团队更好的接受。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ryse: Son of Rome Playtesting — Microsoft Studios User Research

当您第一次将跟踪添加到产品中时,您不会知道对记录有用的每一个事件和属性,但是您可以通过询问团队成员他们打算问什么类型的关于用户行为的问题,以及通过实现能够回答这些问题的事件来做出一个很好的猜测。即使有好的跟踪数据,你也不可能回答每个问题,但是如果你有好的覆盖率,你就可以开始改进你的产品。

跟踪规格

一些团队编写跟踪规范来定义产品中需要实现的跟踪事件。其他团队没有任何文档,只是简单地采用最佳猜测方法来确定记录什么。我强烈推荐编写跟踪规范作为最佳实践。对于每个事件,规范应该确定触发事件的条件、要发送的属性以及任何特定于事件的属性的定义。例如,web 应用程序的会话启动事件可能具有以下形式:

  • **条件:**当用户第一次浏览到该域时触发。当用户点击新页面或使用后退按钮时不应触发该事件,但当用户浏览到一个新的域并返回时应触发该事件。
  • **属性:**网络浏览器和版本、用户标识、登陆页面、引用 URL、客户端时间戳
  • 定义: referring URL 应列出将用户推荐到该域的页面的 URL,或者将用户推荐到该网页的应用程序(如脸书或 Twitter)。

跟踪规格是非常有用的文档。小型团队可能没有编写跟踪规范的正式过程,但是许多场景会使文档变得至关重要,例如在新平台上实现事件,为新的后端服务重新实现事件,或者让工程师离开团队。为了使规格有用,有必要回答以下问题:

  1. 谁负责编写规范?
  2. 谁负责实施规范?
  3. 谁负责测试实现?

在小型组织中,数据科学家可能负责跟踪的所有方面。对于一个更大的组织,所有者通常是产品经理、工程团队和测试团队。

客户端与服务器跟踪

为产品设置跟踪时的另一个考虑是确定是从客户端应用程序还是后端服务发送事件。例如,一个视频流网站可以直接从 web 浏览器或者从提供视频的后端服务发送关于用户正在观看的视频的数据。虽然这两种方法各有利弊,但如果可能的话,我更喜欢为后端服务而不是客户端应用程序设置跟踪。服务器端跟踪的一些好处是:

  1. **可信来源:**您不需要在 web 上公开端点,并且您知道事件是从您的服务而不是机器人生成的。这有助于避免欺诈和 DDoS 攻击。
  2. **避免广告拦截:**如果您将数据从客户端应用程序发送到暴露在 web 上的端点,一些用户可能会阻止对端点的访问,这会影响业务指标。
  3. **版本化:**你可能需要对一个事件进行修改。您可以根据需要更新 web 服务器,但通常不能要求用户更新客户端应用程序。

从服务器而不是客户端应用程序生成跟踪有助于避免欺诈、安全和版本控制方面的问题。然而,服务器端跟踪有一些缺点:

  1. **测试:**出于测试目的,您可能需要添加新的事件或者修改现有的跟踪事件。这通常更容易通过在客户端进行更改来实现。
  2. **数据可用性:**您可能想要跟踪的一些事件不会调用 web 服务器。例如,一个控制台游戏可能在会话开始时没有连接到任何 web 服务,而是希望直到多人游戏比赛开始。此外,诸如引用 URL 之类的属性可能只对客户端应用程序可用,而对后端服务不可用。

一般原则是不要相信客户端应用程序发送的任何内容,因为端点通常是不安全的,并且没有办法验证数据是由您的应用程序生成的。但是客户端数据非常有用,所以最好将客户端和服务器端跟踪结合起来,并保护用于从客户端收集跟踪的端点。

发送跟踪事件

向服务器发送数据的目的是使数据可用于分析和数据产品。根据您的使用案例,可以使用许多不同的方法。本节介绍了向 web 上的端点发送事件并将事件保存到本地存储的三种不同方式。下面的示例不是产品代码,而是简单的概念证明。本系列的下一篇文章将讨论构建处理事件的管道。以下示例的所有代码都可以在 Github 上获得。

网络呼叫 建立追踪服务最简单的方法是通过网络呼叫网站的事件数据。这可以用一个轻量级 PHP 脚本来实现,如下面的代码块所示。

<?php
    $message = $_GET['message'];
    if ($message != '') {
        $dataFile = fopen("telemetry.log", "a");
        fwrite($dataFile, "$message\n");
        fflush($dataFile);
        fclose($dataFile);
    }
?>

这个 php 脚本从 URL 中读取消息参数,并将消息附加到本地文件中。可以通过 web 调用来调用该脚本:

http://.../tracking.php?message=Hello_World

可以使用下面的代码从 Java 客户端或服务器进行调用:

// endpoint
String endPoint = "http://.../tracking.php";// send the message
String message = "Hello_World_" + System.currentTimeMillis();   
URL url = new URL(endPoint + "?message=" + message);  
URLConnection con = url.openConnection();  
BufferedReader in = new BufferedReader(new 
    InputStreamReader(con.getInputStream())); // process the response 
while (in.readLine() != null) {}  
in.close();

这是开始收集跟踪数据的最简单的方法之一,但它不可扩展,也不安全。这对于测试很有用,但是对于任何面向客户的东西都应该避免使用。我过去确实用这种方法为一个马里奥级别的生成器实验收集玩家的数据。

Web 服务器 您可以使用的另一种方法是建立一个 Web 服务来收集跟踪事件。下面的代码展示了如何使用 Jetty 来建立一个收集数据的轻量级服务。为了编译和运行这个例子,您需要包含下面的 pom 文件。第一步是启动一个处理跟踪请求的 web 服务:

public class TrackingServer extends AbstractHandler { public static void main(String[] args) throws Exception {
    Server server = new Server(8080);
    server.setHandler(new TrackingServer());
    server.start();
    server.join();
  } public void handle(String target, Request baseRequest,
      HttpServletRequest request, HttpServletResponse response) 
      throws IOException, ServletException { // Process Request
  }
}

为了处理事件,应用程序从 web 请求中读取消息参数,将消息附加到本地文件,然后响应 web 请求。此示例的完整代码可从这里获得。

// append the event data to a local file 
String message = baseRequest.getParameter("message");
if (message != null) {
  BufferedWriter writer = new BufferedWriter(
      new FileWriter("tracking.log", true));
  writer.write(message + "\n");
  writer.close();
}// service the web request
response.setStatus(HttpServletResponse.SC_OK);
baseRequest.setHandled(true);

为了用 Java 调用端点,我们需要修改 URL:

URL url = new URL("[http://localhost:8080/](http://localhost:8080/?message=Hello_World)?message=" + message);

这种方法可以比 PHP 方法扩展得多一点,但是仍然不安全,不是构建生产系统的最佳方法。我对构建生产就绪跟踪服务的建议是使用流处理系统,如 Kafka、Amazon Kinesis 或 Google 的 PubSub。

订阅服务 使用 PubSub 等消息服务使系统能够收集大量的跟踪数据,并将这些数据转发给许多不同的消费者。Kafka 等一些系统需要设置和维护服务器,而 PubSub 等其他方法是无服务器的托管服务。托管服务非常适合初创公司,因为它们减少了所需的开发运维支持量。但是代价是成本,使用托管服务来收集大量数据的成本更高。

下面的代码展示了如何使用 Java 向 PubSub 上的主题发布消息。完整的代码清单可从这里获得,用于构建项目的 pom 文件可从这里获得。为了运行这个例子,您需要建立一个免费的 google cloud 项目,并启用 PubSub。关于设置 GCP 和 PubSub 的更多细节可以在这篇文章中找到。

// Set up a publisher
TopicName topicName = TopicName.of("projectID", "raw-events");
Publisher publisher = Publisher.newBuilder(topicName).build();//schedule a message to be published
String message = "Hello World!";
PubsubMessage pubsubMessage = PubsubMessage.newBuilder()
    .setData(ByteString.copyFromUtf8(message)).build();// publish the message, and add this class as a callback listener
ApiFuture<String> future = publisher.publish(pubsubMessage);
ApiFutures.addCallback(future, new ApiFutureCallback<String>() {
  public void onFailure(Throwable arg0) {}
  public void onSuccess(String arg0) {}
});publisher.shutdown();

此代码示例显示了如何向 PubSub 发送一条消息来记录跟踪事件。对于一个生产系统,您将希望实现 onFailure 方法来处理失败的交付。上面的代码显示了如何用 Java 发送消息,同时也支持其他语言,包括 Go、Python、C#和 PHP。它还可以与其他流处理系统(如 Kafka)连接。

下一段代码显示了如何从 PubSub 读取消息,并将消息附加到本地文件。完整的代码清单可在这里获得。在下一篇文章中,我将展示如何使用数据流消费消息。

// set up a message handler
MessageReceiver receiver = new MessageReceiver() {
  public void receiveMessage(PubsubMessage message, 
    AckReplyConsumer consumer) { try {
      BufferedWriter writer = new BufferedWriter(new
        FileWriter("tracking.log", true));
      writer.write(message.getData().toStringUtf8() + "\n");
      writer.close();
      consumer.ack();
    }
    catch (Exception e) {}
}};// start the listener for 1 minute
SubscriptionName subscriptionName =
    SubscriptionName.of("your_project_id", "raw-events");
Subscriber subscriber = Subscriber.newBuilder(
    subscriptionName, receiver).build();
subscriber.startAsync();
Thread.sleep(60000);
subscriber.stopAsync();

我们现在有了一种从客户端应用程序和后端服务获取数据到一个中心位置进行分析的方法。显示的最后一种方法是用于收集跟踪数据的可扩展且安全的方法,并且是一种托管服务,使其非常适合具有小型数据团队的初创公司。

消息编码

将数据发送到端点进行收集时,需要做出的决策之一是如何对发送的消息进行编码,因为从应用程序发送到端点的所有事件都需要序列化。当通过互联网发送数据时,最好避免特定语言的编码,比如 Java 序列化,因为应用程序和后端服务可能用不同的语言实现。当使用特定于语言的序列化方法时,还会出现版本控制问题。

编码跟踪事件的一些常见方法是使用 JSON 格式和谷歌的协议缓冲区。JSON 的优点是可读性强,并且受到多种语言的支持,而 buffers 提供了更好的理解,可能更适合某些数据结构。使用这些方法的好处之一是在发送事件之前不需要定义模式,因为消息中包含了关于事件的元数据。您可以根据需要添加新的属性,甚至更改数据类型,但这可能会影响下游的事件处理。

当开始构建数据管道时,我推荐使用 JSON 开始,因为它是人类可读的,并且受到多种语言的支持。避免管道分隔格式之类的编码也很好,因为在更新跟踪事件时,您可能需要支持更复杂的数据结构,如列表或地图。下面是一个消息的示例:

# JSON
{"Type":"Session","Version":1.0,"UserID":"12345","Platform":"iOS"}# Pipe delimited
Session|1.0|12345|iOS

XML 呢?不要!

构建跟踪 API

要构建一个生产系统,您需要在跟踪代码中增加一点复杂性。生产系统应该处理以下问题:

  1. **传递失败:**如果消息传递失败,系统应该重试发送消息,并有退避机制。
  2. **排队:**如果端点不可用,比如没有信号的电话,跟踪库应该能够存储事件以供以后传输,比如当 wifi 可用时。
  3. **批处理:**与其发送大量的小请求,不如批量发送跟踪事件。
  4. **优先级:**有些消息比其他消息更需要跟踪,比如更喜欢货币化事件而不是点击事件。跟踪库应该能够优先处理更关键的事件。

拥有一个禁用跟踪事件的过程也很有用。我见过客户端应用程序发送太多数据导致数据管道爆炸,如果不关闭所有跟踪,就无法禁止客户端发送有问题的事件。

理想情况下,生产级系统应该有某种审计,以便验证端点是否接收到所有发送的数据。一种方法是将数据发送到构建在不同基础设施和跟踪库上的不同端点,但是过多的冗余通常是多余的。一种更轻量级的方法是为所有事件添加一个顺序计数属性,因此如果一个客户端发送 100 条消息,后端可以使用这个属性来知道客户端尝试发送了多少个事件并验证结果。

隐私

存储用户数据时需要考虑隐私问题。当数据可供分析和数据科学团队使用时,所有个人身份信息(PII)都应该从事件中剔除,包括姓名、地址和电话号码。在某些情况下,用户名,如玩家在 Steam 上的玩家代号,也可能被视为 PII。从任何被收集的数据中去除 ip 地址也是很好的,以限制隐私问题。一般建议是收集尽可能多的行为数据来回答有关产品使用的问题,同时避免收集敏感信息,如性别和年龄。如果你正在基于敏感信息构建一个产品,你应该有强有力的用户访问控制来限制对敏感数据的访问。GDPR 等政策正在为收集和处理数据制定新的法规,GDPR 在运送带跟踪功能的产品前应接受审查。

摘要

跟踪数据使团队能够回答关于产品使用的各种问题,使团队能够跟踪产品的性能和健康状况,并可用于构建数据产品。这篇文章讨论了收集用户行为数据所涉及的一些问题,并提供了如何将数据从客户端应用程序发送到端点以供以后分析的示例。以下是这篇文章的要点:

  1. 如果可能,使用服务器端跟踪。它有助于避免各种各样的问题。
  2. QA/测试您的跟踪事件。如果你发送的是错误的数据,你可能会从数据中得出不正确的结论。
  3. 有一个版本控制系统。您需要添加新事件和修改现有事件,这应该是一个简单的过程。
  4. 使用 JSON 发送事件。它是人类可读的、可扩展的,并且受到多种语言的支持
  5. 使用托管服务收集数据。你不需要启动服务器,就可以收集大量的数据。

随着您运送更多的产品和扩大您的用户群,您可能需要更改到不同的数据收集平台,但此建议是运送带跟踪的产品的良好起点。

下一篇文章将介绍构建数据管道的不同方法。

本·韦伯是游戏行业的数据科学家,曾在电子艺界、微软工作室、黎明游戏和 Twitch 任职。他还在一家金融科技初创公司担任第一位数据科学家。

LGBTQIA+社区的数据科学?

原文:https://towardsdatascience.com/data-science-for-the-lgbtqia-community-f476c10b45cb?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Technically minded queers need to think about how to contribute back to our community.

数据收集在边缘化群体中并不真正享有很高的声誉。我们经常听到关于以安全为名监视移民、有色人种社区和社会正义活动家的新闻。对收集个人数据的不信任不足为奇,因为这可能会导致更多的监管。

除了这种明显的数据滥用,还有一些故事表明,机器学习算法确实可能是种族主义和性别歧视的。关于数据科学中遵循的道德规范,人们正在进行讨论。然而,我严重怀疑大多数数据科学家对种族、性别等有足够的分析,并且算法将继续偏向更有特权的个人。如果你愿意,可以称我为技术悲观主义者。

在过去的 5-10 年里,数据科学领域出现了爆炸式增长。随着我们进入一个新时代,一切都在收集你的数据,公司正在寻求利用这些数据的方法。数据科学家相当于几十年前的经典统计学家。我们当然会做统计,但我们也会花很多时间编程和管理所谓的“大数据”。这是一份非常有魅力的工作。我开玩笑。

我花了一些时间思考的一件事是,我如何使用随机森林算法来推进我们为酷儿正义和解放而战(:数据科学中的笑话是,我们把随机森林扔向一切,然后就到此为止)。

这就引出了一些数据分析可能已经成熟的问题。以下是预测分析可用于社会公正的一些例子:

  1. LGBTQ 个人更有可能被监禁。如果你是有色人种就更是如此。你可以想出几个可能造成这种情况的关键因素,但哪些因素影响最大,哪些因素影响最小?这将给我们一种感觉,我们的社区可以如何重建自己,以防止我们的成员被监禁。例如,如果你能够获得被监禁的同性恋者的人口统计数据,人口普查相关数据,教育相关数据,健康相关数据,并与那些没有被监禁的同性恋者进行比较,是否有任何有趣的趋势可以为潜在的决策者和非营利组织提供信息?围绕累犯的因素呢?是否有数据驱动的方法可以证明是有用的,从而可以产生实际的(和经济上可行的)解决方案来解决我们社区中的这个问题?
  2. 与他们的异性恋、异性同龄人相比,LGBTQ 个体面临着更多的健康差异。你可以想到影响我们社区差异的一大部分社会因素。这些因素包括:支付健康保险的能力、被健康提供者歧视的经历、去健康中心的距离和可行性、与同性恋相关的健康问题的教育计划、职业和/或就业状况、是否无家可归、年龄、种族、性别等。具体问题包括改善获得艾滋病教育和预防计划的机会,变性人获得激素的医疗机会,改善我们的 LGBTQ 老人的酷儿健康。

回答这些问题的困难在于从我们的社区获取数据的能力。幸运的是,我怀疑全国各地的非营利组织都有自己的内部数据库。在这个重视数据的时代,我怀疑这些非营利组织似乎也在参与大数据游戏,以帮助指导他们的政策工作。然而,搜索“酷儿”和“数据科学”收效甚微。我毫不怀疑有数据科学家是 LGBTQ,但似乎没有兴趣将其应用于我们社区的社会公益。

这并不是说数据科学家不打算利用机器学习的力量来改善社会。事实上,有专门的节目。我想我的观点是,有太多的数据科学家关心在世界上所有的 Facebooks、Googles 和 Amazons 上获得轻松的工作,而没有足够的人真正将他们的技术专长集中在影响我们整个社会的问题上。

所以,对于所有在拥有数据的组织中工作的激进同性恋者们:你们希望看到数据如何被使用?你希望回答什么问题?

米歇尔是波士顿的 LGBTQ 活动家和数据科学家。你可以在她的 LinkedIn 或者她的 个人网站 上找到更多关于她的信息。

“数据科学 A-Z 从零到 Kaggle 内核大师”

原文:https://towardsdatascience.com/data-science-from-zero-to-kaggle-kernels-master-f9115eadbb3?source=collection_archive---------2-----------------------

我最后一年学习数据科学的一个简短故事

我来自巴西,世界各地的许多人都与我联系,询问在数据科学领域学习或获得空缺职位的技巧,所以我决定写这篇文章,让内容更加“结构化”,并以更好的方式为刚刚开始这一旅程的人做出贡献。

在这第一篇文章中,我将为我打算写的下一篇文章做一种语境化,在那里我将更深入地探讨我将在这篇文章中阐述的一些主题。

我将在数据区讲述我到目前为止的故事,最后,我会留下一些提示,以帮助那些正在起步,也想进入该领域但不太清楚该做什么,从哪里开始或去哪里的人。

我第一次接触数据科学是在一年半多以前,2017 年 5 月 25 日。我失业了,试图在股票市场上坚持不懈地操作,尽管我掌握了许多行之有效的技术,但这需要巨大的情绪控制,在经历了很多压力后,我在《福布斯》上看到了一篇关于数据科学的文章,其中引用了“21 世纪最性感的职业”及其原因。这让我从一开始就受到了很多关注,它谈论的是高平均工资,以及对这种类型的专业人员的巨大需求,这种专业人员必须掌握很多东西,如商业、数学、统计和编程,在许多人眼中,这是一种罕见的专业人员,他的能力越高、越平衡,就可以被视为“独角兽”。

我毕业于会计专业,曾在公司金库工作,在股票市场交易,在互联网上销售商品,由于我的生活,我一直对商业、创业和金融数学有一定的感觉。在大学里,我有数学和统计学,但在编程方面,我的概念接近于零。

我也是哲学和知识理论的狂热爱好者,我相信这帮助我构建了我想要学习的形式,因为我已经从自学阶段走出来,我开始寻找解释数据科学/ ML /大数据的网站、博客和新闻,我发现了这些概念背后的东西,对于我遇到的每个新主题,我都试图更深入地搜索参考资料。当时我还不知道 MOOC 的概念,MOOC 是一种更适合 21 世纪教学的在线课程,那些有纪律的人可以荒谬地优化学习时间,节省金钱,仍然拥有等同于甚至领先于课堂课程的知识。当时,我还买了一本名为《从零开始的数据科学 Python 的首要原则》的好书,在最初的几周内,这本书吸引了我的业务资料,并表现出了极大的兴趣,尽管我对该领域几乎一无所知,但一些采访已经出现了。

我总共通过 LinkedIn 参加了 10 场面试,但我没有在任何一场面试中获得工作,但这给了我很大的力量继续全职投入(周一至周一每天大约 12 小时至 14 小时的学习),因为我意识到确实有很多需求,如果我这样做了,我无疑会有机会,因为这是一个全新的行业,许多人甚至说这是新的石油。

我遇到的第一个 MOOC 是 Udemy。起初,我觉得很有趣,很快就出现了从 20.00 美元起的促销活动。所以我忘乎所以,买了许多课程,包括“机器学习 A-Z”,“从零到英雄的数据科学”,一些 Tableau,但很快我意识到我有多愚蠢,我最终要求报销这 3 门课程,因为我当时的英语很糟糕,而且课程只是视频。在此期间,我认识了其他平台,其中一个去了 Udacity,在那里赌了我的筹码。

我看了很多视频,都在谈论纳米学位的课程,这引起了我的注意。尤其是现代的教学和纠正是由一个“真人”来完成的,他会反馈信息。第一部分非常快,非常兴奋,虽然它没有代码,但我喜欢这个过程。但当它到达代码的部分时,我开始越来越难理解,而且当时仍然有很多没有葡萄牙语字幕的视频。

我在 Python 中做的第一次单独分析是在 2017 年 7 月 21 日,用泰坦尼克号数据集并应用我在统计模块中学到的概念,这个项目有助于澄清许多关于数据科学的应用,即使是在这样一个简单的数据集中。在下一个模块中,我无法继续学习,因为我无法理解部分代码。我的结论是,没有编程基础,我只是在浪费时间。

在我要求取消课程之前,我试图通过参加各种课程和 YouTube 课程,如 Gustavo Guanabara 和其他几位非常优秀的人,他们致力于在互联网上免费教授逻辑和编程,来学习逻辑。一个多月后,我致力于开发 Python 的这个基础,我遇到了 Datacamp,这是一个改变我学习和在线观看教学方式的平台。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

My position on “Datacamp Rank” with 250k exp | January 2018

Datacamp 非常适合我,因为我的英语仍然很不稳定,而且有书面的说明和材料,我经常不得不去谷歌翻译公司“确保”,还为你提供了一个区域来放置你制作的代码并提交测试,自动更正,如果你达到了分辨率,你将在平台上获得积分。我开始测试一些课程,因为我发现平台与我已经测试过的平台不同,所以我决定尝试付费版本,并开始“Python 数据科学家跟踪”,如果我不能开发代码或理解问题,我可以单击“提示”,任务的提示或说明就会出现,如果我仍然不知道如何做,只需再次点击提示,系统就会显示完整的代码。我正在学习这门课程,并通过《零数据科学》( Data Science of Zero)这本书、更多具体的书籍、文本、博客、论文、小组、论坛、Youtube 上的视频以及其他一些参考资料来完成理论,以便更好地理解每个概念和应用……但当它开始机器学习的部分时,我开始感到非常不安全,因为它给人的印象是我“没有在学习”,这对任何领域的初学者来说都是正常的,而且还没有将学习付诸实践。

沮丧之余,我不确定该做什么,我决定尝试“R 的数据科学家之路”,因为我知道 R 是一种统计语言,因为我对 Python 感到失望,所以我深入研究了 R,也许现在对 Python 有点熟悉了,我对 R 语言非常熟悉,在很短的时间内就完成了。 我还强化了大多数概念,并将其重新应用于其他数据集……完成本课程后,我决定再学习一门 R 课程,重点是金融领域,“R 量化分析师课程”,在这里我学到了许多有趣的新东西。 直到 2017 年 12 月,我得到了一个实习机会,由于工作中要用到 Python,我又回到了 Datacamp 的 Python 课程。

由于我使用 Python 已经有一段时间了,所以当我回来时,我感到非常失落,而且是在我必须将我的知识应用于第一个“真实数据集”的时候,任务是为一家公司预测欺诈,而这一次,没有人告诉我该做什么,如何分析,使用什么以及什么指标是重要的……没有太多的对错。

在第一瞬间,我完全迷失了,不知道从哪里开始,因为在那之前,我只看到了理论,特别是对于一个不“受欢迎”的数据集(如虹膜、蘑菇、纽约出租车、乳腺癌等),其中应该研究的变量有些明显并且非常有限。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

My total exp and completed Courses on Datacamp on August 2018

随着时间的推移,事情变得越来越有意义,项目按时交付,最终我们在欺诈预测方面取得了良好的结果,但即使一切顺利,对我来说也很紧张,因为我仍然在做任何涉及代码的事情时遇到了一些困难,正如我听说的 Kaggle 一样, 这是一个预测建模和分析竞赛的平台,在这个平台上,统计学家和数据挖掘者竞争产生最好的模型来预测和描述最近被谷歌收购的公司和用户发送的数据集,我去寻找他们推荐给我的一个经典数据集, 这是德国信用风险的,其目标是开发一种分析,并根据客户的历史预测信贷是否可以授予特定客户,因为我是一名会计师, 我有一定的能力来探索和展示数据,这最终为我赢得了数据平台上的许多投票,并激励我继续开发更多的内核,直到我对不同数据类型和不同行业的代码和不同分析方法足够熟悉,尝试以更抽象的形式关注数据,但总是考虑每个行业的不同细微差别。

我很快意识到,金融/经济方面的分析很有市场,出于某种原因,很少有人关注这种类型的分析,但这种分析得到了很好的接受。

我和 Kaggle 的第一次互动是在 2018 年 1 月 8 日,在一个半月的时间里,我达到了 Kaggle 专家内核的水平。我非常兴奋,真的被我所学的一切迷住了,仅仅几个月后,我在 Kiva 的 Kernels Data Science for Good 中获得了第一名,获得了一千美元的奖金。在 2018 年 4 月比赛开始的同时,我换了我的公司,去了一家可视化真正大数据的公司工作,在一个自己的平台上使用 javascript(当时我还不知道 javascript),我已经以数据科学家的身份参加了比赛,一个月后,5 月 20 日,我是世界上第 21 个获得 Kaggle 内核大师资格的人,也是第一个获得 ka ggle 内核大师资格的巴西人。

经过我在 Kaggle 所做的所有分析和工作,以及过去几个月我为大公司参与的项目,加上长时间的学习,我已经积累了很好的行李,能够很好地理解和频繁地洞察数据、产品、分析,并且通常仅通过好奇心或知识本身。对于任何喜欢学习、不怕挑战的人,尤其是喜欢解决问题的人来说,这是一个非常有趣和丰富的领域。

就我目前所见,数据科学家没有单一的个人资料或共识,这是非常自由的,因为它为来自社会最广泛领域的人打开了空间,尽管许多人试图将无数的限制和你的领域或学术地位作为先决条件,但重要的是你可以思考、理解、解释和主要应用任何类型的数据集中的知识。

我在这里写了太多,我讲述我的故事只是为了将我给朋友和在 LinkedIn 或 Kaggle 上给我打电话的人的提示联系起来,并表明只要有奉献精神和专注,在短时间内高质量地学习是可能的。

我目前与世界各地的人就数据进行了很好的对话,并且主要是与获奖的大师 Anderson L. Amaral 在许多自动化解决方案和机器学习咨询方面进行了非常密切的合作,包括特征工程、建模、预处理、优化,甚至数据清理。

此外,我正在寻找一个以英语为母语的国家,以提高我的英语和数据/ML 技能;我真的很喜欢学习,这种语言的更好的领域将帮助我提高我的其他技能。所以我打算尽快去。

最后,这里有一些给处于这种方式并希望成为数据科学家的人的提示:

1 —这需要时间

正如你不可能在几周或几个月内减肥或变得肌肉发达,不要指望数据科学会有什么不同。虽然我有很多空闲时间来学习,但学习的主要因素将是一致性和你花在任务上的时间。你投入得越多,学得就越快。

总是认为,为了学习新的东西,变得更聪明,我们需要像举重、跑马拉松或任何其他类型的高性能活动一样多的努力,所有这些都需要奉献和纪律。

2 —接受提问

不要接受不了解事情是如何运作的。一开始会有点难,因为有很多概念和区域相关。然而,随着时间的推移,这些概念会不断重复,因此,这些概念会变得直观。要考虑的一件好事是,没有人会从你那里拿走你的知识,所以尽可能地“错过”,但要理解概念。

我通常用来激励自己的一件事是寻找儿童、残疾人,甚至老人来做我打算做的事情。

3 —通过数据思考

当你在学习一些东西时,把它作为一种思考工具可能会很有趣…在这种情况下,观察事物并尝试用数据、产品、指标来思考解决方案,这些数据、产品、指标可能适用于你正在观察的事物和相关事物…所以你已经训练了自己分析和直觉应用概念的能力。

当雇用数据科学家时,公司的目标是增加利润,减少一些开支或防止损失/欺诈,所以如果你想为公司工作,请意识到“业务”的重要性。

4 —运用你的知识

在通过课程、MOOCs、视频、书籍积累知识一段时间后,有趣的是,你尝试自己做分析并发展自己的“风格”。我发现 Kaggle 在这方面非常出色,但还有许多其他平台,如 drivendatadata.world 。在开始的时候,优先考虑应用你在某个领域的数据集中的知识,并以简单的形式列出试图回答的初始问题。这是我一开始选择许多金融数据集的原因之一。此外,仅仅因为你在独自练习,就要知道你已经是一个局外人了。

5 —让人们知道你在做什么

这是当今最有趣的领域之一,但仍有许多人抱怨他们在这个领域没有机会,在我看来,其中一个主要原因是人们不知道你在做什么。学会良好的沟通是必不可少的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

My profile on Kaggle in August 2018

我认为这对于一篇介绍性的文章来说已经足够了。我上面写的是一年半以来所做的一切的总结,我打算再写一些文本,深入研究上面提到的主题,并就不同的数据科学概况、快速学习的技术和技巧、帮助理解数据集的方法以及如何从数据探索中获取价值进行一些观察。 还有关于人工智能的自动化,这是我一直致力于的事情,毫无疑问,它将越来越成为世界各地科学家日常工作的一部分。

很快我就会回来,我感谢那些已经阅读的人,如果它变得非常重复,我道歉,因为我不习惯写这么多。此外,对任何英语错误感到抱歉。

请在评论中给出您的反馈,并分享这篇文章,以帮助其他也正在开始的人。此外,请随时在 LinkedIn 上与我联系,如果你有兴趣,请访问我在 KaggleGitHub 上的个人资料,我通常会在那里发布一些我正在开发的项目。

如果你有生意,想开发以盈利为导向的数据科学项目,访问:https://trich.ai/并请求你的预算;

非常感谢大家的关注,继续学习!

数据科学在行动:分析马德里的空气污染

原文:https://towardsdatascience.com/data-science-in-action-analyzing-air-pollution-co-in-madrid-37dc465d78fc?source=collection_archive---------19-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

近年来,马德里某些干旱时期的高污染水平迫使当局采取措施禁止汽车在市中心使用,并被用作提议对该市城市化进行重大改革的理由。感谢马德里市议会开放数据网站,空气质量数据已经上传并公开。有几个数据集,包括从 2001 年到 2018 年登记的污染水平的每日每小时的历史数据,以及用于城市污染和其他颗粒分析的站点列表

数据集非常庞大,所以我决定只分析一种污染物——一氧化碳(CO)。从 2001 年到 2018 年,每天 24 个不同站点的数据每小时公布一次,尽管缺少 2002 年、2006 年至 2010 年这种污染物的数据。

为了得到一个大概的情况,我找到了一年中每一天的平均值,基于所有 24 个站点。这个过程在我的笔记本电脑上花了大约一个小时。通过执行这个操作和绘制接收到的数据,我们已经可以得出一些结论。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从上图中我们可以看出,已经采取的措施对城市中的一氧化碳水平产生了积极的影响。这些年来,这种污染物的平均数量急剧下降。

因为我不是一个经常研究空气质量的人,也不理解它的机理,所以我想知道为什么这个图是三角形的。根据图表,我们可以很容易地说,有些月份污染水平较高,有些月份较低。我想知道那些时期。

为了找出这一点,我决定找出每年的最大值和最小值,并将它们放入不同的表中。我也把这些值标在了图上。说真的,没有得到任何有价值的信息,但它有助于解释一个小窍门。所以,当我第一次绘制这些值时,图表看起来是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你看,因为最大值和最小值之间的巨大差异,我们看不到最小值的趋势——它几乎是一条直线。我们可以通过将“Y”刻度改为对数来改进它。

plt.yscale('log')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Much better, no?

所以回到我们每年的最小值和最大值。下面你将会看到完整解释一切的表格。(月份是数字,我希望你明白 1 是 1 月,8 是 8 月,不过下一次我将创建一个函数,将这些数字翻译成人类语言:D 语)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Min values

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Max values

我真的很惊讶,最大的污染发生在冬季,最小的污染发生在夏季。所以我用我的解题算法来寻找答案。这是我得到的。

一些污染源,如工业排放,无论什么季节,全年都相当稳定。但是冬天轰鸣的壁炉、柴炉和空转的车辆都会增加颗粒物(构成烟雾的颗粒)和一氧化碳(来自汽车尾气)的含量。

除此之外,寒冷的温度和停滞的空气有办法在地面附近创造这些物质的积累,特别是在一种叫做逆温的天气现象期间。在其他季节或天气条件下,暖空气靠近地面,空气很容易上升并带走污染物。在逆温层中,冷空气被一层暖空气限制在地面附近。温暖的空气就像一个盖子,压住这些物质。在逆温期间,烟雾不会上升,一氧化碳会达到不健康的水平。从空气质量的角度来看,风暴是一个受欢迎的天气事件。风、雨和暴风雪有时被称为洗涤器,因为它们有助于清除和分散令人担忧的物质。

更多详细信息可点击此处— “为什么冬天空气污染更严重?”这里— “寒冷天气如何影响空气质量”

作为一个生活在城市的人,我认为空气污染在夏天更严重,但数据显示完全相反,我无法否认这一点——这就是为什么我热爱数据科学,这就是为什么我热爱我的工作,因为数据从不说谎。是的,作为一个人,你可以在代码中做出不正确的解释或错误,这将扭曲结果,但尽管如此,数据。从来没有。谎言。

希望这篇文章也让一些人大开眼界,如果是的话,请留下评论,你肯定不是一个人🙂

原载于sergilehkyi.com

数据科学在行动:用统计学解释心理学

原文:https://towardsdatascience.com/data-science-in-action-explaining-psychology-using-statistics-be21abf912fb?source=collection_archive---------12-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Riccardo Chiarini on Unsplash

是的,使用正确的方法,我们可以获得很多真知灼见

想象一下,你正在淋浴,享受热水,你可以听到远处另一个房间的手机铃声。想象一下,下车,擦干身体,头还湿着跑步,几秒钟后当对方挂断电话时拿起电话。多么重大的事件。它一定会留在你的记忆中。不会停留的是你正在洗澡,享受着水,想着“嘿,电话没响”。不会留在你记忆中的是一天中你的电话响了很多次,而你没有在洗澡。

我猜,你肯定收到过你朋友的来信,或者对自己说过“每次我洗澡的时候电话都会响”,“我的公交车总是晚点”,“我写文章的时候总有人给我发信息”(刚刚发生在:D)。这些片面的事件对我们自己产生了巨大的影响。我们倾向于相信预言性的梦,我们倾向于重视罕见但随机的事件,这没关系。因为这是我们大脑的工作方式,这是认知过程。我们把熟悉的面孔放进梦里,随机事件无时无刻不在发生——我们只需要认识到这一点,并更加小心地做出判断。很多事情都可以用自然的手段来解释。但是让我们面对现实——如果有人做了一个梦,梦见明天他们的狗会死,他们的宠物真的会死,我不会说服这个人。即使告诉你狗不是永生的,它们可能会死,这只狗也有可能在你做这个梦的某一天死去。

但是如果我们稍微修改一下这种体验。想象一下,你做了一个关于你的狗死了的噩梦后醒来,你迅速站起来,去查看它,发现你的毛绒绒的伴侣正坐在窗户前思考更重要的事情。一切都好。你回到你的床上,忘记一切。

这是一个极端的例子,但这种事情经常发生。例如,我的同事发起了一场讨论,他说:“每当我看手机时,小时和分钟的数字都是一样的。看都 19:19 了!”。所以我决定做一个小实验,看看每天能看到几次“幸运数字”的概率。我们都是人,我们会说,当我们连续看到某样东西 3-4 次时,我们总是能看到它。知道了上面描述的效果,事情就没那么复杂了,因为一天中看到几次“幸运时刻”就足够了,甚至不一定要连续看到。

让我们从一个我们称之为“幸运时刻”的协议开始。我决定将零时(14:00,22:00)、相同的小时和分钟(21:21,02:02)以及还原的小时和分钟(23:32,15:51)归入这个类别,总共 64 次。我们知道一天有 24 小时或 1440 分钟,通过简单的计算 64/1440 = 0,04(4),我们发现发现“幸运时刻”的概率约为 4.4%。这并不像掷硬币有 50%的几率或掷骰子有 1/6 的几率那么容易,但这是可能的。

这个过程可以用二项式分布来描述:我在白天随机检查手机- >我看到“幸运时刻”或者正常。真或假。为了应用这一点,我需要一个人查看手机的平均次数。回答这个问题,谷歌是最好的。不同国家的不同研究显示了不同的结果,从 20 到 150,所以我收集了那些在不同来源中重复最多的数字。此外,我采取了三种不同的措施:28,47,86 作为最低,平均和最高。我也认为看到不同之处会很有趣。

下面的代码执行所有的计算。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as snssns.set()np.random.seed(666)
a_min = np.random.binomial(28, 0.044, size=10000)
p_a_min_2 = np.sum(a_min > 1) / 10000
p_a_min_3 = np.sum(a_min > 2) / 10000
p_a_min_4 = np.sum(a_min > 3) / 10000a_avg = np.random.binomial(47, 0.044, size=10000)
p_a_avg_2 = np.sum(a_avg > 1) / 10000
p_a_avg_3 = np.sum(a_avg > 2) / 10000
p_a_avg_4 = np.sum(a_avg > 3) / 10000a_max = np.random.binomial(86, 0.044, size=10000)
p_a_max_2 = np.sum(a_max > 1) / 10000
p_a_max_3 = np.sum(a_max > 2) / 10000
p_a_max_4 = np.sum(a_max > 3) / 10000
# print statements removed, link to github will be below

这是我打印在控制台上的内容:

=假设普通人每天查看手机 28 次= 每天看到两次‘幸运时刻’的概率:0.3543,三次:0.1284,四次:0.0357

=假设普通人每天查看手机 47 次= 每天看到两次“幸运时刻”的概率:0.6115,三次:0.3404,四次:0.1449

=假设普通人每天查看手机 86 次= 每天看到两次“幸运时间”的概率:0.8966,三次:0.734,四次:0.5271

如你所见,概率相当高!如果我们每天查看手机 86 次,那么看到 4 个“幸运时刻”的几率大约是 53%!不要忘记新机器人的功能——永远显示(如果 Iphones 有同样的功能,就没有线索了)。当然,你会得出结论,你看到的只是这些“神奇的时刻”。

您可能会注意到这种类型的事件甚至超过 4 次,模拟显示这个数字甚至可以达到 12 次。看看这个直方图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从最后一个数字我们可以看出,如果我们经常查看手机,那么看不到“幸运时刻”的可能性比看到它的可能性要小 8!每天次。

我试图更进一步,找出连续两次看到这些神奇数字的概率,但通过 1000 万次模拟,我一无所获。这是代码,如果有人想试试。(请纠正我,如果我犯了错误,这也可能是:D)

n_sequential = 0
size = 28
sample = 10000000

for _ in range(sample):
    rare = np.random.random(size=size) < 0.044
    n_rare = np.sum(rare)
    if n_rare > 1:
        for i in range(size):
            if i == size-1:
                break
            elif rare[i] is True & rare[i+1] is True:
                n_sequential += 1

结论:连续发现两个“幸运数字”的概率非常非常低,当然是随机检查手机。那么怎么谈 3、4 呢?但由于我们头脑中的这些过程,我们告诉人们,当我们查看手机时,我们只能看到“神奇的时间”。

这是一个愚蠢的例子,如果你继续告诉别人你拥有奇异博士管理时间的超能力,这不会对你的生活产生任何影响。我希望我们在作出判断和主张之前稍微思考一下,用科学的方法找到我们问题的答案,打开我们的思维,从第一眼看去,考虑对非自然事物的自然解释,考虑可能与我们不同的其他观点。固执就像被关在你自己的房间里,是的,它是舒适、平静和安全的,但外面是多么美丽啊!宽阔平静的湖泊和河流,新鲜冰冷的海水,有着可爱海滩的大海和波涛汹涌的大海,树叶间洒满阳光的宁静森林和无限的五颜六色的花田,有着令人惊叹的景色的山脉和丘陵,繁忙的城市和宁静的村庄…

我猜,离开你的房间是值得的;)

附:用代码链接到 Github。

最初发表于T5【sergilehkyi.com】

算法交易的数据科学

原文:https://towardsdatascience.com/data-science-in-algorithmic-trading-d21a46d1565d?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这篇文章中,我计划给你一瞥算法交易的资产模型。这个世界模型应该允许我们根据过去发生的事情来预测将要发生的事情,并通过交易这些信息来赚钱。模型和交易策略只是一个玩具示例,但我提供的是代码中的数据科学部分,这样你就能真正感受到建模工作的真实性。

几个月前我开始为这篇文章写代码,现在我把它和我们获得了 SEC 的 Investifai 许可的消息一起发布!

自从我 2018 年 9 月在 TMLS 的Investifai.com演讲以来,我一直在问我们的专有数据是什么,坦率地说,我不是在说话。需要指出的是,仅凭彭博和汤森路透的“标准”市场数据,你就要与整个金融科技世界为敌,后者为访问这些数据付费。因此,新的数据来源让你在做出其他市场参与者可能没有数据的预测时拥有优势。

在这篇文章中,我将向你展示如何识别经济数据,并将其与可交易资产匹配。我们将获取数据,清理它,询问它,并在一个简单的模型中设置它。

“所有的模型都是错误的,但有些是有用的”——乔治·博克斯

我们在这个玩具练习中的资产是货币对 USD/CAD 。我们可以从 Open Data Canada 这里获得该资产从 20 世纪 50 年代开始的每日历史数据。

下面的代码清理这些数据,将其转换成可用的格式。

以下是 fxtop.com 图表中的美元/加元数据:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是我们从加拿大开放数据中心提取的数据:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The exchange rate for trading one USD into CAD excluding fees.

两个图表上的数据都在相同的地方下降,再进行一些抽查,我们确信这就是我们所认为的数据。

到目前为止,我们已经看到,为了以一种良好的格式获取数据,需要做一些偷偷摸摸的清理工作。这是数据科学的故事:大部分工作是将数据处理成你观察相关性所需的格式,然后做出预测。

现在,我们继续获取一些数据,我们认为这些数据将有助于我们预测美元/加元资产的走势。该数据也将来自加拿大开放数据公司,以工业产品价格指数(IPPI) 的形式提供,这应该与加拿大货币相对于美国货币的走势有关。如果东西更贵,也许这能告诉我们一些关于经济和货币(相对于美国)的信息。还有很多信息我将跳过部分,这些数据来自以及如何收集和计算。现在抓紧你的座位。开始了…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The full dataset (left) looks right. Taking a closer look at one decade (right) also looks reasonable. We see that not all signals start or end at the same points in time.

上面的两个数字是我们对模型的经济数据的初步分析。我们从数据指南中得知,IPPI 指数挂钩“指数,2010=100”,我们可以清楚地看到从 20 世纪 50 年代到 2019 年的长期数据(左)中的挂钩。一切都汇聚在 2010=100,然后从那里向外扩展。

数据中的特定信号也有一些奇怪之处。下图显示了 2008 年至 2016 年名为“纸质办公用品”的 IPPI 因子的归一化图表。大多数信号不存在这个问题,但要记住数据集并不完美,这一点很重要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Normalized graph for the IPPI factor called ‘Paper office supplies’ from 2008 to 2016

使用这个数据集有一些严重的限制。首先,它只能按月使用。这对于真正的交易算法来说太慢了。第二,这个指数中的因素都是关于加拿大的,当谈到美元/加元交易时,这是故事的一半或更少。第三,我们没有包括来自新闻或其他数据来源的数据。所有这些都没问题,因为我们只是展示了它在原理上是如何工作的。事实上,有很多方法可以在日常交易中利用月度宏观数据,并将多种类型数据的输入合并到一个模型中。记住这些注意事项,下面是我们如何将 IPPI 数据提取为模型可用的格式:

机器学习模型具有一些输入观察值“x”和一些输出预测值“y ”,其中该模型是建立 y=f(x)关系的函数。模型“f”从观察值映射到预测值。在我们的例子中,“x”是 IPPI 的数据,我们想用它来预测 USD_CAD 的价格变化,这是我们的“y”输出。在我们做出预测之前,我们应该深入研究 IPPI 和美元兑加元之间的相关性,以验证这些东西确实如我们假设的那样相互关联。我们还将看看相关性以外的东西,看看基于 IPPI 数据中的过去值,我们在 USD_CAD 的未来值中看到什么相关性。换句话说,我们将寻找 IPPI 有信号的迹象,我们可以用它来预测 USD_CAD。

让我们首先将经济数据与资产数据结合起来,观察一些很酷的东西。以下所有数据科学的代码都可以在这里找到:

从“大画面”看数据:20 世纪 50 年代至今

预处理后,数据集中保留了 931 个因子。让我们先来看看在整个数据期间(20 世纪 50 年代至今)与 USD_CAD 密切相关的因素。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在第一张图表中,我们看到了一系列有趣的相关性。例如,木材和相关的精炼产品如新闻纸、纸浆和纸张与美元的强势相关。有道理。来自加拿大的昂贵纸张导致需求减少,众所周知,加拿大和美国在软木木材定价上有着永无休止的争端。这告诉我们,来自加拿大的廉价木材给 USD_CAD 带来压力。

接下来,让我们看看哪些因素与美元兑加元走软相关。我们可以从下面的图表中看到,石油和天然气行业发挥着重要作用,矿石和采矿行业也是如此。这是有道理的。加拿大生产矿石(如萨德伯里的镍),也出口石油(如阿尔伯塔省的沥青),因此有理由认为,它们价格的上涨与加元的下跌相关。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以下是每个 IPPI 系数及其与美元兑加元的相关性的缩小视图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些是很好的相关性,但是相关性和交易预测不是一回事。我们需要利用因果关系,而不是相关性来赚钱。因此,我们需要某种基于相关性观察预期收益数据。

下图显示了 IPPI 系数与下个月 USD_CAD 值变化之间的相关性。一个警告是,调查数据可能不可用,甚至一个月后,但让我们假设我们可以获得这种及时的数据访问。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Many factors correlate with future changes in USD_CAD

美元兑加元与工业品价格指数的长期总体关系不同于每十年的关系。这是一个好主意,让我们更深入地研究数据,以帮助我们了解 IPPI 因素和美元 _ 加元走势之间的变化关系。在本文的下一节中,我们将研究 1990 年代、2000 年代和 2010 年代的十年数据。

20 世纪 90 年代——美元兑加元的牛市

让我们先来看看 90 年代与美元强势最相关的东西。我们看到一些常见的疑点,如汽车和纸制品(如上所述,价格上涨对 CAD 不利)。有趣的是,IPPI 名列榜首,这表明加拿大工业产品价格普遍较高,意味着美元走强。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这段时间里,美元被踢了屁股,所以几乎所有东西的价格上涨都与美国的统治地位相关。这是上世纪 90 年代的价格图表:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如我们在下图中看到的,在 20 世纪 90 年代,只有少数 IPPI 因素与 USD_CAD 负相关。木浆是一种奇怪的负相关,因为大多数其他木材相关因素最终都是正相关。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了保持一致性,我们来看看这个时间段的相关图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

像以前一样,我们更关心交易信号而不是原始相关性,因此下图显示了每个 IPPI 因子如何与从当前月的 USD_CAD 到下个月的 USD_CAD 的变化(汇率的变化)相关联。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意,尽管大多数因素与 USD_CAD 正相关,但与 USD_CAD 变化正相关的因素并不多。此外,请注意,许多在 20 世纪 90 年代没有数据的东西的相关性在结果中被隐藏了。在前面查看所有数据的部分中,任何地方有数据的任何因素都可以关联。既然我们看到的是一个更小的数据子集,我们只能说一些在 20 世纪 90 年代有数据的因素。

下面快速浏览一下数据框的样子,以显示许多因素在数据集中早期是不可用的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在让我们继续用 2000 年的镜头来看看支撑我们模型的数据。

21 世纪——一个变化的世界

让我们回过头来看看数据中最高的正相关和负相关,就像我们在上世纪 90 年代对整个数据集所做的那样。

在 2000 年,我们继续看到美元兑加元的强势与汽车类股以及木材/纸张类股之间的强相关性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们从下面的负相关性中看到,金属和石油仍然是美元兑加元疲软的原因之一。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那么是什么改变了呢?从放大的角度来看,这种变化是微妙的,但基本上,20 世纪 90 年代美元兑加元的上涨没有持续。这是 IPPI 因子和美元兑加元之间相关性的放大图,右边是 20 世纪 90 年代,左边是 2000 年代。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们看到与美元兑加元相关的因素发生了戏剧性的逆转,变成了与美元兑加元负相关的因素。这向我们表明,使用从 20 世纪 50 年代到现在的这些因素作为我们预测模型的训练数据将是一个错误。使用所有的数据会忽略这些因素在现实生活中如何应用的制度变化。然而,我们可以用滑动窗口进行回溯测试,学习新的东西,抛弃旧的东西。这是一种非常常见的测试“远”到过去的策略的策略。

现在,为了保持一致性,让我们看一下显示一个月后各种因素如何与 USD_CAD 变化相关的图表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一个相当平衡的情况,数据中显示了大量的正相关和负相关。对于试图预测这一时期美元兑加元的走势来说,这是一个好迹象。事实上,相关性的方向并不像强度和信号的相互独立性那么重要。最终关键因素是我们赚了多少钱。这里的想法是持有加元和美元,并根据我们的模型预测的时间每月在它们之间切换。

2010 年代——有史以来持续时间最长的经济扩张

我很好奇,想看看数据中的高相关性信号是怎么回事。相关性是什么样的?好吧,看看下面图表中的雪地车价格和 USD_CAD。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Super high correlation between USD_CAD and snowmobile prices at the factory gate. You can see it just by looking at it.

工厂门口的雪地车价格和美元的强势之间的这种相关性是一个真正的加拿大故事。买雪地车花费越多,加拿大元在美国的能量就越少。有意思。很可能是一些其他潜在的因果因素,如石油和金属价格,创造了这种动态,但看看一些数据来验证它是有意义的仍然是好的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

事实证明,在 2010 年代,一些 IPPI 因素和美元兑加元之间存在非常强的相关性。我们继续看到 SUV 等汽车产品,以及战争产品在美元走强中发挥了重要作用。我认为,2001 年 9 月 11 日的袭击以及由此引发的战争传递了一个潜在的信息,即提升了美元作为避风港和军事强国的地位。我认为这将延续到 2010 年。这些相关性将木材故事挤出了搜索结果的前列。尽管争议仍未解决,但加拿大的许多纸浆和造纸厂在 2010 年代干脆关闭了。

我们在下图中看到,石油和相关产品以及金属继续成为 USD_CAD 负相关的一部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 2010 年代,数据集中有更多可用的因素。下图显示了 USD_CAD 相关性在这些因素中的分布。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在让我们来看看如何使用这些因素来进行预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与 20 世纪 90 年代不同,相关性和预测分布之间似乎存在对应关系。请记住,这些图表中的因素顺序并不相同,因此这些数据并不能告诉我们与 USD_CAD 相关的因素是否也预测 USD_CAD 的变化。

快速总结,然后开始模型生成

我们看到,总体数据集在这十年中包含的内容比过去几十年多,而几十年前的数据可能与今天的我们无关。在一些关键的时间点上,数据中潜在的故事发生了变化,我们无法使用之前的数据来预测之后的时期。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Correlations between the economic data and asset data vary depending on the time period observed and the signals available during the time period in question. The bottom left is for the 1990s. The top left is for the 2010s. The top right is for the 1990s. The bottom right is for the full dataset.

我们还看到,就我们对世界的预期而言,这些数据是合理的。基于这些数据的模型应该是相对可解释的。例如,如果几个因素指向美元兑加元的上涨,我们应该能够看到这些因素是什么,并验证这种多头或空头头寸是有意义的。

在这一点上,我想回到我关于 的文章,很多事情你在建立交易策略时不应该做 。在我们继续构建模型时,请记住这一点。这是一个玩具示例,现在你已经有了如何复制这项工作背后的数据科学的代码,包括数据集。我鼓励你尝试一下,看看你能想出什么。

预测算法交易模型

为了制作我们的预测模型,我们需要设置我们上面讨论过的张量“x”和“y”。输入“x”将是 IPPI 数据的进一步清理版本,我们的“y”将是两个类别之一:长型和短型。更有趣的事情,比如决定 USD_CAD 中多少预测的变化证明一个行为是合理的阈值,超出了这个玩具示例的范围。我选择了一个形状像自动编码器的前馈深度学习模型(DNN),在输入端添加了一些噪声,以帮助避免过拟合。

为了做出预测,我们回顾了过去 3 个月的 IPPI 指标。

所以:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了进行预测,我们仅使用与 USD_CAD 的预期回报至少有 10%相关性的指标。这减少了“x”中的维数。此外,在测试期间,我们使用来自训练运行的经过训练的缩放器,因为我们事先不知道如何缩放还没有发生的东西。让我们将费用设定为每笔交易 0.20 个基点(IB 中列出的)。每个模型运行都是模型的一个全新的训练和测试实例(从头开始)。

让我们根据 2000 年到 2012 年初的数据进行训练,然后从 2012 年到 2017 年 Q1 奥运会结束时进行回溯测试。这是 12 年的月度训练数据,即 12*12=144 个训练数据点。事实上,在切掉一个 NaN 后,我们得到 143 个训练样本,每个样本有 39 个数据点。当缺乏数据样本时,我喜欢把它们想象成一组方程组,我们正在寻找一个近似的解决方案。这不会是完美的,但当我们看到这种模式为我们赚钱时,我们就会知道它是否有效。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Before Tuning: Model performance for 10 simulation runs before tuning the network and massaging the training data. The results are pretty random.

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

After some effort, but before fees: Model performance for 10 simulation runs. These simulations did not include fees. The results look promising.

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A trading algorithm is born: These are the results with fees included. We make a bit less money, but have a bit more consistent performance. Fees are only paid when we buy in or change position. All 9 of 10 simulations eventually ended in profit.

在我停止浪费时间的时候(见上文),模型已经在运行之间建立了一致性。然而,在模拟的前 3 年,所有的模型都亏损了。这是一个问题,我打算让它保持原样,因为这是一个玩具问题。在 2012 年 1 月 1 日至 2017 年 3 月 1 日期间,模拟的平均最终值为 118.7。这相当于 5.25 年的交易。因此,年化回报率为 3.32%。不是很好,但不是 0 或负的。我不打算讨论我们如何利用杠杆来增加回报,或者对风险调整后的回报进行分析。训练准确率始终在 80%的范围内,而测试准确率大多在 50%以上,如下表所示。

我们可以看到,训练精度并不是上一个模型(#9)不是好模型的好暗示。在这里,最大化利润的最聪明的方法是将模型堆叠在一起,并平均这种类型的误差。想象一下,将 10 美元放到 10 个模型的手中,而不是将 100 美元放到一个模型实例的手中。

整个模拟周期持续时间较长会产生以下结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Buy and hold USD_CAD for the duration of the testing period.

叠加这些主动和被动策略,我们得到了下面的图表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们看到持有美元兑加元会很好。不幸的是,如果没有某个模型告诉我们该怎么做,我们无法提前知道买入并持有 USD_CAD 是否有利可图。与股票市场不同,真正的长期策略是买入并持有,货币对不遵循这一逻辑。相反,法定货币对随着相关经济体和政府的兴衰而变化。

什么因素导致了预测?( 展示使用精美工具 )

我们有一个赚钱的模型,这很酷,但如果能更好地了解它的作用,那就更好了。我用 DeepSHAP 得到了那张照片。首先,我使用来自 x_train 的 75 个样本设置了一个先验(背景)期望。x_train 的其余部分用于获取下一步中使用的 SHAP 值。下图显示了使用上一步中获得的 SHAP 值的 x_test 数据的汇总图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The relative contribution of each of the factors in our little model. Each factor is preceded by an m1 if it is from the month before the prediction, or m2 if it is from 2 months before the prediction.

我们马上就能看到这个模型并没有像我们想象的那样运行。它最关心的是男士西装(纺织品)、家禽、清洁用品、烟草和化妆品。这些都是我们在上述分析中没有考虑太多的因素。还好我们看了。现在,后退一步,我们看到沥青和喷气燃料等油基物质在这里,这是一个好迹象,表明我们并没有完全出局。我们也看到了与纸相关的东西,比如新闻纸,这是一个好迹象,表明我们期望看到的东西还在那里。从这个分析中我们了解到,你认为重要的东西可能最终并不是最重要的因素。在这种情况下,结果是我们考虑的东西在列表中,但对预测的影响小于模型中的其他因素。

最后,本文中介绍的方法还有一些限制值得一提。使用数据仓库比这种手工方法更好,使用回溯测试框架也更好。我尽量让这篇文章保持独立,不引用任何专有代码。

从这里去哪里?

Investifai.com终于有了 SEC,所以我们现在可以接管资产了!当我们对用户界面和 KYC 流程进行最后的润色时,迪拜的办公室一片繁忙。如果你是一个合格的投资者,并希望投资于初始基金,请联系 hello@investifai.com

在加拿大,我们的内部审计产品 AuditMap.ai 随着客户的加入而不断成熟。这里有更多关于那东西的信息。

如果你喜欢这篇关于算法交易模型开发中的数据科学的文章,那么看看我过去最常阅读的一些文章,比如“如何为人工智能项目定价”和“如何雇用人工智能顾问

下次见!

丹尼尔

初创企业中的数据科学?

原文:https://towardsdatascience.com/data-science-in-start-ups-c3cb13286dc4?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Data Science can be a very good tool for Growth Hacking!

通过我和很多人关于数据科学和人工智能的讨论,经常听到有人说:“初创企业不需要数据科学。让我们专注于通过构建用户想要的功能来获取用户。”,或类似的意思。对于大多数创业者来说,当他们在创业时,数据科学很少被列为优先事项。

大多数讨论围绕以下不采用数据科学的原因;数据科学被描绘成昂贵的(巨型基础设施!),占用太多时间,非常具有挑战性(需要专业知识来工作,而专业知识非常稀缺),数据科学只能在有大量数据的情况下工作。

我对此持不同意见。我的观点是肯定的,初创企业最初不需要“复杂的”机器学习,但现在正是考虑和准备组织中的数据科学能力的时候。

数据收集和管理流程

初创企业通常有一张“更干净的纸”(与大型企业相比),因此这是讨论要收集哪些数据、要收集的数据的质量、应该在业务流程的哪个阶段收集数据等的合适机会。通过在早期进行这样的讨论,在不同的业务流程在组织中扩展并变得更加复杂,成为“一大碗意大利面条”之前,数据收集可以很容易地工作到业务流程中。与修理高速行驶的巨型汽车(大企业)相比,修理低速行驶的汽车更容易。

例如,大多数初创企业都对快速增加受欢迎的功能感兴趣,他们需要一种更加数据驱动的方法来确定受欢迎程度(即进行 A/B 测试)。数据(应该在业务流程的哪个部分收集数据,要收集的数据的粒度)和基础设施(应该使用哪个数据库)等资源可以提前讨论,以允许初创企业对捕获的数据进行快速分析,或者决定某个功能是否受欢迎,或者当分析显示不是这样时,果断地转向其他有价值的追求。

其次,收集数据需要时间。高质量的数据不会神奇地出现。它需要从数据收集、数据质量到数据存储和检索的规划。以正确的质量水平收集数据可以减少在进行任何分析之前所需的大量数据准备工作。时间是收集足够数据的基本要素。

有了早期收集的数据,初创企业可以了解他们的战略和节约资源的影响(资源在初创企业中很宝贵,对吗?)如果影响不是积极的或巨大的。

第三,如果初创企业经历了几轮融资,那么通过尽早开始数据收集,初创企业将存储构建人工智能能力所需的关键资源之一。尽管如果我们看到 AlphaGo Zero 的进一步发展,这种情况可能会改变。

数据科学需要海量数据?

这种误解可能是由“大数据”一词引起的,该词被广泛用于在公司中创造采用数据科学的紧迫性。

如果初创企业要立即利用他们的数据获取价值,首先要做的是建立报告流程,或者建立一个运营和战略仪表板。根据当前的业务战略,为每个仪表板确定相关的指标。

对于运营仪表板,与战略仪表板相比,初创企业可以更定期地刷新指标。这里的关键是让初创企业的每个人都了解当前的运营情况;我们是否达到了为客户规定的服务水平,关键领域的用户体验是否有所下降等等。因此,新公司可以将有限的资源转移到正确的区域,以在正确的服务级别维持运营。

对于 strategic dashboard 来说,初创企业更需要了解他们当前的商业模式是否有效,商业策略(如获取用户、扩大现有用户的使用范围等)是否有效。

这两个控制面板不需要大量数据,因为捕获的数据可以立即进行处理以获得洞察力(更高的刷新频率)。它可以帮助初创企业快速有效地管理他们的运营和战略,确保有限的资源用于具有最大积极影响的领域。

数据科学很贵?

数据科学不一定很昂贵。一家初创公司不应该在没有良好的长期使用计划的情况下将大量资金投入到工具中。我的建议是,规划出初创企业希望使用的数据科学用例,并研究可用的工具,然后看看使用开源工具或企业工具是否有意义。只有当这些工具产生的价值超过工具的成本时,才承诺购买这些工具。我坚信,基础设施应该与初创企业使用数据科学所产生的价值一起增长。没有一个好的 it 计划就立即购买企业工具,很可能导致对初创环境中稀缺资源的巨大浪费。

如前所述,在初创企业的初始阶段进行的分析或机器学习的类型不需要复杂,因此初创企业或许可以为实习生提供进行分析或机器学习的机会,让他们获得相关经验,从长远来看,这些经验可以极大地有益于他们的职业生涯。这创造了一个双赢的局面,因为初创企业以低成本获得了可行的用例,并理解了数据科学的价值,这可能包括在此过程中意外发现数据科学人才。实习生可以实践他们在本科学习中所学到的东西,并看到他们当前技能的优势和劣势。也许为了确保双赢的局面产生最大的影响,有一位导师来指导实习生将是有益的。更重要的是,导师需要有实践经验,并且以前从事过数据科学项目。

获取数据科学资源

我见过的大多数数据科学家总是在寻找有趣的挑战,假设他们有足够的报酬。换句话说,吸引数据科学家的不仅仅是薪水,还有所提供的挑战。因此,如果初创企业能够提供良好的挑战和支持它的环境,他们就能吸引到相当数量的数据科学家。

风投和天使投资者可能希望聘请一名数据科学家(永久职位或顾问职位),从事由风投和投资者的初创企业投资组合提供或确定的数据科学项目。

总之

初创企业应该尽早开始考虑建立数据科学能力。尽早开始的最大好处是收集的数据量,因为它们不会很快出现。早期规划使初创企业能够收集高质量的数据,快速迭代,并比竞争对手更早地提升数据科学学习曲线。

基础设施应该与从用例中获得的价值一起增长。或者更重要的是,实现用例的成本与业务价值同步移动。这将为初创企业采用数据科学创造一个可持续的势头。

初创企业在开始时不需要大量的数据。他们可以开始从他们捕获的任何数据中获得洞察力,并使用这些洞察力来节省资源和关注更重要的领域。

希望博客有用!祝您的数据科学学习之旅愉快,请访问我的其他博客文章LinkedIn 个人资料

特朗普时代的数据科学

原文:https://towardsdatascience.com/data-science-in-the-age-of-trump-a6c91abbf829?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Marching for Science. And Data | AP Photo | April 2017

唐纳德·特朗普(Donald Trump)不是一个技术人员(他不信任个人电脑,也很少使用电子邮件),但他对数字的热爱是出了名的:评级、推文、人群规模。在过去的一年中,我们多次见证了他如何熟练地寻找统计数据来支持他的政策建议,甚至更擅长于寻找统计数据来钻对手立场的空子。有人知道数据的价值,并且不怕使用它。

当我们的生活充斥着各种类型的数据时,当我们所做的一切——从我们的经济吞吐量到我们看的电影,再到我们约会的人——都被衡量、消化、分析和重新激活,以使我们成为更有效率的社会成员时,我们的总统是最终的现代人。像今天大多数年轻人一样,他不知道计算机如何工作,也不知道一个芯片上能装多少个晶体管,但他不在乎。他的注意力集中在手掌中的设备和电视屏幕上的新闻上。作为我们这个时代的产物,他是一个数据消费者,一个数据生产者——一个数据信徒。

这对数据科学来说是个好兆头,是吗?

一方面,特朗普的迅速崛起在很大程度上归功于数据科学。当他的竞选活动开始使用来自剑桥分析公司的数据和算法时,他在总统竞选中获得了提升,这已经得到了很好的记录。在去年年底发表在 Das Magazin 上的一篇文章(并且在主板上以英文再版)中,作者汉尼斯·格拉斯格和米凯尔·克罗格鲁斯对所发生的事情提供了可能是最好的解释。至少,是最多彩的之一。这是一个关于疯狂的学术研究、心理测试和高风险现实生活实验的迷人故事。我们可以从整体上讨论这种提升的规模,但有一点是明确的:在竞选的最后几天,随着佛罗里达州、宾夕法尼亚州或威斯康星州等州出现最后一刻的犹豫不决和极其微弱的竞争,数据科学是唐纳德·特朗普最好的朋友。

另一方面,科学研究在白宫 2018 财年的拟议预算中受到了重大打击:国家卫生研究院削减了 22%,能源部削减了 17%,海洋和大气研究办公室削减了 22%,等等。当然,气候研究是政府的目标,但基础能源科学、纳米科学、核物理、生物医学研究、碳排放监测等也是。就连人口普查局也感受到了压力,开始担心自己没有资源来完成 2020 年的人口普查。美国科学促进会(AAAS)估计,根据特朗普的预算,总研究经费将下降 16.8%,这将“摧毁美国的科技企业”。国会山的乐观主义者指望国会从现在到 10 月控制损失,但是毫无疑问,其中一些削减会持续下去。

那么,当一位总统热爱数据而讨厌科学时,数据科学会发生什么?

回答这个问题还为时过早,但提出这个问题也不算太早。我们已经有了一些答案,特朗普的竞选活动在去年年底撼动了民调行业。投票既是一门艺术,也是一门科学,尤其是在政治领域。景观不断演变,样本量小,投票率难以预测。世界顶级民调机构已经花了几十年时间研究选民——他们的心理、信念、不安全感,是什么让他们过早地支持某个候选人,在最后一刻改变忠诚,或者决定完全跳过投票站。他们知道如何提问,如何理解没有回应。拥有比历史上任何一次选举都多的数据,以及更复杂的方法来理解这些数据,他们以惊人的方式集体错过了目标。发生了什么事?

美国公众意见研究协会(AAPOR)刚刚发布了一份经过充分研究的事后分析。他们能够证实 2016 年全国民调的表现正如人们可能预期的那样好(克林顿预计将赢得 3%的全国选票,最终以 2.1%的优势获胜),但另一方面,一些州级民调很难跟上竞选活动最后一刻的变化,在许多情况下遭受了不完整的统计调整(特别是未能纠正受访者中大学毕业生的过度代表性,而这一群体更倾向于投票给克林顿)。该报告还批评了综合预测模型——那些无处不在的“克林顿有 90%的胜算”估计,在最后几天占据了所有的头条——因为它们传达了不必要的确定性,可能会让选民离开。

总而言之,这一分析是对 2016 年该行业缺点的坦率回顾,但它没有带来悲观和厄运,而是为民调的未来奠定了强大的基础。它基于从美国广播公司新闻到密歇根州立大学的 23 家民调机构的数据,以及来自皮尤研究中心、范德比尔特大学、YouGov 和全国其他顶级智库的分析师的交叉询问。在一个拥挤的领域,相互竞争的组织基本上走到一起,找出他们是如何出错的,并确保下次不会出现系统性的问题。这是一个显著的发展。

我没有天真到相信现在每个人都是内特·西尔弗最好的朋友,但民调机构受到了打击,这种打击迫使他们认真检查自己的手艺,因此这个领域越来越强大。提高标准符合每个人的最佳利益。这意味着收集更好的数据,开发更好的方法。

当然,投票并不完全是数据科学。连大数据都算不上。但是,在这一职业中发生的事情是整个科学领域正在发生的事情的症状:人们意识到,科学的优势和相关性已经被认为是理所当然的,是时候走上街头,旋转离心机,重写教科书了。

说唐纳德·特朗普正在帮助振兴数据科学领域有点不现实,特别是在像环境保护署(EPA)这样的政府机构正在取消科学顾问的时候,但你知道:在一个崇拜数据但对数据持怀疑态度的社会的压力下,以及一个在对自己不利时迅速怀疑数据的人的压力下,数据科学家必须提高他们的游戏水平。科学没有数据不行,数据没有科学也不行。就这么简单,但也这么复杂。

川普时代的数据科学将是一场狂野之旅。

感谢阅读,它意味着世界!请查看美洲杯上的 人与机器 ,了解在完全不同的背景下使用数据科学的观点!

现实世界中的数据科学

原文:https://towardsdatascience.com/data-science-in-the-real-world-e97e2534e43?source=collection_archive---------12-----------------------

阅读数据科学家的实际工作。剧透:一点也不像 kaggle。

帮助学生和爱好者为数据科学家的工作做准备的网络世界是巨大的。访问数据和获取信息的方式多种多样。有人可能会认为,从数据科学中创造价值就像旋转 Jupyter 笔记本并更改几行代码一样简单。你只要上几门网络课程,全是彩虹独角兽。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Boudewijn Huysmans on Unsplash

我在柏林的大众集团创新车 Carmeq 领导数据和人工智能项目。我们通过在自动驾驶汽车、个人辅助和神经网络验证领域的工作来支持大众品牌。这篇文章旨在揭示作为数据科学家工作时可能遇到的机遇和非常规挑战。您将浏览一个真实的用例,对数据科学家的工作有一个更现实的认识。剧透提醒:不全是彩虹和独角兽。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

问题是

每个数据科学项目都始于你想要解决的问题。记住这一点很重要。太多时候,数据科学家四处奔走,寻求用机器学习来解决问题。应该是反过来。

首先是问题,其次是数据科学。

我们的用例始于法律领域的彻底变革。2018 年欧盟(EU)通用数据保护条例【GDPR】的出台,影响的行业不仅仅是网络营销。GDPR 旨在加强欧盟个人的隐私权。这项规定受到隐私倡导者的广泛欢迎,但在业内也同样遭到疏远。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Convert GDPR — www.Convert.com/GDPR/

公司通常很难解释 GDPR 将如何应用于具体的用例,因为还没有任何示范性的规则。本质上,GDPR 要求公司给予个人要求和删除其数据的权利。此外,公司应该只收集特定的、预先确定的用例所需的数据。GDPR 禁止不必要的个人数据囤积。这项立法带来了严重的不确定性,因为执行的实际限制仍有待探索。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This is you, the wandering Data Science unicorn. Photo by Andrea Tummons on Unsplash

现在想象一辆自动驾驶汽车在欧盟的街道上漫游。他们经常用相机记录他们的环境。根据定义,人脸和车牌被视为个人数据,需要得到保护。汽车制造商应该如何在不无意中收集个人面孔和车牌的情况下四处行驶?有些人会说这几乎是不可能的。在这里,我们发现了一个与我们的合作伙伴相关的问题。我们也相信机器学习可以带来解决方案。让我们开发用例。🚙

使用案例

汽车公司需要在不侵犯 GDPR 保护的个人数据权利的情况下收集真实世界的数据。有很多方法可以解决这个问题:只在没有人类或汽车的区域行驶,只在晚上收集数据,完全依赖模拟数据等。这些解决方案都不理想。数据驱动的函数开发需要真实世界的数据,没有约束。

我们可以检测人脸和车牌,并将其匿名。从技术上讲,这将是伪匿名化,但由于缩写,我们将在本文中坚持匿名化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

He is anonymized.

你可能会注意到,我们甚至还没有谈到使用机器学习!我们应该如何解决这个问题完全取决于找到最佳方法,这不一定需要机器学习驱动。

我们理解有必要对图像和视频中的个人进行匿名处理,以保护他们的隐私。在进行一些研究后,我们可以证明深度学习是准确检测图像中对象的最先进方法。接下来让我们定义项目的范围。

主要目标是关注从外部汽车摄像头记录的人脸的匿名化。首先,我们需要检测图像中的人脸。第二,我们会用面具代替脸。还有其他方法可以替代人脸,比如用合成脸,但我们不会在这篇文章中讨论。

定义目标

一个机器学习产品,如果只代表自己,那就没什么价值。通常,您会将您的模型集成到现有的管道中,或者围绕产品构建一个管道。当前的工程框架是构建微服务。微服务只处理它们被设计去做的孤立的任务。它们很容易集成到现有架构中。这样做的标准工具是 Python FlaskDocker containers 。这就是我们想要的。

为了形式化我们的方法,我们保证使用目标和关键结果(okr)。在这篇帖子中,我们了解了使用 OKRs 来指导我们的数据科学项目的好处,因此我们提出了以下目标:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些 okr 是成熟的面部匿名化项目的雄心勃勃的延伸目标。在这篇文章的后面,我们将看到项目的范围仅限于原型,因此 OKRs 也应该改变。

创建项目

作为一名数据科学家,无论你在哪里工作,你总是与其他利益相关者一起在一个团队中工作。在我们开始工作之前,我们需要跨越第一个障碍,创建一个项目推介来说服我们的合作伙伴。我们的目标是让一个数据科学家在这个项目上工作一段时间,以原型解决方案。

管理层非常清楚数据隐私问题。毕竟,他们有责任确保公司遵守法律要求。对图片内容进行匿名处理也有直观的意义!在小范围内,我们使用上面定义的 OKRs 和一个有说服力的故事来说服管理层赞助一个项目的原型解决方案。如果它足够有前景,我们将寻找更多的合作伙伴,并将项目推向下一个阶段。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Steve Johnson on Unsplash

恭喜你!我们得到了一个机器学习项目。现在,让乐趣开始。👩‍🔬

这项工作

深度学习大师吴恩达建议尽快拿出一个工作模型,然后不断重复这个想法,直到目标实现。Andrew 建议在调整现有预训练模型以适应我们的特定用例之前,先对其进行实验。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们看看我们的 okr,我们意识到我们需要采取三个步骤:研究可用的人脸检测模型,收集数据,并比较不同模型的性能。让我们从第一部分开始。

研究可用模型

几十年来,人脸检测一直是计算机视觉研究的重要组成部分。我们的假设是,找到一个好的模型来检测人脸应该很容易。像 OpenCV 这样的开源包从一开始就提供内置的人脸检测模型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Hi there, Adrian! Check out PyImageSearch for more great OpenCV tutorials.

然而,缺点是许多人脸检测模型专注于识别靠近摄像机的人脸。在我们的汽车环境中,当面孔就在摄像机前时,我们再去识别它们已经太晚了!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Too late if you recognize the face just now!

此外,道路上的汽车将在昏暗的光线条件下从不同的姿势记录有遮挡的人脸,如帽子和太阳镜。因此,我们应该将研究重点放在满足这些需求的模型上。

我们分析了最近关于最先进的人脸检测模型的研究论文,并从这些论文中获得了关于其他现有模型的线索。一个特别的模型引起了我们的注意:小脸模型!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

显然,该模型是在一个数据集上训练的,该数据集包括处于不同姿势、光照条件、有遮挡并且聚焦在小的、远处的人脸上的人脸。它看起来非常适合我们的用例。

许可——沉睡的野兽

研究人员很容易做到——发布的数据集或模型的许可证通常可用于科学目的。业余 kagglers 也不必考虑许可证,因为他们只是尝试供个人使用的模型。然而,当你为一家盈利性公司工作时,这种情况就变了。突然之间,很多数据集或者模型都成了禁忌!

作为一个提示,如果你读到一个模型许可,上面写着“不用于商业目的”,那么这个模型对你来说是遥不可及的。你甚至不能测试它的内部原型。让我们忘记这个模型,研究一些预先训练的更有利于行业的模型。

收集数据

在我们确定了合适的模型之后,是时候让它们在真实世界的数据上自由活动了。由于我们在汽车行业工作,我们可以确保获得大量干净和有标签的数据!

别急,菜鸟。如果你不在一家初创公司工作,你的公司很有可能被分成不同的品牌和子公司,这些品牌和子公司的组织结构经常变化。此外,GDPR 使得在不同用例的部门之间共享数据变得更加困难。可想而知,找到合适的数据集等于大海捞针!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Go ahead, find the needle. Photo by Lucas Gallone on Unsplash

所以我们没有真正需要的数据。这对于读者来说可能有些离谱,但没有正确的数据是数据科学项目失败的最常见原因之一,不管你为哪家公司工作。

有一个很棒的公共数据集叫做宽脸。不幸的是,发牌野兽又来了。谷歌发布了其开放图像数据集,其中包含许多带标签的人脸,并可免费用于商业用途。这些图像仍然不是真实世界的数据,我们需要我们的模型在这些数据上表现良好。

因此,我们可以继续的唯一方法是收集我们自己的数据集。幸运的是,我们有设备来收集我们想要做好的真实世界的数据。我们兜一圈,收集一些可控环境下行人的数据。

应用模型

现在我们已经收集了一些数据,是时候试验这些模型了。我们花了大部分时间研究模型和收集数据,所以我们没有足够的时间来标记数据集。我们怎样才能摆脱这种痛苦?我们帮助自己进行近似,例如比较检测到的面部计数和关于哪个模型表现更好的良好直觉。

这应该是一个中间结果。表演显示了获胜者,因此我们收集了另一个更真实的数据集,并创建了一个展示视频作为我们的结果。我们尝试了一些东西,如超参数调整,以消除太多的假阳性,以改善展示,但这个项目的时间紧迫。我们将代码容器化,呈现我们的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们完成了我们的项目!我们展示了人脸检测在汽车工业中保护 GDPR 数据的作用。接下来,我们必须说服其他利益相关者和合作伙伴来赞助我们已经收集了上述 okr 的完整项目。接下来的步骤可能包括车牌检测、超参数调整、准备适当的数据集、收集更多数据等。在这个项目完成后不久,来自 understand.ai 的了不起的人们开源了他们的匿名化代码,所以我们肯定也应该尝试一下。

结论

正如您所看到的,这个 picture pretty 用例的实际工作是混乱的。数据并不总是可用的。使用许可证时要小心。对你的项目的资助可能会被限制在某一点上。优先事项和情况会发生变化。你必须保持灵活性,在给定的时间限制内工作,即使你不喜欢它。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Todd Cravens on Unsplash

通过这篇文章,我希望我可以通过一个小项目来揭示数据科学家在现实世界中的工作。挑战肯定不总是一样的,但我认为不同的公司面临的挑战是相似的。现在,你要做好准备,数据科学世界并不全是彩虹和独角兽。

关键要点

作为一名现实世界的数据科学家,您应该意识到以下挑战:

  • 你需要说服管理层和利益相关者赞助你的新项目
  • 合并现有模型或数据集时,检查许可是否正确
  • 你正在做的大部分工作是研究和数据准备
  • 你需要保持在预定义项目的时间范围内

如果你喜欢这篇文章,请不要忘记展示你的💛并且或者 LinkedIn 上关注我。你也可能喜欢 这些 帖子。如果你认为有什么需要补充的,请评论。干杯!☮️

Datanest 的数据科学实习计划

原文:https://towardsdatascience.com/data-science-internship-program-at-datanest-7826cc6a0ce5?source=collection_archive---------19-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Datanest Logo

在过去的 3 个月里,我一直在印度尼西亚的一家初创公司 Datanest 做数据科学家实习生。简而言之,Datanest 是一家提供数据科学服务的初创公司。该公司为企业提供完整的端到端解决方案,利用人工智能和机器学习算法来利用他们的数据。由于我知道机器学习和人工智能正在获得他们当之无愧的关注,我希望分享我的实习经历-我觉得这非常有益-希望它可以帮助你们塑造自己作为数据科学家的职业生涯。

我将文章分为三个部分:

  1. 选拔过程
  2. 实习经历
  3. 如何应聘【他们在招人!]

我已经总结了每一部分中每一点的所有详细解释,所以如果你是那种不喜欢阅读整篇文章的人,只要阅读我放在每一部分标题下面的要点就可以了。

选拔过程

在选择过程中,你必须做 4 件事:

  1. 将你的简历发送到相应的邮箱
  2. 在线访谈
  3. 判例案件
  4. *案例展示

下面将提供详细的解释。

在线面试

在我寄出简历的第二天,Datanest 打电话给我,我们安排了一次在线面试。在线采访期间,首席执行官 Pak Manggala 和前数据科学家 Kak Aji 向我提问。面试用英语和印尼语进行(但大部分是英语)。这些问题围绕着我的背景,我为什么想进入数据科学,以及我对数据科学本身的了解。这不是一个紧张的问题,所以不要害怕,但我建议你可以准备一下,特别是如果你不习惯用英语说话(你也必须想给你的雇主留下最好的印象,对吗?) ).

测试用例

就像我听说过的任何数据科学实习项目一样,Datanest 也要求其申请人做一个测试案例。在线面试结束后,我收到了一组数据及其字典——解释了每个变量——并被要求从数据中提出见解(以及图表和故事),并以 powerpoint 形式提交。我有大约两周的时间来完成测试(因为有 lebaran 假期)。谈到数据集,它大约有 15,000 行,并且没有经过清理,所以请注意异常值、重复值、缺失值和没有意义的值。仅供参考,我之前没有任何关于数据挖掘的知识,所以我当时根本不知道如何处理这些数据。我使用了数据透视表(感谢 Awe、Ko Efram 和 Tepen ),还使用 Excel 制作了图表。如果你能使用 Tableau,我会推荐你使用它,因为它提供了更好的可视化,但如果你不能,就考虑使用谷歌电子表格或 Excel 来代替。关于见解,我建议你有不明白的地方可以发邮件问 Datanest。我意识到产生见解可能不是每个人都喜欢的,但不要害怕失败,只要有创造力,尽可能多地探索数据(因为这正是我所做的)。

测试用例截止日期后大约两周,结果出来了。

*在我的选择过程中没有案例演示,但将来可能会添加。

实习经历

有 5 个要点让我觉得这可能是我参加过的最好的实习项目:

  1. 我能够在仅仅 3 个月的时间里学到很多东西;不仅是数据科学,还有商业智能技能。
  2. 我也能够向其他部门学习(例如:后端、前端等。).从我的角度来看,对于非计算机专业出身的学生来说,了解这个行业中使用的术语及其工作原理是非常重要的。
  3. 我有机会做任务,并由 CBO 直接监督。这是一个难得的机会,我从商业角度学到了很多东西。
  4. 每月有两次名为 Datanest Talks 的聚会,其主要目的是交流技能以及发展员工技能。
  5. 工作环境很棒。所有的员工都非常能干和随和。你甚至可以向董事会(首席执行官和 CBO)寻求建议,这不仅限于工作方面;例如:我得到了许多关于我主人计划的建议。

**附加信息:我获得了免费参加 2018 年亚洲科技展的机会!我必须告诉你,那感觉很奇妙:)T7

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

First Runner Up of Tech in Asia 2018 ARENA Pitch Battle, congrats!

事不宜迟,下面我来阐述一下我的经历。

数据科学课程

在第一周,我从 Kak Aji 那里学习了 SQL 和 Excel VBA。那时我基本上没有 SQL 和 VBA 的经验,所以我发现这些对提高我的技能很有帮助。如果你像我一样有数学背景,你会非常熟悉 VBA,因为它和 Matlab 非常相似。接着,我和另一名实习生 Kak Rahmat 也帮助做了一些关于数据探索和见解的 Datanest 项目。我们还学习了购物篮分析(MBA)以及如何使用 Excel VBA 制作简单的购物篮分析。在那之后不久,我们被教授了 Python、机器学习和深度学习概念。在我看来,学习 Python 可能需要相当长的时间,所以我建议你通过在线课程来练习,如 UdacityDatacamp 、e dX 等。对于深度学习部分,我们尝试使用 Keras 制作多层感知器(MLP)和卷积神经网络(CNN)。此外,我和 Kak Rahmat 还有机会通过 Udacity 免费课程学习 A/B 测试的概念。我的一些 Python 代码和 A/B 测试概念的文档可以在这里找到(请注意,它们都是印度尼西亚语言)。

商业智能课程

关于 BI(商业智能)部分,我们也有机会尝试许多 BI 工具,如 Metabase、Redash、Google Data Studio、Holistics 和 Tableau。CBO thi baud 指导我们创建由数据中的相关信息组成的仪表板。“相关”这个词在这里相当模糊,尤其是如果你缺乏商业经验的话。我个人认为,培养你的商业意识是一个边做边学的过程。学习它的最好方法是直接处理真实数据,幸运的是,我通过这个实习项目得到了这些数据。但是,请记住,您还必须向业务领域的专家请教,以更好地了解客户希望在仪表板中看到什么。

数据巢会谈

Datanest Talks 是一个 30 分钟的演示和问答节目,每月举行两次。作为一名数据科学家实习生,我真的觉得与其他人交流技能很重要。例如,我参加了我们的项目经理 Kak Bagus 的“Scrum 简介”演示,主要讲授如何管理项目,如何管理人员,以及如何进行良好的沟通。我觉得交流技能对每个人来说都是必不可少的,因为不可否认的是,有时技术人员在交流方面有困难,而非技术人员在理解技术部分方面有困难。因此,Datanest 讲座将是向最优秀者学习的绝佳机会!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Datanest Talks

工作环境

我之前提过,这里的工作环境超级棒。令人欣慰的是,Datanest 的所有人都非常善良,愿意教其他人。我确实意识到的一件事是:如果你在一家大公司工作,你不能轻易让不同部门的其他人来教你,更别说 CBO 或首席执行官了。这就是为什么我认为你可以在 Datanest 获得这个机会是一个巨大的优势,因为他们每个人都是专家,很容易交谈。更不用说,当你和董事会说话时,你甚至感觉不到任何障碍。

如何申请

投简历到 jobs@datanest.io,主题“实习数据科学家”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你没有 SQL 的先验知识,建议你从 Udacity 免费课程 中学习。

最后,我非常感谢 Pak Sapto 推荐我加入 Datanest,感谢 Thibaud、Pak Manggala、Ci Vina、Kak Aji、Kak Fajara、Mas Nabih、Kak Rahmat 以及 Datanest 的其他人(抱歉没有一一提及),感谢你们的好意和在我实习期间愿意教我很多东西。我自豪地说:

每天花 3-4 个小时从我家到办公室,反之亦然,绝对值得!😄

数据科学面试指南

原文:https://towardsdatascience.com/data-science-interview-guide-4ee9f5dc778?source=collection_archive---------0-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学是一个相当大且多样化的领域。因此,做一个万事通真的很难。传统上,数据科学将专注于数学、计算机科学和领域专业知识。虽然我将简要地介绍一些计算机科学的基础知识,但本博客的大部分内容将主要涵盖数学基础知识,人们可能需要温习这些知识(甚至需要上一整门课)。

软件工具

在大多数数据科学工作场所,软件技能是必须的。虽然我知道你们中的大多数人在阅读这篇文章的时候更注重数学,但是要意识到大部分的数据科学(我敢说 80%以上)正在收集、清理和处理数据,使之成为有用的形式。

程序设计语言

Python 和 R 是数据科学领域中最流行的。不过我也接触过 C/C++,Java,Scala。不过,我个人会推荐 Python,因为它有所有的数学库,以及用于查询各种数据库和维护交互式 web UIs 的专用库。常见的 Python 库有 matplotlib、numpy、pandas 和 scikit-learn。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据库管理

常见的情况是,大多数数据科学家属于两个阵营:数学家和数据库架构师。如果你是第二个,博客帮不了你多少(你已经很牛逼了!).如果您是第一类人(像我一样),您可能会觉得编写双重嵌套的 SQL 查询是一场彻头彻尾的噩梦。也就是说,了解一些查询优化的知识很重要(对于 SQL 和 noSQL 系统都是如此)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

地图缩小

考虑到 Apache 项目一直在添加新工具,大数据技术有点难以理解。但是,我会推荐学习 Hadoop 或者 Spark(虽然我个人推荐是 Spark)。两者都使用相似的 Map Reduce 算法(除了 Hadoop 在磁盘上执行,而 Spark 在内存中执行)。Scala、Python 和 Java 中都有常见的 Spark 包装器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

附加说明

有关数据科学应用软件开发的更多信息,这里是我的一些其他博客:

数据收集和清理

既然我们已经涵盖了软件需求,我们将开始平稳过渡到数学领域。围绕这部分流程,一般需要有一些数据收集和后台清理。这可能是收集传感器数据,解析网站或进行调查。收集数据后,需要将其转换成可用的形式(例如,JSON 行文件中的键值存储)。一旦收集了数据并将其转换成可用的格式,就有必要执行一些数据质量检查。一些常见的质量检查如下所述:

NaN 处理

NaN 或“不是数字”是缺失数据的常见占位符。如果特定要素的 nan 数量很少,通常用平均值(整个数据集或窗口)或 0(稀疏数据集)填充 nan 就足够了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据集中的 NaNs 通常表示:
-数据不存在
-数据存在但我们不知道它是什么
根据具体的用例,应该采取相应的措施。

阶级不平衡

特别是对于监督学习模型,类(或目标)的平衡很重要。然而,在欺诈案件中,严重的类别不平衡是非常常见的(例如,只有 2%的数据集是真正的欺诈)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些信息对于确定特征工程、建模和模型评估的适当选择非常重要。如需了解更多信息,请查看我关于极端阶级不平衡下欺诈检测的博客。

单变量分析

当试图寻找方差中的异常值和异常峰值时,单个特征的单变量分析(忽略共变量效应)很重要。常见的单变量分析选择是直方图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

双变量分析

在双变量分析中,每个要素都与数据集中的其他要素进行比较。这包括相关矩阵、协方差矩阵或我个人最喜欢的散布矩阵。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

散点图让我们能够找到隐藏的模式,例如
-应该设计在一起的特征
-可能需要消除以避免多重共线性的特征

多重共线性实际上是线性回归等多个模型的问题,因此需要相应地加以处理。

特征工程

一旦收集、清理和分析了数据,就该开始创建要在模型中使用的要素了。在本节中,我们将探索一些常见的特征工程策略。

转换

有时,该功能本身可能无法提供有用的信息。例如,想象使用互联网使用数据。你会发现 YouTube 用户的流量高达千兆字节,而 Facebook Messenger 用户的流量只有几兆字节。这里最简单的解决方案是取这些值的对数。另一个问题是分类值的使用。虽然分类值在数据科学领域很常见,但要知道计算机只能理解数字。为了使分类值具有数学意义,需要将其转换为数字形式。通常,对于分类值,通常执行一次热编码。在一个热编码中,为每个分类值创建一个新的特征,以表明它是否出现在给定的记录中。下面给出了一个热编码的例子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结合

某些功能本身是多余的,但是组合在一起就很有用。例如,假设您有一个交通密度预测模型,每种类型的汽车都有一列。自然,你不关心车的类型而是车的总数的频率。因此,可以对所有汽车类型进行逐行求和,以创建新的“all_cars”变量。

降维

有时,稀疏维度过多会影响模型的性能。对于这种情况(如通常在图像识别中所做的),使用降维算法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通常用于维数减少的算法是主成分分析或 PCA。学习 PCA 的机制,因为它也是常见面试问题中的一个话题!!!要了解更多信息,请查看迈克尔·加拉尼克关于 PCA 使用 Python 的博客。

特征选择

既然您已经设计了您的特性列表,现在是时候选择将有助于为用例构建最佳模型的特性了。本节解释了常见类别及其子类别。

过滤方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

过滤方法通常用作预处理步骤。特征的选择独立于任何机器学习算法。取而代之的是,特征的选择是基于它们在各种统计测试中与结果变量的相关性的分数。这里的相关性是一个主观术语。这一类别下的常用方法有皮尔逊相关、线性判别分析、方差分析和卡方检验。

包装方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在包装方法中,我们尝试使用特征的子集,并使用它们来训练模型。基于我们从之前的模型中得出的推论,我们决定在您的子集中添加或移除特征。这个问题本质上归结为一个搜索问题。这些方法通常在计算上非常昂贵。这一类别下的常见方法有向前选择、向后消除和递归特征消除。

嵌入式方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

嵌入式方法结合了过滤器和包装器方法的优点。它是由具有内置特征选择方法的算法实现的。套索和脊是常见的。作为参考,以下等式中给出了正则化:

套索:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

山脊:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

话虽如此,了解 LASSO 和 RIDGE 背后的面试技巧是非常重要的。

机器学习模型

既然我们已经有了最佳特性,现在是时候训练我们的实际模型了!机器学习模型分为两个阵营:有监督的和无监督的。监督学习是标签可用的时候。无监督学习是标签不可用的时候。明白了吗?监督标签!双关语。也就是说,不要混淆监督学习和非监督学习的区别!!!这个错误足以让面试官取消面试。此外,人们犯的另一个 noob 错误是在运行模型之前没有规范化特征。虽然一些模型对这个问题有抵抗力,但是很多模型(如线性回归)对缩放非常敏感。因此。经验法则。在使用前,一定要将功能正常化!!!

线性和逻辑回归

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

线性和逻辑回归是最基本和最常用的机器学习算法。在进行任何分析之前确保首先进行线性/逻辑回归作为基准!人们在面试中常犯的一个错误是从神经网络这样更复杂的模型开始分析。毫无疑问,神经网络是高度精确的。然而,基准很重要。如果你的简单回归模型已经有 98%的准确率,并且非常接近过度拟合,那么得到一个更复杂的模型就不是明智之举。也就是说,线性回归用于连续目标,而逻辑回归用于二元目标(主要是因为 sigmoid 曲线迫使特征输入朝向 0 或 1)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我建议学习逻辑回归和线性回归的推导(单变量和多变量)。除了为面试做准备,线性回归模型还被用作一系列其他机器学习模型的基础。因此,这是一项长期投资。

决策树和随机森林

比线性回归模型稍微复杂一点的模型是决策树。决策树算法基于信息增益在不同的特征处分裂,直到它命中纯叶(即,只有 1 个标签的一组记录)。决策树可以在一定数量的分裂后停止,以阻止它获得纯叶子(修复过度拟合问题的常用策略)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为分裂树而计算的信息增益是重要的。**常见面试问题!确保您知道信息增益是如何计算的!!!**常见的信息增益计算函数有基尼和熵。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在上面的曲线中重要的是,与基尼系数相比,熵给出了更高的信息增益值,因此导致了更多的分裂。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当决策树不够复杂时,通常会使用随机森林(只不过是在数据子集上生长多个决策树,并进行最终多数投票)。如果没有正确确定树的数量,随机森林算法可能会过度适应。关于决策树、随机森林和基于树的集成模型的更多信息,请查看我的另一个博客:关于 Scikit-Learn 上的决策树和集成的研究

k 均值和 KNN

K-Means 是一种无监督的学习模型,它将数据点分类到聚类中。提供了聚类的数量,使得模型移动质心,直到它迭代地找到最佳聚类中心。KNN 是一样的,除了它是一个监督模型,集群充当标签。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用肘形曲线来确定聚类的数量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

聚类的数量可能容易找到,也可能不容易找到(特别是如果曲线上没有明显的扭结)。此外,要认识到 K-Means 算法是局部优化,而不是全局优化。这意味着您的集群将依赖于您的初始化值。最常见的初始化值是在 K-Means++中计算的,其中初始值尽可能彼此远离。关于 K-Means 和其他形式的无监督学习算法的更多细节,请查看我的另一个博客:[基于聚类的无监督学习](http://Clustering Based Unsupervised Learning)

神经网络

神经网络是这些天每个人都在关注的热门算法之一。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虽然我不可能在这个博客上涵盖复杂的细节,但了解基本机制以及反向传播和消失梯度的概念是很重要的。认识到神经网络本质上是一个黑盒也很重要。如果案例研究要求您构建一个解释模型,要么选择一个不同的模型,要么准备好解释您将如何发现权重对最终结果的影响(例如,在图像识别过程中隐藏层的可视化)。

集合模型

最后,单一模型可能无法准确确定目标。某些功能需要特殊型号。对于这种情况,使用多个模型的集合。下面给出一个例子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里,模型是分层或堆叠的。每一层的输出是下一层的输入。

模型评估

分类分数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评估模型性能的一种最常见的方法是通过计算记录被准确预测的记录的百分比。

学习曲线

学习曲线也是评估模型的常用方法。在这里,我们要看看我们的模型是太复杂还是不够复杂。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果模型不够复杂(例如,当模式不是线性时,我们决定使用线性回归),我们最终会得到高偏差和低方差。当我们的模型太复杂时(例如,我们决定对一个简单的问题使用深度神经网络),我们最终会得到低偏差和高方差。高方差,因为结果会随着我们对训练数据的随机化而变化(即模型不是很稳定)。不要在面试中混淆偏倚和方差的区别!!!现在,为了确定模型的复杂性,我们使用如下所示的学习曲线:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在学习曲线上,我们改变 x 轴上的训练测试分割,并计算训练和验证数据集上模型的准确性。如果它们之间的差距太大,就太复杂了(即过拟合)。如果两条曲线都没有达到预期的精度,并且曲线之间的差距过小,则数据集有很大偏差。

皇家对空观察队

当处理具有严重类别不平衡的欺诈数据集时,分类分数没有太大意义。相反,接收机工作特性或 ROC 曲线提供了一个更好的选择。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

45 度线是随机线,其中曲线下面积或 AUC 是 0.5。曲线离这条线越远,AUC 越高,模型越好。一个模型能得到的最高 AUC 是 1,其中曲线形成一个直角三角形。ROC 曲线也可以帮助调试模型。例如,如果曲线的左下角更接近随机线,则暗示模型在 Y=0 处分类错误。然而,如果右上角是随机的,则意味着误差发生在 Y=1 处。此外,如果曲线上有尖峰(而不是平滑的),这意味着模型不稳定。对付诈骗模特,ROC 是你最好的朋友。欲了解更多详情,请阅读接收器工作特性曲线解密(Python 语言)

附加材料

[## 如何构建数据科学产品组合

数据科学怎么找工作?了解足够的统计,机器学习,编程等,能够得到一个…

towardsdatascience.com](/how-to-build-a-data-science-portfolio-5f566517c79c) [## 斯坦福机器学习| Coursera

关于这门课程:机器学习是让计算机在没有明确编程的情况下行动的科学。在…

www.coursera.org](https://www.coursera.org/learn/machine-learning) [## 华盛顿大学机器学习专业| Coursera

这种专业化从领先的研究人员在华盛顿大学向您介绍了令人兴奋的…

www.coursera.org](https://www.coursera.org/specializations/machine-learning) [## 深度学习专业化| Coursera

来自 deeplearning.ai 的深度学习如果你想打入 ai,这个专精会帮你做到。深…

www.coursera.org](https://www.coursera.org/specializations/deep-learning)

数据科学正在颠覆我们看待数据的方式

原文:https://towardsdatascience.com/data-science-is-disrupting-the-way-we-look-at-data-223dd1f0122e?source=collection_archive---------10-----------------------

以及如何制作自己的机器学习分类器来分析数据

哪种动物有长长的尾巴、尖尖的耳朵和胡须,是常见的家庭宠物?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by MIKHAIL VASILYEV on Unsplash

如果你猜是一只猫,你就猜对了!

现在假设你是一名汽车销售员,销售一辆零售价约为 40,000 美元的货车。一个 22 岁年薪 5 万美元的男人会买你的车吗?

这个场景有太多的变数,让任何人都很难回答!然而,这在数据科学中是可能的。

什么是数据科学,它能提供什么帮助?

数据科学是一个新兴领域,数据科学家使用算法从海量数据中提取洞察力。

当我让你辨认猫的时候,应该不会太难,因为你一生中见过很多猫。你可以利用你对猫的特征的先验知识来识别这种动物。类似地,如果你有很多数据(性别、年龄、薪水等等)。)对于已经购买和尚未购买你的汽车的人,你应该能够预测是否有人会购买你的汽车。

这可能仍然是一个很难完成的任务。一个人如何浏览所有这些数据,解读这些数据,并得出结论?这就是机器学习发挥作用的时候了。一个机器学习分类器可以通过将他们的信息与成百上千其他可能或可能没有购买汽车的人的信息进行比较,来预测某人是否会购买你的汽车。

现在这听起来可能很复杂,但是如果你想进一步理解它或者你想制作你自己的分类器,我将分解这是如何完成的!

如何制作机器学习分类器(Python)

GitHub 资源库:

https://github . com/ve dant-Gupta 523/randomforestclassification

导入库和数据集

为了开始解决这个问题,我们从导入我们从消费者那里收集的信息开始:

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd# Importing the dataset
dataset = pd.read_csv('Customer_Information.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Left: Importing Libraries and Dataset, Right: Customer_Information.csv

我们导入了 3 个库,这将有助于我们的 ML 模型。我们还导入了数据集“Customer_Information.csv”。这个集合包含了 400 个人的信息,他们的性别,年龄,年薪,以及他们是否买了这辆车。

x 和 y 分别代表自变量和因变量。因变量(y)是我们试图弄清楚的,并受自变量(X)的影响。在我们的案例中,因变量是客户是否购买了汽车。自变量是年龄和估计工资。" dataset.iloc[]。values”是从数据集中选择我们想要的行和列。对于因变量,我们选择了第 5 列中的所有内容(ID: 4)。对于自变量,我们从第 3 列和第 4 列(IDs 2 和 3)获取所有数据。

将数据集分成训练集和测试集

在学校,老师给我们布置家庭作业,从中我们学习各种概念。过了一段时间,我们会接受一次测试,看看我们是否能运用从作业中学到的知识来解决相似但不同的问题。当我们训练我们的机器学习分类器来确定谁会购买我们的汽车时,我们遵循类似的过程。我们将数据集分成两个不同的集合,一个训练集和一个测试集。该模型使用训练集来查找因变量和自变量之间的相关性。然后,我们给它测试集(没有因变量),它使用它学到的知识对因变量进行预测。之后,我们可以比较结果,看看我们的模型有多精确。

# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

在上面的代码片段中,我们使用 sklearn.cross_validation 库中的 train_test_split 模块来划分数据集。我们的数据集存储在 4 个变量中:X_train(训练自变量)、y_train(训练因变量)、X_test(测试自变量)和 y_test(测试自变量的实际答案)。我们的完整数据集的 25%被放入我们的测试集(test_size = 0.25)。

特征缩放

创建机器学习模型时,并不总是需要进行特征缩放,但在这种情况下却是如此。如果我们把我们的数字变量(如年龄,工资等。)在我们的分类器算法中,我们的结果会变得有偏差。尽管年龄和薪水代表了两种完全不同的东西,但该算法显然会将它们视为数字。当它将值 22(年龄)和 50,000(薪水)输入到公式中时,它不会考虑不同的权重。可以把它想象成在不转换单位的情况下比较毫米和千米。

特征缩放的目的是获取每个数值,并将其放在相同的比例上。这样,算法可以公平地使用这些值。

# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

为了做到这一点,我们使用 sklearn.preprocessing 库中的 StandardScaler 模块来缩放我们所有的独立变量。

使分类器适合我们的训练集并进行预测

终于到了开始训练我们的算法和预测我们的训练集结果的时候了!

# Fitting Random Forest to the Training set
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier(n_estimators = 10, criterion = "entropy", random_state = 0)
classifier.fit(X_train, y_train)# Predicting the Test set results
y_pred = classifier.predict(X_test)

虽然有许多不同的分类器可用,但对于这个问题,我选择了随机森林分类器。我首先从 sklearn 库中导入 RandomForestClassifier 模块。我继续使它适应(训练)我们的训练集。

在代码片段的第二部分,我创建了一个新变量 y_pred。y_pred 是分类器对测试集(X_test)所做的预测。

评估我们的结果

要知道没有一个机器学习模型是 100%准确的。如果你的模型显示有完美的准确性,这可能是由于过度拟合。过度拟合意味着您的模型严格遵循它在训练集中找到的精确规则。例如,如果您试图预测一个年薪 35,000 美元的 40 岁男子是否购买了一辆汽车,而分类器没有在这个确切的数据点上进行训练,它可能会默认为他们没有购买,即使这可能不准确。

检查有多少预测是正确/错误的快速方法是使用混淆矩阵:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Confusion Matrix outline

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

迷茫?不要!混淆矩阵的结果分为四个部分,如第一幅图所示。左上角的数字将代表我们预测有人会买车的次数,而他们确实买了。右上角的数字将代表我们预测有人会买车,但没有买车的次数。对于底部的 2 个数字,情况正好相反。需要注意的重要一点是,左上和右下的总和代表我们答对了多少题!

让我们来看看这个问题的可能混淆矩阵:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Confusion Matrix

我们的混淆矩阵告诉我们,100 个测试预测中有 92 个是正确的(63 + 29)。

可视化结果

最后一步是在图上可视化我们的分类器的结果!

# Visualising the Training set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Random Forest (Training set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()# Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Random Forest (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

使用 matplotlib 库,我们可以创建漂亮的图表来可视化模型在训练期间建立的相关性以及预测遵循这些相关性的程度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Left: The rules the Random Forest Classifier identified with training, Right: Results after applying the rule to the test set

让我们来分解一下我们在上面的图表中看到的内容。每个红点代表没有买车的人,每个绿点代表买车的人。如果一个点落在红色区域内,分类器将认为该人没有购买汽车,反之亦然。

我们注意到的总体趋势是,收入较高的老年人购买这款车的可能性更大。对于那些试图改善销售/营销策略的人来说,这可能是非常有价值的信息!

关键要点

数据科学将极大地提高我们决策的效率和准确性,并允许我们进行人类无法单独完成的分析。未来,每当你面临一个与数据相关的难题时,你都可以创建自己方便的机器学习模型,帮助你做出可能的最佳决策;)

“信息是 21 世纪的石油,分析是内燃机”

—埃里克·施密特

数据科学不在 SOL 列表中。我还有资格做公关吗?

原文:https://towardsdatascience.com/data-science-is-not-in-the-sol-list-will-i-still-be-eligible-for-pr-cb15e21b2892?source=collection_archive---------0-----------------------

这里有一个简单的问题——你选择了数据科学,你对在澳大利亚攻读硕士学位感到兴奋。然而,你的最终目标是获得公关。但是你听说数据科学不在技能职业列表(SOL)中。可恶!你的朋友告诉你,你不能用一份已列出的工作申请 PR。你去 Quora、facebook、whatsapp,会听到 100 种不同的观点——有些人说你不能申请公关,有些人建议选择不同的工作,还有一些人说这只是有点困难。然后你会发现一丝希望,相信数据科学将很快被添加到 SOL 列表中,因为来吧,它的需求如此之大!但最终,你只是简单地感到困惑。

我希望在这篇文章结束的时候,你会再困惑 100 次——并最终对整个过程有一个正确的概述,关于一份非技能清单的工作。

但在此之前,我们必须一劳永逸地解决一个问题。

首先,为了申请永久居留,有必要有一份工作吗?

答案是响亮的是。这是强制性的,你有一个公关工作。事实上,申请公关的第一步是从名单中提名一个职业!这里有一张来自移民和边境保护部(DIBP)网站的截图,上面提到了技术独立签证的要求。

✪注意:签证子类 189 是 PR 的专有名称。还有一个国家赞助的签证子类 190。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是另一个来自 DIBP 的—

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着时间的推移,这一点会变得更加明显。但在此之前,这份中长期战略技能清单到底是什么?!

注:自 2017 年 4 月 19 日’中长期战略技能清单 ’ ( MLTSSL )取代之前的’技能职业清单(SOL)。然而,在本文中,我将继续使用术语 SOL。如果你在任何地方看到这个长短语,只要记住他们指的是被称为 SOL 的东西。

✪ ✪:当我写这篇文章的时候,DIBP 已经更新了它在 Visa 189 上的页面,新的页面更加清晰。这是一个例子—

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

既然我们已经解决了这个问题——首先,让我们从 PR 流程的概述开始,因为它与那些没有 SOL 列出的工作相关——我们将在后面详细检查每个步骤。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

步骤 1-提名工作

让我们从第一步开始——从 SOL 列表中提名一份工作。目前,没有“数据分析师”或“数据科学家”的职位,但有一些相近的职位,如“数据库管理员”、“分析程序员”等。

这让我们想到一个重要的问题——

问题:既然 SOL 列表中没有数据科学工作,我如何提名一份工作?这是否意味着我将不得不找一份业务分析师或分析程序员的工作,而在获得 PR 之前不能从事数据科学家的工作?

回答:

是的,这是一种选择。你可以攻读数据分析硕士学位,然后开始你的商业分析师生涯——仅仅是为了公关。然而,还有另一个选择。你实际上不需要有确切的工作——你的工作可以是***‘与你提名的*** 密切相关’。这是个好消息!

查看 ACS 网站上的截图。(我们将讨论谁是 ACS?后来)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

✪注意:ANZSCO 代码仅仅意味着你的职位。比如“261311 —分析师程序员”或者“261111 ICT 商业分析师”。

现在一个显而易见的问题来了——“密切相关”是什么意思?谁来决定我的主人是不是近亲?好吧,继续读。我们将在技能评估的第三阶段解决这个问题。

步骤 2 —技能评估

一旦你从 SOL 中提名了一份你认为最接近你的资格和就业的工作,你将把你所有的文件送去进行技能评估。

计算机科学、IT、分析相关领域的评估机构是澳大利亚计算机学会 ( ACS )。一旦你最终确定并提名了一个职业,你就可以将你的申请提交给 ACS——并希望他们将结果确定为“密切相关”。

最终目标是在评估结束时,你会被贴上“合适”的标签——记住这个词,因为我们会多次提到它。

重要的是要知道 ACS 将评估两件事—

  1. 你的学历(你的硕士学位,包括每个单元)
  2. 你的工作经历

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

: ICT 就是“信息和通信技术”的意思,有点像。

第一步——确定你的资格符合哪个 AQF 等级。你会得到一个介于“1 级”和“10 级”之间的结果。我们稍后将探讨这一点。

第二步——分析你所有的课程和单元。您的评估结果将是以下之一——ICT 专业、ICT 次要或不充分。再一次,稍后会详细介绍。

第三步——确定你的单位中有多少与你提名的工作相关。

第五步——评估你的工作经历。

在我们开始详细探讨这四个步骤之前,这将是一个很好的休息时间,来谈谈“适合性标准”——具体来说,ACS 对合适的 ICT 技能评估结果的标准要求的总结

还记得我们上面说过——被贴上“合适”的标签是公关流程第二步的全部目标。

获得“合适的 ICT 技能”评估的要求—

这是 ACS 给出的指导方针的截图。我们将在下面详细分析它。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们来分解一下——非常重要!

●你应该先完成澳大利亚学士或硕士学位——也就是说,你不能在继续攻读的时候申请。

●记得在技能评估的第二步中,在分析你的单位后,结果会以三个选项给出吗?(主要、次要或未列出)嗯,您必须接受结果为“主要”。你怎么知道的?别担心,我们会搞定的。

●你应该有 1 年的相关工作经验,或者你可以完成 ACS 专业年计划(这将花费你大约 60 万卢比)

●请记住,你的工作经历应该是在完成硕士学位的 之后的

再说一次,有一个非常清晰、明确的准则来决定你的工作经验是否相关。我们很快就会谈到这一点。

好了,现在我们已经理解了适合性标准的要求,让我们回到理解技能评估过程中的每个阶段。

第一阶段——AQF 可比性

所以在澳洲,有一种叫做 AQF 水平的东西——你教育的每一部分都有一个特定的水平。我会把这个图表贴出来,我们不需要被这个困扰,但是如果需要的话,你可以来参考这个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

既然我们在 9 级,我们应该担心这个。继续前进。

第二阶段——从你的老师那里评估每个单元

这很重要,所以请对我耐心点。

决定你的资格是否被视为主要、次要或未列出的指导方针—

首先是截图,然后我们会进一步详述。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简单来说—

如果你的课程没有先修课程(ICT 专业学士学位——如 IT 专业、计算机科学等),那么,

●你至少要有 2 个学期或 1 年的全日制 ICT 内容(什么 ICT 内容?我们会谈到它)

●总体而言,在两年制硕士课程中,50%的单元必须是 ICT。

●然而,如果你的课程确实有这样的先决条件,你的 33%的单元必须有 ICT 内容。

如果你满足这些,你将被归类为拥有 ICT 专业。但这还不够。你还需要让自己的资历与你提名的工作“密切相关”。

✪注意——除了“专业”之外,要“与你的工作密切相关”, 65%的单元必须与你第一步提名的职业相关!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在一个大问题来了—

阶段 3 —这些“相关单元”是什么?

这些相关单位都是针对具体工作的,这就是为什么仔细研究哪份工作最适合你的资历和工作经验是很重要的。

✪注意:假设你通过提名一个职位来提交申请——在评估结束后,他们认为你的资格更适合另一个职位(从而增加你获得 PR 的机会),你可以支付 200 美元的费用,先改变你提名的职位。然而,在整个评估过程(大约持续 12 周)完成之前,ACS 无法指导您的资格是否合适。

回到正题,有一个东西叫做 ANSZCO 代码,它非常清楚地概述了与你提名的工作“密切相关”的单位和工作经验。我将在下面贴几张截图,并在底部附上手册的链接。

了解 ANSZCO 代码中的单元是非常有帮助的,这样你就会在你的硕士课程中选择那些特定的选修课!

首先,这些是我们作为数据科学家可以提名的工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以下是这些工作所需的课程—

1.ICT 业务分析师

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

✪:在你的课程中有足够的核心 ICT 课程是很重要的。多少钱?我不确定。

你可以在我下面附上的 pdf 文件(ANZSCO 代码)中查看其他工作的必修课程。

附加信息—

  1. 他们还接受微软和思科的认证,但仅限微软认证解决方案专家和微软认证解决方案开发人员。
  2. 如果你有这些供应商证书,你将被视为 AQF 五级 ICT 专业。(文凭级别)。
  3. 关于供应商认证可能还有其他条件,我建议您参考手册(第 10 页)。

我们到达了“资格评估”的末尾,这结束了第三阶段。现在,让我们继续工作经历。

第 4 阶段—相关工作经验

这一步也相当复杂,我不能公平对待所有的读者,因为他们来自不同的背景和不同的经验水平。我只是简单地提一下重点,你可以参考手册了解更多细节。

注意 : 只有你在硕士毕业后的工作经验才会被算作技术就业,并用于移民目的。

好吧,让我们再看一遍这张截图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与你的课程单元相似,你推荐信中 65%的“职责和责任”必须与你提名的工作相关。

但是后来,

我如何知道哪些“职责和责任”与提名中的工作密切相关?

让我们回到 ANZSCO 代码信息— 以及所需的 ICT 课程单元,这也提供了需要在特定工作的推荐信中提及的必要职责和责任。

我就贴一个例子。剩下的你可以自己看。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后,这里有一封就业推荐信的样本。(同样,还有许多其他你应该注意的事情和条件可能适用于你个人——因此,我强烈建议你阅读手册第 11 页)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后一个问题:没有相关工作经验怎么办?有替代方案吗?

是啊!

幸运的是, ACS 还提供了职业年项目—

●这个为期一年的培训项目可以弥补任何工作经验的不足

●大约花费 60-70 万卢比

●在技术职业列表中,你还会因为完成这个项目而获得 5 点公关积分。

更多详情和资格标准请点击此处—https://www . ACS . org . au/CPD-education/professional-year-program . html

好吧,就这样。唷!

当然,还有十亿件其他的小事——但是作为没有工作的数据科学家,在开始我们的项目之前,这些是我们应该知道的事情——这样我们就可以仔细选择我们的选修课。

干杯!

参考文献—

  1. 189 签证 DIBP 页及其要求——【https://www.border.gov.au/Trav/Visa-1/189-#tab-content-1】T4
  2. 申请人技能评估指南 ( 手册!)—http://more . ACS . org . au/_ _ data/assets/pdf _ file/0020/7319/Skills-Assessment-Guidelines-for-applicants . pdf
  3. ACS 合适的 ICT 技能评估结果的标准要求概要http://more . ACS . org . au/_ _ data/assets/pdf _ file/0016/7324/Summary-of-Criteria-2014 . pdf
  4. ANZSCO 代码描述——http://more . ACS . org . au/_ _ data/assets/pdf _ file/0018/7641/ANZ SCO-Descriptions-2015 . pdf
  5. 关于技能评估和评估机构的 DIBP 页面https://www . border . gov . au/Trav/Work/Work/技能评估和评估机构
  6. 中长期战略技能清单(MLTSSL)——https://www . border . gov . au/Trav/Work/Work/Skills-assessment-and-assessing-authorities/skilled-occupations-lists/MLTSSL

面向计算机科学学生、毕业生和软件工程师的数据科学工作

原文:https://towardsdatascience.com/data-science-jobs-for-computer-science-students-grads-and-software-engineers-2fc49a85489a?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学正在迅速从软件工程的一种专门分支扩展到它自己的学科。作为一门学科,它大量利用计算机科学、统计学和数学来实现其主要目标。不幸的是,对于招聘经理来说,这种广度在典型的本科甚至研究生学位中并没有体现出来。尽管大学正慢慢开始引入数据科学课程来解决这一技能短缺问题,但今天的数据科学家主要是那些通过大量自学来弥补正规教育不足的人。

对于自学者来说,好消息是随着数据科学的成熟和组织发展他们的数据科学团队和能力,专业化的机会增加了。这意味着,尽管数据科学团队的成员以前被要求是在数据科学的所有可能领域拥有广泛知识的“独角兽”,但今天许多较大的团队都有专攻某个领域的成员。作为一名计算机科学毕业生或工程师,你在这一领域大有可为。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据监管的机遇

作为一个相对新兴的领域,“数据科学”仍然没有统一的定义,但所有数据科学家都关注两个非常广泛且不同的领域:数据分析和数据管理。分析是从数据中提取有用的知识。这可能是人们最常与数据科学家联系在一起的广泛活动:数据科学家是处理数字并从数据中产生可操作的见解和预测模型的人。但在数据科学的讨论中,硬币的另一面经常被忽略:沿途某处的某人必须找出如何有效和高效地收集、管理、保存、记录、转换、更改和访问数据,以使分析成为可能。在学术界,这些活动通常被称为数据管理,在这一领域能力不强的专业数据科学团队做不了多少事情。

事实上,在一些组织中,相对于监管,历史上一直过度强调分析,这对 2017 年的计算机科学学生、毕业生和工程师来说是个好消息。许多博士统计学家和物理学家因其在分析方面的技能被数据科学团队聘用,而这些团队通常严重缺乏数据监管能力。

在专业领域,数据监管专家的常见头衔包括数据工程师数据开发人员商业智能开发人员、大数据专家或有时只是数据科学家。有计算机科学背景的人在这种职业道路上有很好的开端。物理学家或统计学家可能没有在数据结构或模式或实体关系模型方面受过广泛的培训,但这些都是计算机科学教育的基石。有了这些知识,你就可以直接学习现代科技公司用于数据监管的技术。

作为一名数据工程师,您至少应该努力深入了解以下内容:

  • 关系模型及其各种实现(SQL Server、Oracle 数据库、MySQL 等。).
  • NoSQL 数据库包括:
  • 根据db-engines.com的说法,文档存储模型,尤其是 MongoDB,是撰写本文时最流行的 NoSQL 数据库。
  • 像 Cassandra 这样的宽列数据库。
  • 像 Redis 这样的键值存储。
  • 尽可能多的处理其他 NoSQL 模型:这篇维基百科文章是一个很好的起点。
  • MapReduce 编程模型及其在 Apache Hadoop 中的实现。
  • 云计算平台,比如亚马逊网络服务和微软 Azure。

当然,在我点击“发布”这个帖子的时候,上面提到的具体技术可能会过时,但是概念和想法不会。数据监管专家是数据创建、捕获、建模、管理、文档编制、存储、转换和检索方面的专家,需要熟悉成功的组织用来完成这些任务的所有工具。受过数据结构和计算机科学方面的正规教育和培训的人很有可能成为这些领域的专家,并在数据科学团队中领导数据监管活动。

数据分析中的机会

同样,分析可能是大多数人与术语数据科学家联系最紧密的领域,与统计学专业或在高度量化领域拥有博士学位的人相比,学习分析需要 cs 专业的正规教育填补更多空白。对计算机科学专业的学生来说,好消息是,与物理学家或纯粹的数学家相比,你将更容易开始使用数据分析的工具:作为一名程序员,从示例和文档中学习如何使用新工具是你的第二天性。

记住这一点,您也可以从熟悉这些工具开始。我认识的大多数数据科学家都广泛使用 R 和 Python,有些人更喜欢其中一种。如果你已经知道这些语言中的一种,那么这种语言可能是最好的起点。如果你打算使用 R,我所知道的在数据科学中使用 R 的最佳环境是 RStudio ,它是一个 IDE,对交互式编程、编写脚本、制作图形和许多其他分析目标都有很大的支持。如果你想使用 Python,你要安装很多库,把它变成一种数据科学语言;幸运的是,Continuum Analytics 的人们已经构建了一个名为 Anaconda 的 Python 发行版,它附带了用于进行数据科学的主要统计计算库,以及一个名为 Jupyter Notebook 的伟大工具,它以可读的交互式笔记本格式促进计算。顺便提一下,Anaconda 和 Jupyter 笔记本是我们在 BrainStation 即将到来的数据科学课程中使用的主要工具。

从这里开始,一个自然的地方是学习如何使用机器学习来建立一个预测模型。在这里,你可以为不同层次的抽象和理解而努力。为了深入理解各种模型和算法是如何工作的,你需要至少相当于几门本科数学课程的内容:至少两个学期的微积分,至少一个学期的线性代数,可能还有一门概率课程。数据科学团队的成员应该至少具备这种理解水平。也就是说,在 R 中执行线性回归只需要一行代码,使用比这更复杂的模型就行了。从每种算法如何工作的特定细节中抽象出来,有一个更高层次的范式来管理如何用机器学习来构建模型:模型被训练、测试、调整、验证和部署,数据科学家应该理解这个过程中的每一步。有可能实现对如何应用机器学习原理和技术来构建预测模型的高级理解,而不必理解每个特定算法的特定细节。一个很好的起点是 Max Kuhn 的书应用预测建模,它从试图从真实世界的数据中做出最佳预测的角度介绍了机器学习技术,而不是试图理解任何特定算法或模型的微小细节。参加和研究 Kaggle 竞赛也是一个简单地尝试并开始模型制作的好方法。

程序员的机会

工具正在被构建,以将极其复杂的机器学习能力带到不一定手头有博士数学家团队的组织。像 Kerash2o.ai 这样的工具包已经在制作了,这样任何有一点编码经验的人都可以轻松地构建生产质量的机器学习应用程序。这为程序员创造了巨大的机会:未来的挑战将不是构建模型,而是将这些现成的工具包集成到他们组织的生产堆栈中,这需要计算机科学知识和编程经验。出于这个原因,对于工程师和程序员来说,现在是开始学习机器学习和数据科学的最佳时机。

**想了解更多关于数据科学的知识吗?**看看我们即将推出的兼职数据科学课程

数据科学领导者:你们人太多了

原文:https://towardsdatascience.com/data-science-leaders-there-are-too-many-of-you-37bff8088505?source=collection_archive---------1-----------------------

Here’s the audio version of the article, read for you by the author.

数据科学有问题。几个问题,其实不过从头开始,先说一个:领导。

今天,我在数据科学(横跨机器学习人工智能统计数据汇总和可视化的学科)领导人峰会上发言。当我看着领导当今数据科学团队的最聪明的开拓者的脸的海洋时,我发现自己在想,“你们太多了。”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Nate Silver of FiveThirtyEight speaking to the same audience of data science leaders

想想这是怎么一回事!在峰会上问任何人,他们可能会告诉你,如果你认为人才短缺很糟糕,那么数据科学领域的领导人才短缺就更糟糕了。

今天的大多数数据科学领导者都是我喜欢称之为“超越数据科学家”的人那些追求科学、工程或统计方面正规训练的人,然后,奇迹般地,有一天醒来发现他们更感兴趣的是让数据变得有用,而不是为了追求数学的复杂性。

数据科学的领导者克服了所有的困难。

数据科学领导者:你们太多了,因为你们的存在是排除万难的。因为几乎没有做什么来训练你,你比我们应得的要多。这个幸福的意外是怎么发生的?没有人教你如何做你所做的,所以你的存在是我们的幸运。你的计划是希望在研究了十几年的方程式后,你就能知道如何领导了吗?如何做出好的决策?正如我的 SRE 同事会说的,“希望不是策略。”

你应该有更多的人,但是计划是什么?

如果你喜欢定理,这里有一个:你的时间是有限的,所以如果你用它来学习费曼德费内蒂,你就不会花同样多的时间来培养其他技能。我们不能指望数据科学家超越并立即知道如何成为优秀的领导者和决策者。谁会教他们这些?你不会通过整天写代码或证明定理来学习它。

相反,要成为优秀的领导者和决策者,他们必须谦逊地认识到自己萎缩肌肉中的弱点,并勤奋地掌握第二项技能。有时他们会带着很多伤痕艰难地学习。作为一个一开始就认为概率论宇宙中最热门的东西的人,我非常清楚这有多痛苦。

有个态度问题。我们真的重视这些技能吗?

如果你的经历和我一样,你可能已经在一个亲数学的亚文化中长大,在这个亚文化中,对任何闻起来像“软”技能的东西表现出蔑视是一种时尚。这都是关于你是多么热衷于熬夜证明一些定理或用你的第六语言编码。当你被夹在那种视角中间时,你可能不会想到你应该重视领导力(或者沟通、商业意识、创造力和同理心等)……如果你变得软弱,你的同学会尊重你吗?

你称之为“软”技能。我称它们为“最难自动化的”

部分解决方案是改变时尚,让这些技能成为像原始数据科学这样有吸引力的领域中不可或缺的一部分。如果昂首阔步必须是年轻人的一部分,那么让我们至少让他们相信,最高的荣誉是同时拥有两种肌肉。毕竟是事实。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

When it comes to ensuring that data science teams are lead effectively, are we relying on luck or training?

门槛很高,并不是每个有工作的人都能真正做到。

数据科学领域的领导力不仅仅是一学期的数字。是它自己的怪兽。你不仅必须对决策和信息如何推动行动有深刻的理解,还需要敏锐的嗅觉来发现如何有效地影响特定业务领域的细微差别,如果这还不够,你还需要了解各种技能的生态系统,这些技能需要汇集在一起才能使大规模数据科学项目取得成功。而这只是进入这个游戏的最低要求。

这是一个相当高的门槛,并不是每个领导数据科学团队的人都能达到。雇主们,你怎么知道你是否真的在雇佣一个人来领导你的数据团队呢?如果您的团队已经有了糟糕的数据科学领导,该怎么办?你怎么知道的?几乎没有任何关于这个角色的智慧可供你依靠。你能问谁呢?

数据科学是泡沫吗?

当今世界正在产生前所未有的数据。然而,有时我会被问到类似这样的问题, “数据科学是泡沫吗?” 我希望我能回答,坚定而有说服力,“肯定不会!”事实是,这要看情况。可悲的是,当我与各行各业的人聊天时,我不断听到同样的故事:“我们的数据科学家毫无用处!他们所做的就是坐着发表论文。”我们会有足够多有经验的领导者来防止这种太普遍的现象吗?如果数据科学家不能证明自己的价值,他们不会在这些岗位上呆很久。

期望一个刚毕业的科学博士知道如何对商业做出有意义的贡献是不公平的。那不是他们花了那么多年学的东西。如果没有了解数据科学所涉及的内容并知道如何将数据与业务联系起来的人的指导,他们将面临重重困难。为了确保数据科学不是泡沫,我们迫切需要专业化的领导。它将从哪里来?

数据科学领导者的培训项目在哪里?希望不是策略。

人们,让我们感激我们是多么幸运!不知何故,优秀的数据科学领导者确实存在,技能也在那里。不是有效获得的技能,因为双重掌握是连续获得的,也许很痛苦,但仍然是正确的技能。我希望你和我一样强烈地感受到这种紧迫性。我们中少数几个经历了艰难困苦的人需要开始用更好的方式训练我们更多的人。

就我而言,我承诺尽我的一份力量。在过去的几年里,我一直在谷歌努力培养新一代的思考者,定位于作为团队的一员有效地领导或工作,专注于将数据科学应用于实际问题。为了培养正确的技能,我们从数据科学和工程中汲取了一些想法,并用行为科学和管理科学对其进行了补充。结果只是看起来跨学科,直到你看到共同的核心:决策和驱动它们的信息。这就是为什么我们开始称它为决策智能(不过如果你愿意,你也可以把它当成应用数据科学++来看待)。

让我们培养一种新的思考者:拥有让数据科学团队成功的技能的决策者。

我一直认为,数据科学是一项受益于技能多样性的团队运动,所以我设计了我们的培训计划,以鼓励各种背景的人参与进来。事实证明,伟大的数据科学领导者不一定是被超越的数据科学家。

我为我们在谷歌员工中培养这些技能所取得的成就感到骄傲…但这还不够。没有必要让每个人都依赖快乐的意外和完全沉浸在一个以上的学科中来建立相同的技能。我希望阅读这篇文章至少能激发一些了解数据科学决策者技能的人和我一起认识到数据科学本身就是一门学科,并尽可能广泛地分享我们的智慧。

感谢阅读!YouTube 课程怎么样?

如果你在这里玩得开心,并且你正在寻找一个为初学者和专家设计的有趣的应用人工智能课程,这里有一个我为你制作的娱乐课程:

Enjoy the entire course playlist here: bit.ly/machinefriend

与凯西·科兹尔科夫联系

让我们做朋友吧!你可以在推特YouTubeLinkedIn 上找到我。有兴趣让我在你的活动上发言吗?使用表格联系。

我们如何在 S&P 全球推广数据科学素养

原文:https://towardsdatascience.com/data-science-literacy-for-the-enterprise-fadaf9268494?source=collection_archive---------14-----------------------

标准普尔全球市场情报首席数据科学家 Zak Brown

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

无论是大公司还是小公司,都在成倍增加他们的数据科学团队,以此来转变他们的业务,并通过数据科学推动整个企业的技术变革。但是仅仅雇佣数据科学家并不能保证大多数公司设想的范式转变。这一关键转变的关键是数据科学素养。

数据科学、高级分析和开源技术提供的优势对于现代企业在快速发展的技术环境中保持相关性和竞争力至关重要。创业公司正在通过利用新的技术和分析技术来改变客户对整个行业的期望,从而颠覆各种行业。许多较大的组织可能难以采用新的分析方法,而广泛采用的最佳方式是通过在业务的各个方面利用分析的文化转变。

S&P Global——信用评级、数据和分析、研究和基准的金融服务提供商——我们以提供重要见解的悠久历史而自豪。该公司的历史可以追溯到 1860 年,当时 Henry Varnum Poor 出版了一本美国铁路行业投资者指南,为投资者做出明智的投资决策提供了重要的见解。

该公司诞生于数据和分析流程的智能、有效的应用,现在我们可以在任何地方用预测模型补充这些应用;我们的核心竞争力围绕着我们的模型驱动能力。正如许多公司可能意识到的那样,保持和发展这种方法不仅仅意味着数据科学家团队处理数据,为了真正实现文化变革,我们需要用基本的数据科学素养武装员工。

从哪里开始?

首先,我们必须决定用什么机制来对分布在全球各地的 17,000 名员工进行数据科学教育。我们需要弄清楚如何实施一个能够以有趣和互动的方式扩展的培训计划。我们还需要考虑对广泛的参与者群体有价值的一组正确的资源和材料,教育那些数据科学新手,同时也为更高级的学习者提供有用的实践经验。

我们决定提供一种数据科学教育的混合方法,利用大规模在线开放课程(MOOCs)中提供的开源学习材料,并补充额外的内部资源,将所有课程模块与特定的“熟悉”应用联系起来。为此,我们确定了本次会议的四个主要组成部分:

●来自开源 MOOC 的视频和练习

●由内部专家主持的实时互动审查会议

●在线论坛,促进参与者之间的讨论和交流

●在线数据科学平台,以促进技术材料的管理、交付和执行

在选择正确的课程时,我们开始寻找一个既能提供足够的广度和深度来吸引广泛的基础,又不牺牲技术严谨性的课程。信不信由你,虽然数据科学对业务至关重要,但对普通员工来说,学习数据科学可能不是最大的吸引力。

我们的目标是确定一门与员工工作优先级相一致的课程,以及一门我们可以将领域和公司特定信息融入其中的课程。在互动会议中,我们邀请了 S&P 全球市场智能数据科学部门的成员来主持讨论,并展示现有的计划,以展示数据科学技术目前在组织中的应用情况。我们还希望找到一个免费且易于使用的论坛平台,让参与者与讲师互动,更重要的是,与其他参与者互动。最后,我们需要从技术上简化员工设置数据科学环境并获得所需的技术支持。

我们是这样做的。

  1. 我们求助于 Udacity 的开源课程 UD120:机器学习简介进行基于计算机的指导培训,包括讲座(视频)和编码练习,员工在 GitHub 库中进行了为期 10 周的培训。
  2. 我们利用 Piazza 的免费 Q & A 平台来促进员工之间的异步沟通和协作。
  3. 我们主持了每周一次的现场会议,进行同步评审。在这些会议期间,我们做了几件有助于评估项目进展和持续成功的事情:
  4. 复习本周的材料。
  5. 提供补充信息或推荐资源,为员工提供进一步研究的话题。
  6. 回顾编码练习并解决任何障碍或挑战。
  7. 参与互动、开放式的问答。
  8. 将课程学习和练习应用到标准普尔的实际数据科学项目中。
  9. 我们求助于 Domino 数据实验室平台,从本质上充当支撑这个项目的“粘合剂”。
  10. 托管我们的课程材料。
  11. 为员工提供了一个共享的工作平台,使他们能够根据需要轻松增加和减少计算资源,并促进轻松的协作和结果共享。
  12. 简化了向员工“推送”课程材料更新的流程。

最近怎么样?我们看到了什么结果?

该计划首次运行了 10 周,在此期间,来自多个全球部门的 130 多名员工参与其中。在整个 10 周中,在每次指导学习会议和在线论坛中,参与都很活跃。

我们一直在收集非常积极的反馈。以下是我最喜欢的一些参与员工的轶事:

●“复习课很有用,因为它引导了课程,澄清了中途出现的疑问。”

●“很难在 10 周内涵盖数据科学模型的广度。我认为数学课和编码实践的结合是理解的最好方法。”

●“我认为技术练习很好地激发了你的好奇心,人们一头扎进了有趣的部分。引导式会议非常有利于看到真实世界的例子,也是提问的机会。”

●“我喜欢听不同的数据科学家解释概念。视觉效果很棒,回答问题也很有帮助。”

在所有 17,000 名 S&P 员工都具备“数据科学素养”之前,我们还有很长的路要走,但我们已经有了一个良好的开端,并期待看到该计划如何培养一种比我们今天更受模型驱动的文化。

艺术的数据科学、机器学习和人工智能

原文:https://towardsdatascience.com/data-science-machine-learning-and-artificial-intelligence-for-art-1ac48c4fad41?source=collection_archive---------2-----------------------

苏富比线程天才团队见面

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学、机器学习和人工智能是计算机科学中已经渗透到世界各地许多行业和公司的领域。它们的采用几乎肯定与过去十年“大数据”的崛起有关。

高级数据分析有可能改变公司理解见解、组织活动和创造价值的方式。编程语言、开源库和云计算的进步也使得这些方法更容易有效地应用于数据。

到目前为止,艺术品市场仍然是一个数据分析革命尚未真正开始的领域。

这篇博客文章将解释最先进的数据科学、机器学习(ML)和人工智能(AI)方法如何被 Thread Genius 用于艺术市场,该公司被世界上最古老的国际拍卖行苏富比收购。1744).我会给你一些关于我们团队动态的见解,我们正在解决的问题以及我们是如何做的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An auction at Sotheby’s in 1957

机器学习和人工智能到底是什么?

这个问题问得好。首先,数据科学是一门使用和分析数据来测试假设、回答问题和理解见解的学科。

机器学习是利用计算工具和统计技术赋予计算机从数据中学习的能力。来自 Google Cloud 的 Yufeng在他的文章:用数据回答问题中使用了一个更精炼的定义。

人工智能是指计算工具开始拥有认知能力——出于本文的目的,AI 将指的是使用人工神经网络的“深度学习”技术

谁是线程天才?

Thread Genius 是一家人工智能初创公司,由 Ahmad QamarAndrew Shum 于 2015 年创立,并于 2018 年 1 月被苏富比收购。两位创始人在创办 Thread Genius 之前都曾在 Spotify 工作。其技术的主要用途是一个视觉搜索引擎,该引擎使用人工神经网络为时尚行业应用深度学习技术。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Thread Genius using deep learning to identify similar handbags

通过训练人工神经网络,Thread Genius 能够从图像中识别服装,以找到视觉上相似的服装。阅读他们的媒体文章“机器人比尔·坎宁汉:用深度神经网络实现时尚的 Shazam”了解更多信息。

有趣的是,Thread Genius 还将这项技术应用于艺术:阅读“艺术天才:用视觉搜索发现艺术品”了解更多信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Art Genius — Thread Genius using deep learning to identify similar art

我们的团队是如何分解的?

现在,Thread Genius 是一个由机器学习工程师、软件和数据工程师、数据科学家和设计师组成的不断壮大的团队,总部位于纽约市的苏富比。

我们最初的努力包括大规模数据管道的软件开发,用于清理和标准化历史苏富比的数据宝藏,以便我们可以进行数据分析并大规模应用 ML 和 AI。

阅读 Fast Company 关于我们的这篇文章了解更多详情。

我们试图解决的是什么?

那么,我们试图通过使用和分析数据来检验的假设和回答的问题是什么呢?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The galleries at Sotheby’s New York

苏富比拥有艺术市场中一些最好的数据,包括历史交易、每个价位的个人艺术偏好、图像、物品和艺术品信息等等。通过有效利用这些数据,我们希望实现以下任务:

**利用苏富比的梅·摩西数据库。**这体现了我们围绕分析艺术作为一种资产所做的努力。Sotheby’s Mei Moses 数据集是一个独特的数据库,包含八个收藏类别中超过 50,000 次重复拍卖——最早记录的拍卖是在 17 世纪初!它是由纽约大学斯特恩商学院教授梅建平博士和迈克尔·摩西博士于 2002 年首次开发的——点击此处阅读学术论文

该数据集使用同一幅画在两个不同时刻的购买价格(即重复销售)来衡量独特艺术品的价值变化。我们计划使用这些信息来分析独特物品的价值如何随着时间的推移而变化,并将艺术品作为资产的投资业绩与其他资产类别的投资业绩进行比较。

解锁供给。如果我们的客户选择出售他们的艺术品,我们希望让他们更容易这样做。我们的目标是使用数据来提供更低的壁垒,以帮助人们出售他们的艺术。我们目前正在开发产品,通过各种机器学习技术来提供价格透明度。

**一个推荐引擎。**在收购之前,Thread Genius 专门研究使用卷积神经网络的基于味道的图像识别和推荐技术。通过使用苏富比的数据,我们将使用深度学习向我们的客户推荐将要出售的艺术品或物品。

**打造最好的数据产品。**通过将这三项任务整合在一起,我们的目标是提高运营效率,打造艺术品市场中最好的数据产品,以便我们的客户在苏富比参与艺术品交易时能够获得最佳体验和透明信息。

我们要怎么做?

我们主要使用 Google Cloud 平台来完成我们的所有工作——从 Dataprep 中的数据清理,从数据流中的数据处理和标准化,到大查询中的数据存储,在 Datalab 中的数据分析,最后,ML 和 AI 使用 GCP 的整套机器学习能力

我们主要用 Python 编码,但是我们的软件开发人员正在使用 Node 和 Ruby 进行后端开发。我们将为上面列出的一些任务构建自定义应用程序。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Various products and software offered by Google Cloud Platform

为什么这个问题很难

虽然我们正在使用先进的数据分析来理解来自图像和数据的见解,但艺术从根本上来说是主观的——无论是在价值上还是在品味上。

每当我们从分析中发现见解时,对照我们的专家所拥有的领域知识来验证它们是至关重要的。在整个过程中,人的参与是非常重要的。我们很幸运,苏富比拥有世界上最好的艺术专家,他们可以全程帮助我们。

此外,这将是第一次有人在艺术市场上做这样的事情——我们基本上是在一张空白的画布上工作。像这样的挑战非常令人兴奋,我们很高兴能够为未来的发展指明方向。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Auction of Contemporary Art at Sotheby’s New York

想帮我们吗?

苏富比的目标一直是成为艺术市场创新和技术的领导者,并支持艺术和技术的未来。

我们很高兴能够在艺术市场应用先进的机器学习和人工智能,并与我们在苏富比的专家直接合作,以便我们能够创造出业内最好的数据产品。

如果你有数据科学、机器学习、NLP 和/或人工智能方面的背景,并且对改变世界感兴趣,请随时与我们联系,我们总是有兴趣与你,我们的观众交谈。

随着我们继续迈向数据科学的旅程,我们将继续在这份出版物上撰写关于我们项目的更多细节,敬请关注!

感谢您的阅读,

Vishal

在你离开之前…

如果您觉得这篇文章很有帮助,请按住👏按钮,在脸书、推特或 LinkedIn 上分享这篇文章,这样每个人都能从中受益。

Vishal 是苏富比 Thread Genius 的前沿数据科学家。你可以在 LinkedIn 上通过邮箱 与他取得联系。

数据科学、神经科学和医疗设备

原文:https://towardsdatascience.com/data-science-neuroscience-and-medical-devices-ff5e601d3d34?source=collection_archive---------9-----------------------

首先,我想感谢那些在过去的一年里关注我在《走向数据科学》中的文章的人。我已经达到了 2000 名追随者的里程碑,这在很大程度上要感谢你愿意阅读我的文章。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你们很多人不知道的是,除了我在人工神经网络和优化方面的工作,我还有十年的经验与马修·勒梅一起研究生物神经网络(大脑!)以及如何修改。

2010 年,我与人共同创立了 Nuraleve ,这是一家神经技术研究和医疗器械公司,专门从事神经调节治疗成瘾、慢性疼痛和其他疾病的临床和商业进展。我们是一个由研究人员、医生和疼痛管理专家组成的团队,乐观地认为当时的现有科学指向一个全新的一线治疗类别。神经科学的重大突破正在改变我们认为可能的事情,所以我们决定加入这场竞争,开发一种治疗神经疾病的医疗设备。正如快速经颅直流电刺激(tDCS)和相关协议(如 TMS、tRNS、tACS、DBS、ect、VNS、taVNS 和许多其他方案)今天仍然是活跃的研究领域,仅 tDCS 就有超过 2,000 篇同行评议的出版物,并且多年来有广泛的媒体报道。

在本文中,我想谈谈我使用生物神经网络进行的几个数据科学项目。这包括对大脑的扫描,进入大脑的信号,改变大脑功能,以及从大脑中获取信号。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Nuraleve,我帮助开发了一种用于治疗慢性疼痛、成瘾和其他适应症的非侵入性神经刺激设备。这种经过临床验证的治疗方法用于通过放置在头皮特定位置的电极刺激大脑区域。刺激运动皮层 (M1)来治疗某种慢性疼痛,而刺激背外侧前额叶皮层(DL-PFC)来减少吸烟和其他毒瘾。还有一个认知增强协议

tDCS 通过头皮和大脑发送微弱的电流。最新的科学表明,tDCS 通过修改神经元的放电阈值来改变大脑活动。刺激可以增加皮层兴奋性,引起长时程增强(LTP)。这种类型的刺激导致神经递质谷氨酸的释放,谷氨酸与突触后神经元中的 NMDA 和 AMPA 受体结合,引起 LTP。改变神经元兴奋性受治疗强度和持续时间的影响。刺激是在病人醒着的时候施加的,我可以从第一手经验告诉你,这并不痛苦。使用口腔内电极阵列(见下文),感觉有点像嘴里的流行摇滚,带有金属余味。这有点像试图向你描述一种你从未见过的颜色。

Brain research takes a long time.

Nuraleve 创建了专有的医疗协议和软件,供医疗专业人员在评估和治疗患者时使用,经过多年的 R&D 和保护关键想法的专利,它终于进入了市场。本文中描述的项目都在公共领域。

[## US8942811B2 -经颅电流刺激装置和方法-谷歌专利

一种用于经颅刺激的装置。

patents.google.com](https://patents.google.com/patent/US8942811B2/en)

Nuraleve 的设备是 ce 标志,加拿大卫生部批准用于治疗
慢性疼痛、成瘾和其他适应症。欧洲批准的适应症包括慢性疼痛、急性疼痛、成瘾,包括肥胖、酒精、药物(大麻、可卡因、阿片类药物、甲基苯丙胺)、吸烟、抑郁症、中风后康复和认知缺陷。这是一个巨大的市场。

通过结合对照临床试验和专有数据来衡量治疗的临床疗效。这个数据才是我要重点关注的。Nuraleve 的专有应用软件从每个大脑刺激器中捕捉实时数据。对于数据科学家来说,这些数据非常酷。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

All the stuff used during a typical treatment session.

让我们来讨论一下该设备的功能和测量内容。Nuraleve 的大脑刺激器在大脑中施加直流电,在 3D 模式下,这意味着在治疗过程中,通过皮层的电流密度会有的变化。当通过脑组织应用这种治疗时,该设备检查以确保它附着在患者身上,并且在这样做时,它每秒钟对大脑进行多次多频扫描。这种安全特性还有一个额外的好处,那就是告诉我们在治疗过程中大脑内部发生了什么。这个领域被称为阻抗谱。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Voltage between electrodes during treatment measured at one frequency. Note the drop in resistance/impedance/voltage as the scalp charges up with ions during treatment,

我与赫歇尔·凯塔克和我的论文导师教授米奥德拉克·博利奇博士一起准备了一份关于生物阻抗的会议海报,查看如上图所示的数据,并找出阻抗随时间的变化如何与头皮、硬脑膜、皮层等的变化相关联。基本上,我们必须考虑有多少治疗穿透了保护大脑的多层外壳。赫歇尔实际上正在写关于神经刺激和光谱学的博士论文。这是一个相当数据密集型的研究领域,使用有限元模型来模拟大脑中发生的事情。

从数据角度来看,大脑扫描端不仅有数据科学工作,大脑刺激端也有数据科学工作。我们对通过脑神经的多电极大脑刺激进行了一系列研究,以获得与大脑的更好连接。简而言之,使用口腔电极通过舌头的连接比通过头骨和头皮的连接“更好”。

[## US8874220B2 -神经刺激系统、装置和方法-谷歌专利

公开了一种用于个体脑神经刺激的设备,具有用于产生刺激信号的信号驱动单元

patents.google.com](https://patents.google.com/patent/US8874220B2/en)

在专利中,我们描述了如何使用电极阵列作为大脑的输入来玩游戏。

[## 低成本双向人机接口——IEEE 会议出版物

在过去的十年里,人机界面的开发和应用取得了许多进展…

ieeexplore.ieee.org](https://ieeexplore.ieee.org/abstract/document/5480231/)

我们认为这个设备不仅仅是一个大脑修改(神经调节)设备,而是一个人机界面,既可以向大脑发送信息,也可以从大脑接收信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Polyamide and gold pads were used to make this biocompatible electrode array, More on this process in this IEEE paper we wrote just about this line of research.

正如埃隆·马斯克如此专业地确定一样,信号来自大脑的神经接口将成为游戏改变者(认为让事情发生),而将信号发送到大脑的接口更多的是当今的技术,而不是科幻小说。我们的世界已经有了仿生眼睛、四肢和手,以及市场上其他神经接口的感官替代产品。

在医疗器械研究中,通常会有材料科学的成分。这通常在设备和患者之间的界面处。例如,我参与了几个项目来设计更好的电极。

[## 经颅直流电刺激用高吸水性聚合物电极

高吸水性聚合物(SAP)被认为是经皮刺激电极的一种可行的碳替代品。

ieeexplore.ieee.org](https://ieeexplore.ieee.org/abstract/document/6549760/)

一些研究涉及数据收集,这里有一个超级有趣的例子:我做了一个记录活蚯蚓大脑信号的项目,在用伏特加麻醉它们使它们更顺从之后。回想起来,这非常有趣,但在当时它并不那么有趣,更多的是“我不敢相信我在做这件事”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This is a screenshot from one of my research reports.

下表是神经改造科学结果的一个很好的例子。所有花哨的曲线和装置都归结为简单的数字和物理相关性测量。

R&D 日常医疗设备中的数据科学远远超出了设备本身。HIPAA 规则要求非常详细的文档和软件验证,以确保医疗记录在设备和云之间的安全存储和传输。此外,临床试验记录必须保持最新,不良事件报告不仅针对该公司的设备,而且针对任何其他公司的设备。因此,定期有大量的统计工作来计算治疗所需的数量、疗效等等。

你可以在公司网站上了解更多关于 Nuraleve 的信息。

因此,总而言之,数据科学是医疗设备开发的一个关键方面,它提供了从大数据集获得的洞察力。在下一篇文章中,我将介绍我们已经研究了很长时间的东西,它可以帮助企业在内部审计期间自动分析非结构化报告。

如果你喜欢这篇关于医疗设备数据科学的文章,那么请点击关注按钮,看看我以前读过的一些文章,比如“如何为人工智能项目定价”和“如何聘请人工智能顾问”除了与业务相关的文章,我还准备了一些关于寻求采用深度机器学习的公司所面临的其他问题的文章,如“没有云和 API 的机器学习

下次见!

-丹尼尔
丹尼尔@lemay.ai ←打个招呼。
LEMAY . AI
1(855)LEMAY-AI

您可能喜欢的其他文章:

移动数据科学——如何实现?问问新妈妈!第二部分

原文:https://towardsdatascience.com/data-science-on-the-go-how-ask-a-new-mom-part-ii-33161c73758d?source=collection_archive---------16-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一位新妈妈(我)分享的关于在旅途中学习数据科学的技巧和诀窍的帖子的第二部分。在第一部分中,我讨论了即使你认为自己根本没有空闲时间(比如一个新妈妈),你也可以如何找到时间学习,并分享了一些我个人用来在旅途中学习的资源。在这篇文章中,我将谈论如何跟上数据科学领域的最新发展。

保持关注的最简单方法是收听播客、订阅时事通讯并在 Twitter 上关注数据科学家。

听,宝贝…听播客!

他们说婴儿应该尽可能多地接触语言?那么,为什么不听播客呢?好吧,我开玩笑的!:)我不会给我 6 个月大的儿子打开关于数据科学的播客,至少现在不会。但是我经常在带着宝宝散步或者赶着做家务的时候听它们。你可以在通勤、在镇上散步或在家时做这件事。

我订阅了以下播客:

  • data frame**d—**一个 DataCamp 的官方播客。最近的主题包括采访来自不同公司(如 StitchFix、麦肯锡、Airbnb 等)的数据科学家,以及讨论数据科学在不同行业的应用。
  • 线性离题 s 播客涵盖了各种主题:从解释各种算法(例如,关于自动编码器、傅立叶变换、学习索引结构等的章节)及其背后的直觉,到讨论数据科学家可能面临的实际问题(如如何分配项目、如何解决隐私等)。
  • 人工智能在工业中与 Dan Faggella——讨论数据科学在不同行业的应用以及数据科学家面临的实际挑战
  • data crunch**。**与上面列出的节目不同,这一个节目更高级,主要包括数据科学的历史或在商业中使用大数据的意义等主题。
  • SuperDataScience**。**由基里尔·叶列缅科主持的播客,讲述数据科学和个人经历中的各种事情。
  • 会说话的机器 提供了各种各样的话题:从具体的 DS 工具和算法到对数据科学家的采访,从对 ML 应用的具体讨论到对在我们生活中应用机器学习的社会影响的讨论。

发送给您的新闻…

…直接发送到您的电子邮件收件箱!我说的是时事通讯。我喜欢每周收集该领域最流行的文章,所以我订阅了几份时事通讯。

  • **ODSC 迅 **。这是一份来自 ODSC 的每周简讯,发送 ODSC 门户网站上最热门的文章。在教程的链接旁边,你会找到很多关于使用某些算法或工具的技巧。

  • 艾周刊 。顾名思义,这是一个关于人工智能行业的每周新闻集。

通过推特获取知识

那些拥有 Twitter 账户的人(我敢打赌,如果你曾经试图做某种情绪分析,你就有一个 Twitter 账户)可以建立自己的“数据科学”新闻订阅。Twitter 上有很多非常活跃的优秀数据科学家,关注他们将有助于你了解最新消息。以下是我关注的一些 Twitter 账户:

因此,正如你所看到的,即使你非常忙,睡眠不足,认为自己根本没有时间,也有很多机会学习数据科学。试着分析你的一天,也许在通勤或散步的时候学习,或者在午休的时候抽出一些时间。了解您手头有哪些工具(智能手机、平板电脑、笔记本电脑?)并将其用于学习目的。

做母亲教会了我珍惜时间,我鼓励你也这样做!

请告诉我你对学习资源的看法。如果你在评论中分享你关注的博客、时事通讯、播客和其他资源,我会很高兴。

祝你好运!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Dakota Corbin on Unsplash

面向所有人的数据科学性能指标

原文:https://towardsdatascience.com/data-science-performance-metrics-for-everyone-4d68f4859eef?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

准确性、召回率、精确度、灵敏度、特异性……—数据科学家使用如此多的性能指标!你如何向非技术背景的观众解释它们?作为一名数据科学家,我发现向每个人描述这些概念对我的工作来说既有挑战性、有趣又至关重要。这篇博文将使用普通的语言和图片来解释许多绩效指标,这样你公司的每个人都能理解它们。

最近,我开发了一个机器学习模型,来预测下周哪些接受透析的患者将被送入医院。这个模型在我的公司(费森尤斯医疗护理北美公司)受到了很多关注,所以我向包括数据科学家、数据分析师、护士、医生甚至高管在内的广泛受众介绍了这个模型的细节。根据经验,我知道每个人对“准确性”的解释都不一样,所以我必须非常小心地解释性能指标及其含义。

通过这篇博文,我们将使用预测下周哪些病人将住院的例子。这是一个分类问题的示例,我们试图预测每个患者是否应该被放入预测阳性组(即预测将住院)或预测阴性组(即预测将不住院),如下所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测模型很少能完美地预测一切,因此有许多性能指标可用于分析我们的模型。像我这样的数据科学家喜欢看方程,但这在非技术背景的人的演示中很少奏效。如果你想阅读一篇使用等式作为性能指标的文章,我强烈推荐威廉·科尔森最近的文章

当你对你的人口进行预测时,你的结果可以分为如下所示的 4 个部分(本文中的数字是受维基百科的启发):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 真阳性:住院的人,你预测他们会住院
  • 真正的负面因素:没有住院的人,你预测他们不会住院
  • 误报:没有住院的人,你预测他们会住院
  • 假阴性:你预测住院的人不会住院

在我们继续之前,让我们把患病率这个术语定义为人口中的阳性部分。在我们的例子中,大约 2%的透析人群将在一周内住院(即患病率= 2%)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4 项绩效指标

最常见的性能指标是准确性,它被定义为您正确预测的分数,如下所示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当描述一个模型时,这个度量并不总是最好的。例如,如果你总是预测人们不会住院,你的准确率将是 98%,但你不会预测任何实际住院。

为了解决这个问题,数据科学家使用其他指标来代替。两个常见的是回忆(也称为敏感性)和特异性。在我们的例子中,回忆是指你预测所有住院病人中有多少人会住院。特异性是你预测在所有未住院的人中,有多少人不会住院。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学家使用的另一个性能指标是精确度。在我们的例子中,这将是所有你预测要住院的人中实际住院的比例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

到目前为止,我们还没有讨论预测模型如何将患者分配为预测住院或预测不住院。在大多数情况下,预测模型将给出阳性(即住院)的概率。我们可以选择哪些概率被指定为预测正和预测负。如下所示,我们可以调整这个阈值,这会改变性能指标,这通常会导致指标之间的权衡。例如,降低阈值会增加灵敏度,但会降低特异性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

两个真实的例子

在一些演示中,我发现这些抽象的定义直到你为模型提供一个实际的有形数字的表格才被理解。让我们通过两个例子来展示流行对某些固定阈值的影响。在第一个例子中,我们假设患病率为 50% (50%住院,50%未住院)。给定 100 名患者,我们有以下分解和性能指标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在第二个例子中,让我们假设患病率为 3% (3%住院,97%未住院)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以看到,不同的患病率在两个例子之间保持了相同的灵敏度和特异性,但准确度和精密度发生了变化。事实上,当您的患病率较低时,通常您的精确度较低(即,预计住院人数比实际住院人数多得多)。

结论

在本文中,我们讨论了 4 个性能指标(准确度、灵敏度、特异性和精确度)。我们还讨论了流行度如何影响性能指标,特别证明了流行度越低,精度越低。如果您有兴趣,我推荐您阅读其他高级性能指标,如曲线下面积(AUC)或 F1。

数据科学、慈善事业和第三部门——海量的好代码

原文:https://towardsdatascience.com/data-science-philanthropy-and-the-third-sector-magnanimous-coding-for-good-cf2f9caf6fc6?source=collection_archive---------15-----------------------

用你的技能改善世界和人们的生活

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Егор Камелев on Unsplash

不可否认,数据科学是当前的主要趋势之一,从人工智能研究、疾病诊断和自动驾驶汽车,到欺诈检测、数字营销、人力资源管理等等。

读到这里的许多人很可能是数据科学家,你应该已经知道这些了。你们中的一些人可能不知道,但听说过很多,你们中的一些人可能不知道,但对如何在你们的领域应用它有专业兴趣。

许多组织已经接受了数据科学,并可以支持大型团队开展各种工作,从从数据中提取洞察力以做出更好的决策,到大规模开发和实施机器学习模型。许多组织就是没有这样的资源;可能没有规模经济来让第一个数据科学家雇佣工作,或者可能总是有项目必须得到优先考虑。

但是,有一个答案。一个有利于数据科学家和那些正在发展他们的技能和投资组合的人,一个有利于许多这些组织的人。在本帖中,我们将简要介绍我们如何定义数据科学,慈善机构和第三部门组织如何使用数据科学——为非数据科学家服务,以及数据科学本身如何作为资产捐赠,以推动变革和进步。

新技术正导致可用数据的数量和类型呈指数级增长,为通知和改造社会以及保护环境创造了前所未有的可能性。政府、公司、研究人员和公民团体都在积极尝试、创新和适应新的数据世界,在这个世界里,数据比以往任何时候都更大、更快、更详细。这就是数据革命。

有些人已经生活在这个新世界里了。但是,由于缺乏资源、知识、能力或机会,太多的人、组织和政府被排除在外。在获取数据和信息以及使用数据和信息的能力方面,存在着巨大且日益加剧的不平等。

为了进一步探索商业与数据科学的结合,在 Twitter 上关注 Chris

什么是数据科学?

我们的世界正在以惊人的速度产生数据。随着越来越多的设备利用互联网连接来提供更多功能和便利——即“物联网”——我们产生这些数据的速度将会继续提高。除了一些最明显的应用,如在线购物车中改进的产品推荐和一组更相关的“up next”猫视频,数据科学可以带来数据中的知识,只等着被发现。有些知识可能会改变世界,甚至只是解决一个小问题的第一步。

如果你问十个人,关于什么是数据科学,数据科学家做什么,你可能会得到十种不同的定义。从根本上说,数据科学是关于使用统计和计算技术将来自无数来源的数据转化为发现和结论,从而产生洞察力,促进明智的决策,揭示模式和趋势,并允许我们进行预测。

“新技术正导致可用数据的数量和类型呈指数级增长,为通知和改造社会以及保护环境创造了前所未有的可能性。政府、公司、研究人员和公民团体都在积极尝试、创新和适应新的数据世界,在这个世界里,数据比以往任何时候都更大、更快、更详细。这就是数据革命。

有些人已经生活在这个新世界里了。但是,由于缺乏资源、知识、能力或机会,太多的人、组织和政府被排除在外。在获取数据和信息以及使用数据和信息的能力方面,存在着巨大且日益加剧的不平等。"

-联合国秘书长数据革命促进可持续发展独立专家咨询小组

数据科学如何惠及慈善和第三部门组织?

很容易看出数据科学如何在某些领域得到应用。例如,银行可以建立分析管道,在信贷申请中寻找与贷款违约相关的特征;流媒体视频网站可以根据你的观看历史推荐电影,移动电话公司可以建立模型来预测客户是否不会续签合同,并为他们提供适当的优惠。

数据科学如何在专注于慈善和进步活动的组织中得到应用,可能不会立即显而易见,但数据科学在这些领域可以像在蓝筹股业务或科技初创公司中一样有效和有用。

从基本的有效性和效率开始,数据科学可以为组织管理的各个方面提供信息,从员工招聘和保留,到市场营销,再到资产和运营。在最近一个将机器学习应用于设施管理的例子中,谷歌能够使用其算法将用于冷却其数据中心的能源量减少 40%

随着机器学习方法开始在组织的更多活动中应用,通过提高效率实现的潜在节约可能会对成本产生重大影响,降低每笔捐赠中用于组织开销的百分比。

尽管降低运营成本可以最大限度地提高每笔捐款的使用价值,但人们总是希望确保捐款用在能够产生最大影响的地方,并确保捐款的有效性受到监控。

数据科学也可以在这方面发挥作用,基于人工智能的模型可以在预期项目中寻找与强劲表现和成功结果相关的特征,而算法可以实时评估项目的表现,从使用情绪分析跟踪社交媒体意见,使用统计分析寻找特定行业的经济增长提升,或者使用数据科学技术组合和补充来自不同来源的数据以推动医疗保健计划,如在纳米比亚的疟疾控制

根据我在多个领域讨论数据科学应用的经验,比如采购和库存管理、可持续时尚和旅游,通常唯一的限制是你的想象力。如果你能让一位数据科学家和一位领域专家在下班后一起喝杯咖啡或啤酒,进行一次随意的交谈,你很可能会惊讶于一个晚上能在一张餐巾纸上写下多少想法。

数据科学本身就是慈善事业

很明显,数据科学不仅可以增强慈善项目的选择和管理,确保捐赠物尽其用,而且数据科学中有越来越多的活动成为捐赠。

随着组织不仅对自己的数据基础设施、获取、存储和分析进行大量投资,而且对其数据科学家进行大量投资,公司的数据科学职能是一项宝贵的资产,并且有可能在组织内外提供价值。这一价值使得“慈善数据科学”成为企业拓展和社会责任项目的一个不断增长的领域。

万事达基金会的包容性增长中心是全球企业利用其资源和专业知识回馈社会的一个例子。该中心的核心理念是利用“公司的核心资产,通过研究、数据慈善、项目和参与,推动包容性增长的行动。”

不仅仅是跨国公司通过数据科学回馈社会。像 DataKind 这样的组织给数据科学家一个回馈的机会,将他们自己的时间和专业知识贡献给那些可能已经积累了数据,但没有内部技能来利用这些数据的项目。

另一个组织,驱动数据,运行:

“拯救世界的数据科学竞赛”

竞赛内容涵盖从环境保护到改善公共服务的方方面面。如果你想提高你的数据科学技术,同时知道你编码和构建的东西可能会改变某人的生活,无论你在哪里,都有办法做到这一点。

随着越来越多的组织继续开发新的数据科学工具作为产品,并将数据科学驱动的流程应用于其业务流程的其他方面,数据驱动的方法可能会在所有行业变得越来越普遍。随着这种扩张推动数据科学资源的增加,组织所有领域的个人都找到了利用这些资源的方法,数据科学的应用无疑将在慈善事业、筹款和发展中得到体现。

我能做些什么让世界变得更美好?

在我看来,探戈需要两个人。需要有一个数据科学家愿意回馈社会,也需要有一个组织愿意让他们这样做。

对于数据科学家来说——特别是如果你处于职业生涯的早期阶段,希望在更多的项目中获得更多的经验——找到一些慈善组织,他们的事业对你有吸引力,并与他们联系。你可能不想承诺这个世界,但是看看他们是否愿意进行第一次对话;让双方都思考并对合作感到兴奋。

对于组织来说,让他们容易。是的,你可能会对让人们泄露你的数据有所保留,但字段通常可以从数据库或匿名或聚合的个人身份信息中删除。如果你想成为一个数据驱动的组织,或者至少尝试一下,第一步是建立一种文化,允许你考虑成为数据驱动的组织;如果没有人看到其中的潜在价值,那么这位数据科学家的电子邮件就不太可能得到积极的回复。

有很多优秀的数据科学家想要回馈社会,也有很多人在努力让世界变得更美好。让我们看看是否能把更多的人聚集在一起,加速这个过程。

数据科学学院 101:来自街头从业者的西北大学数据科学硕士项目回顾

原文:https://towardsdatascience.com/data-science-school-101-review-of-northwestern-masters-in-data-science-program-from-a-street-2d192f9ee9bc?source=collection_archive---------10-----------------------

“你知道你已经有硕士学位了吗?”—我的妻子,博士

35 岁返校?

坦白地说,在我妻子开始做生意让她晚上忙起来后,我决定重返校园攻读第二个硕士学位。我坐在沙发上,我的妻子,一个崭露头角的摄影师,在办公室学习 Lightroom,网飞流视频不是一件事。大多数晚上我都有点无聊地坐在沙发上。

我的一个同事正在参加西北大学预测分析硕士项目,他向我施压,让我考虑这个项目,因为他知道我与 R 和几个 Coursera 课程的新恋情。在办公室,我负责为 OTC 能源资产定价的团队,我正在探索 R 或 Python 如何成为更有用的工具,以取代传统的基于 Quant 的语言,如 Matlab、VBA 或 C++。我还在研究一些机器学习模型如何具有相当强的预测场外能源市场行为的能力。

虽然我已经有了统计学、定量金融和数据建模的实践背景,但我认为西北大学的项目将有助于充实我的知识,让我有更深的理解,并最终提供更广泛的信息。2012 年,我启动了预测分析项目,最终演变成了他们的数据科学项目。如果你正在考虑在任何学校开设这样的课程,这篇文章就是为你准备的!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

项目概述和成功之道

西北大学的项目在他们的网站上已经非常清楚地展示出来了,所以我不需要重复你在那里能读到的一切。总结一下就行;期望参加大约 10 门真正的分析型课程(例如,数学、编码、分析、数据可视化和数据库的一些变体)、简单的项目管理或领导力课程,以及论文或顶点项目课程。总共 12 门课程是你的目标;理想情况下,大约三年后,或者如果你是我,五年后,因为你需要休息,而且不时会有重要的工作项目出现。

所有的课程都遵循一个标准模式;每周一次视频/网络分享会议,如果你抽不出时间,就录制下来,并就本周的一些关键概念展开讨论。大多数课程每隔几周都会有重要的作业或测试。总的来说,教授们保持前进的步伐,所以在一个主题或概念上落后可能是危险的。课堂上的所有参与都利用了“Canvas ”,这是一个相当好的在线教育和协作平台,比我记得的 15 年前我的前任老师的旧黑板系统好得多。所有工作要么在 Canvas 中完成,如案例讨论和测试(测验),要么在提交论文或代码时直接在 Canvas 中上传。与教授的所有互动和你的成绩都在画布上,这也便于查看你做得好或不好。Canvas 展示了每个特定周的可交付成果,如阅读作业、特定论文、测试和教授发布的其他信息。

每门课成功的关键。进入处理每周任务的流程。对我来说,最简单的方法是从周日晚上开始,了解下一周的周日应该做什么。我通常会尝试在周日和周一晚上做一周的阅读作业,在周三参与论坛主题的讨论,并开始任何重要的作业。周四是我完成那周或长期项目 90%重要任务的夜晚。星期五喝酒是为了一杯苏格兰威士忌——或者三杯——和妻子一起看电影(总是要为妻子留出时间!)周六的几个小时将完成那周的所有工作。描述的是我作为一个专业人士、丈夫和两个孩子的父亲的流程,晚上 8 点以后是我完成作业的唯一时间。这种方法效果很好,通常意味着从周日到周四,我每晚至少花一个小时,周六晚上还要做一点工作。一些班级要求更多,但不超过两倍,并为短期突发。

虽然这一切听起来很好,也很简单,但考虑到该计划的在线和自定进度方法,不落后是非常重要的。会有这样的几周,但不要指望一周就能过去,除非你知道下周你会加倍努力。此外,对于我们这些已经拥有高级学位或抢手技能的优秀专业人士来说,视角可能是一件非常强大的事情。正如我的妻子,一位发展心理学博士所说:

有时你需要抄近路或者不做你想要的事情,这是可以的——有时。从来没有人问过我以前学位的平均绩点是多少,我相信没有人会在意我在西北大学的 3.8 分。

职业生涯中期专业人士的价值

20 年前上大学时,我在我妈妈的办公室实习,她是一个政府资助的职业培训主任的秘书。虽然办公室里可能有 15 个人,但只有两个人使用 Excel,第三个人是我。我对执行各种分析任务和预算自动化工作的办公室立即产生了价值。一晃 20 年过去了,我已经雇佣了超过 25 名实习生,他们每个人都知道 Excel,因为它现在是任何进入任何行业的人的必备技能。一个新的趋势也正在发生,我现在发现来自各种大学的各种本科项目的实习生都有 Python、R 和 Tableau 方面的经验,无论是通过课程学习还是独立学习。

The expected commodity skill of Excel will be replaced by Python, R, or other analytical programming skills in the next decade, will you be able to compete?

以上未来派的说法,我不是随便说的。大数据管理、分析和机器学习的当前趋势正在推动所有知识工作者在这种背景下具备基本能力。这意味着当前利用基于 Excel 的范例的分析师、经理和领导者将需要成长和学习新的技能来竞争。如果你认为自己是一名专业人士,希望成为自己公司的领导者或开创自己的公司,那么你很可能需要具备从西北大学这样的项目中学到的技能的分析师。你也可能需要用这些技能来管理员工;有什么比有能力做他们正在做的工作更有效的领导呢?能够质疑团队工作、概述方法、期望,并最终能够将分析表述为你理解的东西的领导者,作为一名领导者,将是所有未来领导者的期望。

这一切对你来说意味着什么?该计划将让你接触到各种用于操作、构建和生成机器学习模型的编程语言,大部分是用 R 和 Python 完成的,带有一点 SAS(针对那些在政府工作的人或大量投资于 SAS 的公司)。你将深入研究从传统回归到神经网络的各种机器学习方法/技术。最后,您将探索解释模型结果的最佳实践。您还将能够研究围绕数据库、整理数据和数据可视化方法的各种主题。这个项目最活跃的部分是“结果解释”,其中大部分作业都需要大量的工作来解释模型的方法,解释模型的含义,最重要的是,解释模型的局限性。我发现这是这个项目中最重要的技能。能够批判性地理解模型的应用并通过这样的镜头理解结果有助于确保我不会发现自己站在一个坏模型的错误一边。由于人们想要证明自己,证明数据科学“事物”,被激励只获得成功,因此有许多糟糕的模型在流传,这导致领导者可能会忽视这样一个事实,即糟糕模型的业务决策比没有模型更糟糕。

再来一次?

我的妻子现在让艾伦忙起来,以确保我不会再做出另一个多年的承诺!她支持我重返校园,并理解鉴于她在统计和分析方面的背景,该项目的价值,但她也提供了强有力的观点,即 15 年来没有人问过我的 GPA。在这个节骨眼上,考虑到这个领域在过去五年中的发展,我会怀着更强烈的愿望再次参加这个项目。它给我在 CME 集团(cmegroup.com)(一家大型衍生品交易所)担任数据产品经理的职业生涯带来的价值和可信度是无与伦比的。我发现我的产品设计和产品创造的方法集中在如何从客户互动中获得数据,从而在未来创造更好的产品。建模客户需求、定价方案和费用影响都可以基于其他内部数据集进行建模。最终,这个项目的影响创造了一个产品经理 3.0 版本的我,在我的工作中融合了产品管理和数据科学的学科。如果你是一名传统的分析师、产品经理、项目经理,或者是任何数据驱动领域的领导者,希望并有能力学习编程、统计和可视化,那么这个项目是你职业发展的基础。

你有什么想法或问题吗?

你做过节目,刚开始,还是有疑问?欢迎在下面提问,我会给你我的观点,或者其他人也会加入进来。

数据科学简化版第 3 部分:假设检验

原文:https://towardsdatascience.com/data-science-simplified-hypothesis-testing-56e180ef2f71?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

著名的匈牙利裔美国物理学家爱德华·泰勒曾经说过:

“事实是每个人都相信的简单陈述。它是无辜的,除非被判有罪。假设是没有人愿意相信的新奇建议。它是有罪的,直到发现有效。”

假设检验的应用在数据科学中占主导地位。对其进行简化和解构势在必行。就像犯罪小说故事一样,基于数据的假设检验将我们从一个小说建议引向一个有效命题。

概念

假说源于希腊文作品琥珀(下)和论文(放置)。这意味着一个想法来自有限的证据。这是进一步调查的起点。

这个概念简单而有力。我们每天都直觉地进行假设检验。这是一个 7 步流程:

  1. 做出假设。
  2. 采取初始位置。
  3. 确定备用位置。
  4. 设定验收标准
  5. 进行基于事实的测试。
  6. 评估结果。评估是否支持最初的立场?我们有信心这个结果不是偶然的吗?
  7. 得出以下结论之一:拒绝原来的立场,赞成替代立场或不拒绝最初的立场。

过程

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我用一个故事来解释假设检验的概念。霍尔马维克是冰岛西部的一个小镇。这个小镇有它的独特之处。它以巫术博物馆而闻名。

即使是现在,西峡湾还有人自称是巫师。埃西铎和甘道夫就是这样的人。埃西铎和甘道夫自称是巫师。他们自称是千里眼。一位统计学家想要证明或否定这种说法。他们玩 千里眼纸牌游戏

游戏规则如下:

  • 埃西铎和甘道夫看到了从一套扑克牌中随机选择的十张牌的反面,并被问及四张中哪一张适合它。
  • 他们必须识别卡片所属的花色。
  • 对他们中的每一个重复该测试十次。

**还确定对于一个正常人来说,预测正确的平均次数在 6 次左右。**这是我们进行假设检验的基础。我们将从统计学上确定他们是否是巫师。

第一步:做出假设

不同种类的假设检验做出不同的假设。假设与数据分布、采样和线性度有关。一些常见的假设是:

  • 分布:数据遵循特定的分布。理解数据的基本模式。许多自然发生的数据点的分布,如股票市场数据、人的体重和身高、在酒吧喝酒的人的工资等。,可以用正态分布来近似。正态分布简单来说就是大量的观测值在中间。少数观察值大于或小于中间值。中间值也被称为中值
  • **抽样:**假设为测试抽样的数据是随机选择的。没有偏见。

对于千里眼纸牌游戏,以下假设是正确的:

  • 在千里眼纸牌游戏中,所选纸牌的分布将是正态分布的。这是真的,因为卡是随机选择的。随机选择卡片意味着十张卡片中的每一张都有相等的概率被选中参加测试。
  • 有问题的卡片没有偏见。

第二步:零假设

零假设是初始位置。这是现状。是被拒绝或者拒绝失败的立场。这是一个需要验证的位置。才是需要考验的岗位。

对于千里眼纸牌游戏,无效假设如下:

  • H0:埃西铎/甘道夫不是先知。

他只是在猜测。他很幸运。

第三步:替代假设

替代假设是与零假设相反的立场。如果有统计学上显著的证据表明替代假设是有效的,那么无效假设被拒绝。

对于透视纸牌游戏,另一个假设如下:

  • 哈:埃西铎/甘道夫是一个先知。

步骤 4:设定验收标准

定义了无效假设和交替假设。现状是无效的假设。现在,需要设定一个阈值。我们知道一个普通人,即不是巫师的人,10 次中有 6 次是正确的。如果埃西铎和甘道夫能够在一次测试中预测出超过六张正确的卡片,那么就有更多的证据表明他们可能确实是巫师。一个称为 t-statistics 的指标计算估计值与假设值的差距。高 t 统计量使得替代假设看起来越来越可信。

假设检验结果可能出错。有四种可能的情况:

  1. 测试发现埃西铎/甘道夫是一个千里眼。他是一个千里眼。
  2. 测试发现埃西铎/甘道夫不是千里眼。他不是千里眼。
  3. 测试发现埃西铎/甘道夫是一个千里眼。他不是千里眼。
  4. 测试发现埃西铎/甘道夫不是千里眼。他是一个千里眼。

测试击中了靶心,结果 1 和 2 是正确的。结果 3 和 4 的测试失败了。

  • 当零假设为真时,结果 3 拒绝零假设。这是一个误报。该误差也被称为I 型误差。
  • 当零假设为假时,结果 3 接受零假设。这是一个的假阴性。该误差也称为第二类误差。

像所有的统计检验一样,假设检验必须处理不确定性。它必须考虑概率。没有绝对。

需要设定一个概率水平,以便确定 I 类错误发生的可能性。这个水平被称为显著性水平alpha (α) 表示它。较低的α意味着测试非常严格。相对较高的α意味着测试没有那么严格。α的值是根据假设检验的性质设定的。典型值为 0.001、0.05 或 0.1

如果观察到的值仅仅是偶然的呢?如果只是巧合呢?如果他们只是在测试进行的当天运气好呢?这种不确定性需要缓解。假设检验有一个度量标准来处理这种不确定性。 p 值是度量。

p 值表示为概率。这意味着它的值介于 0 和 1 之间。p 值是在假设零假设为真的情况下偶然观察到的 t 统计的概率。

对于千里眼纸牌游戏来说,如果埃西铎能猜对 8 张以上的牌,那么另一个假设是合理的。他可能确实是一个千里眼。t 统计量为 8。

成为透视者不会有生命危险。没有人有危险。显著性水平设定为 0.05。α为 0.05。

第五步:进行测试

动作发生了。统计学家测试埃西铎和甘道夫的超视力。卡片显示出来了。预言已经做出。注意到了结果。该过程重复十次。统计引擎在收集的数据上运行。结果如下:

埃西铎:

  • t 统计:8
  • p 值:0.1

-甘道夫:

  • t 统计:9
  • p 值:0.01

第六步:评估结果

概率(p 值)和显著性水平之间的比较产生以下结果:

对于埃西铎:

  • t 统计量是 8。这意味着,平均来说,他已经正确预测了八张牌。这比正常人所能预测的要高。
  • p 值为 0.1。这意味着观察到的 t-统计量是偶然的概率是 10%。p 值很高。
  • 设定的显著性水平(α)为 0.05。翻译过来就是 5%。
  • p 值大于设定的显著性水平,即 10% > 5%。

对甘道夫来说:

  • t 统计量是 9。这意味着,平均来说,他已经正确预测了九张牌。这比正常人所能预测的要高。
  • p 值为 0.01。这意味着观察到的 t-统计量是偶然的概率只有 1%。
  • 设定的显著性水平(α)为 0.05。翻译过来就是 5%。
  • p 值低于设定的显著性水平,即 1% < 5%.

Step 7: Conclude

The tests have ended. The metrics are known. Who is the real wizard?

**对于埃西铎:**p 值大于设定的显著性水平(10% > 5%)。即使平均来说,他已经正确预测了八张牌;从统计学上看,结论如下:

  • 埃西铎的结论:没有实质证据反对零假设。零假设未能被拒绝。

**对于甘道夫:**平均来说,他已经正确预测了九张牌。p 值低于设定的显著性水平(1% < 5%)。

  • 甘道夫的结论:有充分的证据反对无效假设。无效假设被拒绝。接受替代假设。

埃西铎崩溃了。甘道夫得意洋洋。然而,埃西铎可能会感到安慰,因为没有证明他不是一个千里眼。零假设未能被拒绝。这并不意味着交替假设不成立。这只是意味着没有足够的证据来拒绝零假设。埃西铎普遍维持现状。

结论

没有必要进行假设检验来找出埃西铎和甘道夫中谁是巫师。我们都知道甘道夫是巫师。

假设检验是机器学习的基础概念之一。许多评估方法使用假设检验来评估模型的稳健性。在本系列中,我们将进一步深入它的构造。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值