导读:本文讨论与人工智能相关的概念和技术,包括机器学习、深度学习、数据科学和大数据。还将讨论人类和机器如何学习,及其与人工智能当前和未来状态之间的关系。最后介绍数据如何推动人工智能,以及人工智能成功所需数据的特点。
作者:Alex Castrounis
来源:大数据DT(ID:hzdashuju)
01 什么是数据科学?数据科学是做什么的?
首先从数据科学领域的讨论开始。 让我们从定义数据科学以及数据科学家的角色和责任开始讨论,这两个角色描述了人工智能和机器学习的领域和执行其计划所需要的技能(请注意,很多专业角色越来越普遍,如机器学习工程师)。
尽管数据科学家通常有许多不同的教育背景和工作经验,但大多数人应该在四个基本领域(理想情况下是专家)都很强,我称之为数据科学专业知识的四大支柱。数据科学家应该具备下述这些领域(没有特别的顺序)的专业知识:
商业或相关的商业领域
数学(包括统计和概率)
计算机科学(包括软件编程)
书面和口头交流
还非常需要其他的一些技能和专业知识,但在我看来,主要是上述四项。
实际上,人们通常在四个支柱中的一个或两个方面很强大,但很少在四个方面都强大。如果碰巧遇到一个在四个方面都很强大的数据科学家,那么他是真正的专家,您就发现了一个常被称为独角兽的人。在四个支柱中都拥有相当程度专业知识和能力的人很难找到的,严重缺乏。
因此,许多公司已经开始围绕数据科学的特定支柱设置专门的角色,当把这些人集合在一起时,就相当于拥有了数据科学家。
例如组建一个三人团队,其中一个人有MBA背景,一个是统计学家,另一个是机器学习或软件工程师,当然团队还可以包括数据工程师。这个团队就可以同时执行多个任务,每个人在任何给定时间都专注于计划的某个方面。
基于这些支柱,数据科学家应该能够利用现有数据源,根据需要创建新数据源,以提取有意义的信息、产生深入可操作的洞见、支持数据驱动的决策、以及构建人工智能解决方案。
这需要业务领域的专业知识、有效的沟通和结果解读,以及利用所有相关的统计技术、编程语言、软件包、库和数据基础设施。简而言之,这就是数据科学所要做的事情。
02 机器学习的定义及其关键特点
机器学习经常被认为是人工智能的子集。我们先讨论机器学习。
记住我们对人工智能的简单定义,即机器展示的智能。这基本上描述了机器从信息中学习并应用所学知识做事以及继续从经验中学习的能力。
在许多人工智能应用中,机器学习是人工智能应用过程中用于学习的一组技术。一些具体技术可以被视为人工智能和机器学习的子集,通常包括神经网络和深度学习,如图4-1所示:
▲图4-1 人工智能,机器学习,神经网络和深度学习之间的关系
我非常喜欢这个简洁的机器学习定义,这是我在谷歌设计博客文章中读到的:“机器学习是一门根据模式和关系进行预测的科学,这些模式和关系是从数据中自动发现的。”
我对机器学习通常的非技术定义是:机器学习是不需要显性编程,从数据中自动学习的过程,而且具有根据经验扩展知识的能力。
机器学习与基于规则技术的关键区别在于不需要显性编程,特别是在特定领域、行业和业务功能方面。诸如深度学习之类的高级技术可能根本不需要领域的专门知识,而在其他情况下,领域的专门知识是以选择或设计训练模型特征的形式提供的(在非机器学习应用程序中,称为变量、数据字段或数据属性)。
在这两种情况下,不需要显性编程绝对关键,而且实际上是机器学习要理解的最为重要