2020 年商务智能工具的 10 大关键特性
你知道商业智能能解决什么问题,什么样的 BI 工具才算好的吗?
如今,商业智能市场正在升温。投资界和 IT 界都在密切关注大数据和商业智能。但是你知道 BI 工具能解决什么问题,什么样的 BI 工具才算是好的吗?
图片来源:https://www . exist bi . com/articles/business-intelligence-systems-and-data-mining/
根据对 Gartner 分析和商业智能平台魔力象限评估标准的研究,我总结了 BI 工具的 10 大关键特性,供您参考。
总体而言,随着用户的数据来源变得更加广泛,他们对 BI 的偏好也在发生变化。他们更喜欢自助式开发、交互式仪表盘和自助式数据探索。说白了,用户越来越希望自己做数据分析,而不必找 it 部门支持。
1.BI 平台的管理、安全性和架构
好的 BI 工具可以实现平台安全,管理平台用户,监控访问和使用,优化性能,支持不同操作系统的运行,保证系统的高可用性和灾难恢复。
BI 平台作为企业信息化的一部分,有很多理由做单独的管理和容灾。一方面,政府、互联网公司、大型企业都非常重视信息化建设,要求单独维护。另一方面,BI 系统也逐渐成为企业管理决策的支撑,发挥着越来越大的作用。企业需要 BI 系统全天提供稳定的服务。
2.元数据管理
用户可以集中管理元数据,包括元数据的搜索、提取、处理、存储、共享和对外发布。
这里的元数据集中于业务分析所需的维度、指标、层次、度量和其他数据。还包括一些经过处理的数据,比如 KPI、个人销量、单品销量等数据。同时,系统支持管理员将用户处理和存储的元数据与连接到 BI 平台的底层数据关联和集成。
3.分析仪表板
借助可视化探索操作和嵌入式高级地理空间分析,创建高度互动的仪表盘和内容。
分析仪表板也可以理解为交互式图表组件,如常见的条形图、折线图、散点图等。,以及高级矩形树形图、多层圆环图、行政地理图、自定义地图、热图、流程图等。这里的重点是这些图表要内置在 BI 工具中,同时它支持业务人员简单的拖拽实现图表展示。从目前来看,这个趋势还是比较明显的。
用 FineReport 制作的高速公路监控仪表盘
用 FineReport 制作的制造业仪表盘
4.交互式视觉探索
使用一系列常用和特殊图表探索和分析数据。
这些常规图表主要是饼状图、折线图等。,而特殊图表指的是特殊的视觉效果,如热图、流程图、矩形树图、GIS 地理信息图等。当然,除了图表的丰富和美观,还需要注意交互操作。
用 FineReport 制作的下钻图
如果你想了解更多的图表类型,这篇文章供你参考: 数据可视化中前 16 种图表类型 。
5。支持移动显示
用户可以将 BI 工具的分析内容发布到移动终端设备上,并可以利用移动设备自身的功能实现触摸操作、照片、视频、定位等。双页的。
移动商务智能是目前商务智能市场的一大亮点。不同的公司有不同的需求。有人关注多个操作系统,比如 Android 和 IOS 版本,必须同步支持。有些人注重功能和交互效果,如移动设备上的数据采集、图像和视频采集、定位、联动和钻孔。但是请大家多注意移动终端的安全,移动 BI 一定要保证企业数据的安全。
用 FineReport 制作的移动仪表盘
6.嵌入分析内容
支持 BI 分析页面与业务流程或业务系统的无缝集成,支持在业务软件中直接创建和修改分析内容,支持 BI 平台的管理。
BI 分析内容的无缝嵌入主要考虑几个方面。首先是实现单点登录,即用户不必先登录业务系统,再重新登录 BI 系统,系统自动完成多平台认证。二是权限整合。BI 平台必须提供一个集成解决方案,允许用户在业务软件界面查看权限内的 BI 分析内容。第三是 UI 集成。作为嵌入到业务系统中的组件的一部分,BI 平台本身应该具有轻松修改 UI 的能力,以便将嵌入式 BI 接口集成到业务系统中。
7.嵌入式高级分析
用户可以轻松使用 BI 平台内置的高级分析功能,也可以导入和集成外部开发的高级分析模型。
通俗的理解,BI 平台自带高级分析模型和算法模型,允许用户拖动数据,自动运行模型得出结论。从目前市面上的 BI 产品策略来看,大部分 BI 产品尚未支持嵌入式高级分析,少数支持与 R 语言集成。常见的场景是用户自己开发算法模型或者多年积累的高级分析模型,然后将分析模型处理的数据连接到 BI 系统进行可视化分析和展示。也就是 BI 工具还是为了数据分析和图形显示。
8.自助数据准备
用户自己拖拽不同来源的数据,创建分析模型,然后系统通过智能分析和自动关联,自动处理数据,包括结构化数据和非结构化数据。
自助数据准备本质上是让 BI 系统自动处理数据之间的逻辑关联。目前很多 BI 工具很难做到这一点,但是市面上类似 FineReport 这样的 BI 报表工具却开辟了新的解决方案。除了自动关联和转义数据,还可以手动设置关联。同时,在 IT 人员初步处理完数据后,业务人员可以通过 SPA 螺旋分析功能再次处理数据。
9.发布和共享分析内容
允许用户通过各种文件输出类型和分发方式发布和操作 BI 分析内容。
用户可以通过商业智能平台分享商业智能分析的内容和决策。总之我做的 BI 分析页面可以分享给别人,我也可以编辑修改别人分享的内容,我们可以互相交流。这里最大的价值是 BI 分析的重用。即你所做的 BI 分析数据和结论可以共享,你自己的分析模型也可以共享,提高企业员工的协作效率。
10.易用性和可视化
易于管理和部署 BI 平台,创建和共享 BI 分析,易于可视化数据。
BI 软件的专业性和易用性是很难平衡的两个方面。BI 软件的易用性必须考虑到业务人员的软件操作水平和这方面可接受的培训成本。我认为易用性更多的是提供操作提示和更容易的交互。然而,仍然需要进行必要的培训。毕竟数据分析本身就是一个专业的事情,需要相应的技能。
最后
在商业智能领域的研究和实践中,越来越多的管理者期望通过实施数据分析项目和购买商业智能软件来解决企业管理和决策中遇到的困难。一些公司从数据共享、数据分析和业务预测三个层面进行探索。更多的时候,他们适应企业的实际运作,进行业务调整。
还有的更注重企业的管理,走分析、运营、战略三个阶段。这就造成了对商业智能需求的根本差异。我们不一定要改变公司管理业务的方式。相反,我们使用合适的 BI 软件来使管理更有效,使决策更科学。
您可能也会对…感兴趣
图形神经网络的 10 大学习资源
让你开始进入令人兴奋的深度学习领域
照片由 Unsplash 上的 Dmitry Ratushny 拍摄
G 图形神经网络(GNNs)是深度学习的一个相对较新的领域,最近变得越来越受欢迎。Twitter、谷歌或脸书等大公司投资 GNN 研究,因为它被证明优于其他处理图形数据的机器学习模型。
由于这个领域发展迅速,GNNs 背后的知识还不容易获得。目前,你可以在互联网上找到分散在研究论文、文章或博客中的 GNN 理论。我们缺少的是一本 GNN 的书,或者一本在线资源的汇编来帮助人们在这个领域起步。
在做了一些搜索之后,我发现实际上有一些很好的资源以一种平易近人的方式解释了 GNNs。我希望它对这个领域的新手有用。我们开始吧!
1.林子幸·汉密尔顿的图形表示学习书
[## 图形表示学习手册
在过去的七年里,图形表示学习领域以令人难以置信的(有时甚至是笨拙的)速度发展
www.cs.mcgill.ca](https://www.cs.mcgill.ca/~wlh/grl_book/)
这本书是一个游戏改变者,目前可以在线下载。它从图论和传统的图论方法等初学者主题开始,到新的 GNN 模型和最新的 GNN 研究等更高级的主题。它是一个设计良好的独立材料,具有图形神经网络所需的大部分理论。
2.斯坦福课程笔记——使用图表的机器学习
网络是对复杂的社会、技术和生物系统进行建模的基本工具。再加上…
web.stanford.edu](http://web.stanford.edu/class/cs224w/)
这是斯坦福大学的一门课程,专门研究图形的机器学习。它公开了他们讲课的幻灯片和推荐读物。如果你想系统地学习一门结构良好的课程,这很好。
3.艾伯特-拉斯洛·巴拉巴希的网络科学书籍
网络科学的力量,网络可视化的美好。
networksciencebook.com](http://networksciencebook.com/)
这是一本在线的交互式书籍,重点是图和网络理论。虽然它没有讨论 GNNs,但是它是一个很好的资源,可以为操作图打下坚实的基础。
4.托马斯·基普夫博客
许多重要的现实世界数据集以图表或网络的形式出现:社会网络、知识图表…
tkipf.github.io](https://tkipf.github.io/graph-convolutional-networks/)
由 GNN 领域最著名的研究者之一——托马斯·基普夫博士创建的一个优秀的博客。在他的文章中,他温和地介绍了 GNNs,提供了新方法的文献综述,并讨论了他的论文中的发现— 用图卷积网络进行半监督分类 。
5.迈克尔·布朗斯坦博客
阅读迈克尔布朗斯坦在媒体上的文章。教授@imperialcollege,Graph ML Research 负责人@Twitter,ML Lead…
medium.com](https://medium.com/@michael.bronstein)
迈克尔·布朗斯坦是伦敦帝国理工学院的教授,也是 Twitter 图形学习研究的负责人。最近,他开始在《走向数据科学》上发表文章。他的博客文章聚焦于 GNNs 的数学视角和该领域的最新进展。他倾向于引用 GNNs 上的许多其他文章,这可能有助于您发现其他有趣的文章。
6.生命科学的深度学习:将深度学习应用于基因组学、显微镜学、药物发现等
深度学习已经在很多领域取得了显著的成果。现在它正在整个科学界掀起波澜…
www.oreilly.com](https://www.oreilly.com/library/view/deep-learning-for/9781492039822/)
虽然这一立场不完全是关于 GNNs,这本书的一部分提供了 GNN 模型的实际应用。它解释了如何使用生命科学的深度学习库 Deepchem 将 GNNs 应用于分子数据集。它还讨论了 GNNs 所需的不同预处理方法。
7.Flawnson Tong 博客
阅读 Flawnson Tong 在《走向数据科学》中的文章。使用机器学习一步一步地加速科学…
towardsdatascience.com](https://towardsdatascience.com/@flawnsontong1)
Flawnson 在 Medium 上发表了几篇关于 GNNs 的介绍性文章。他们的目标是希望对图形神经网络背后的理论有一个基本了解的初学者。很好,如果你想一瞥什么是 gnn。
8.最新 GNN 论文集— Github Repo
图形神经网络必读论文(GNN)。通过在…上创建帐户,为 thunlp/GNNPapers 的开发做出贡献
github.com](https://github.com/thunlp/GNNPapers#survey-papers)
这是一份最近 GNN 论文的汇编,包含了这个领域中大多数发表的论文。他们把清单细分成单独的主题,如我们。如果你正在寻找 GNNs 的一个特殊应用领域的论文,值得一查。
9.带代码的图形神经网络
10 个搜索结果
paperswithcode.com](https://paperswithcode.com/search?q_meta=&q=graph+neural+networks)
Paperswithcode 是一个知名的分享研究论文及其代码的网站。如果您想找到已经有代码实现的 GNN 模型,这是一个好地方。
10.图形神经网络综述
[## 图形神经网络综述
近年来,深度学习已经彻底改变了许多机器学习任务,从图像分类到…
arxiv.org](https://arxiv.org/abs/1901.00596)
这篇研究论文总结了 GNNs 中的大部分重要发现,提供了 GNNs 背后的历史的简要概述,并讨论了不同类型的 GNN 建筑。
关于我
我是阿姆斯特丹大学的人工智能硕士学生。在我的业余时间,你可以发现我摆弄数据或者调试我的深度学习模型(我发誓这很有效!).我也喜欢徒步旅行:)
如果你想了解我的最新文章和其他有用的内容,以下是我的社交媒体资料:
每个 Java 开发人员都应该知道的 10 大库
Java 和 JVM 软件开发中基本 Java 库的精选列表
Java 是商业应用程序开发领域的头号编程语言。它也是顶级编程语言之一。
Java 的一个关键特性是它有一个功能丰富且庞大的核心库。虽然标准 Java 库功能强大,但在专业软件开发中,您还需要其他 Java 库。经过 25 年的积极开发以及业界和社区的采纳,Java 有了许多成熟而有用的库。
这里我列出了在所有领域的 Java 应用程序中使用的前 10 个 Java 库。无论您是为业余爱好项目还是企业级项目开发软件,您可能都需要我在下面列出的大多数库。
Apache Commons
Apache Commons 就像 Java 软件开发中的一把瑞士刀,它扩展了许多 Java 核心库。如果您想在自己的项目中编写一个实用程序类,那么很有可能已经存在一个成熟而强大的 Apache Commons 库。Apache Commons 由 43 个模块化库组成,涵盖了集合、数学、类、数据库、缓存、I/O 实用程序等领域。
它被广泛应用于业界和几乎非官方的 Java 标准库增强。如果您正在进行一个大项目,并且没有使用任何 Apache Commons 库,那么您可能正在重新发明轮子。
主要特点:
- Java 集合框架扩展。
- 数学和统计部分。
- JDBC 助手。
- Java 类。
- I/O 实用程序。
- 日志记录实用程序。
链接:
[## Apache Commons — Apache Commons
Apache Commons 是一个 Apache 项目,专注于可重用 Java 组件的所有方面。Apache Commons 项目是…
commons.apache.org](https://commons.apache.org/)
谷歌番石榴
Google Guava 是另一个顶级的通用 Java 库。最初由 Google 开发,由著名软件工程师和作家 Joshua Bloch 设计。它现在是一个开源项目,谷歌以外的许多工程师都为此做出了贡献。像 Apache Commons 一样,它也是模块化的,包含许多独立的库。
它涵盖了基本的实用程序、集合、字符串操作、并发实用程序、图形库、I/O 实用程序、哈希等等。谷歌番石榴比阿帕奇公共图书馆有更好的软件设计。如果你觉得有必要创建一个共享库或实用类,那么先看看谷歌番石榴库。
主要特点:
- Java 集合框架扩展。
- I/O 实用程序。
- 并发实用程序。
- 字符串实用程序。
- 缓存。
- 哈希。
链接:
Guava 是来自 Google 的一组核心 Java 库,包括新的集合类型(如 multimap 和 multiset)…
github.com](https://github.com/google/guava)
杰克逊
在软件开发中,你必须处理不同格式的数据。要么你必须以不同的格式加载或保存数据,要么你必须以不同的格式传输数据。JSON 是现代软件开发中事实上的数据交换格式。其他常见的数据格式有 Avro、XML、YAML、Protobuf、CSV、BSON、CBR。
Jackson 是一套用于 Java 的数据处理库。Jackson JSON 是事实上的流 JSON 解析器/生成器库。它还支持其他数据格式,如 Avro、BSON、CBOR、CSV、Smile、Protobuf、XML 或 YAML,以及数据类型,如 Guava、Joda、PCollections 等等。
Jackson 还提供了数据绑定和注释。您可以将 POJO 转换为数据,或者借助 Jackson 注释从数据生成 POJO。如果您处理数据格式,Jackson 是一个必备的工具集。它是高度模块化的,具有提供基本功能的核心模块和各种扩展模块。
主要特点:
- 流、注释、数据绑定的核心模块,并支持 JSON 数据格式。
- 针对 Avro、CBOR、CSV、Ion、Protobuf、Smile、XML、YAML 等数据类型的特定模块。
- 科特林土著类型。
- JSON 模式。
- 标准和集合数据类型。
- 支持第三方数据类型(Yandex Bolts、GeoJSON、Lombok、MongoDB 等等)。
链接:
这是 Jackson 项目的主页,以前被称为 Java 标准 JSON 库(或 JVM 平台……
github.com](https://github.com/FasterXML/jackson)
JAXB
正如上一节所讨论的,XML 是另一种流行的数据格式,它提供了更严格的数据验证、存储和传输。直到 Java 8,Java 标准库才有 XML 支持,包括数据绑定。从 Java 9 开始,XML 处理功能不再是标准 Java 库的一部分,而是转移到了一个单独的库 JAXB 中。
JAXB 提供了用 Java 处理 XML 所需的一切。它为 XML 和 Java 代码之间的映射提供了一种标准而有效的方式。它还包括基于注释的数据绑定。
主要特点:
- 支持所有 W3C XML 模式特性。
- 基于注释的 Java 到 XML 数据绑定。
- 验证。
链接:
[## JAXB
用于 XML 绑定的 Java 架构(JAXB)提供了一个 API 和工具,可以自动化 XML 文档之间的映射…
javaee.github.io](https://javaee.github.io/jaxb-v2/)
SLF4J
日志记录是生产级软件开发中不可或缺的一部分。仔细的日志记录将有助于您理解软件的工作,并找到错误的根本原因,尤其是在生产系统中。Java 标准库在 java.util.Logging 中提供了基本的日志记录。还有其他日志库,如 Log4j、Log4j 2、Logback,它们提供了高级的 Java 日志功能。虽然这些日志库提供了具体的实现,但 SLF4J 为各种日志库提供了抽象或门面。它允许用户在部署期间更改所需的日志库。
起初,使用额外的 facade 库 SLF4J 进行日志记录听起来可能会适得其反。但是使用 SLF4J 会给你额外的灵活性,如果需要的话,可以毫不费力地修改具体的日志库。使用您首选的日志记录框架作为 SLF4J 的可插拔日志记录程序总是一个好主意。
主要特点:
- 提供底层日志框架的抽象。
- 日志框架可以在运行时更改。
- 支持所有主要的日志框架。
- 提供了一个包含有用工具和特性的库(slf4j-ext.jar)。
- 记录事件的事件记录器。
链接:
[## SLF4J
Java 的简单日志门面(SLF4J)作为各种日志框架的简单门面或抽象…
www.slf4j.org](http://www.slf4j.org/)
Log4j 2
Java 中有很多优秀的日志库:java.util.logging,Log4j,Log4j 2,Logback。其中,Log4j 2 和 Logback 是两个最强大的日志库。与 Logback 相比,我更喜欢 Log4j 2,尤其是对于大型项目,因为它提供了更好的性能。对于大型项目,日志库的性能至关重要,尤其是异步日志、峰值吞吐量和延迟。就这些标准而言,Log4j 2 比 Logback 略胜一筹,如下所述:
[## Log4j —性能
除了功能需求之外,选择日志库的一个重要原因通常是它能很好地满足…
logging.apache.org](https://logging.apache.org/log4j/2.x/performance.html)
主要特点:
- 通过异步日志记录提高性能。
- 将 API 与实现分开。
- 高级过滤。
- 插件架构。
- 云支持。
链接:
[## Apache Log4j 2
Apache Log4j 2 是 Log4j 的升级版,对其前身 Log4j 1.x 进行了重大改进,并且…
logging.apache.org](https://logging.apache.org/log4j/2.x/)
莫奇托
单元/集成测试是软件开发过程中不可或缺的一部分。通常您想要测试一个单独的类(SUT),但是它依赖于其他重量级的类或者外部功能(例如,数据库操作,I/O 操作)。在这种情况下,编写单元/集成测试的一种方法是模仿。您可以模仿其他外部服务调用的行为,只关注您想要测试的类。
Mockito 是 Java 中使用最广泛的模仿库。无论您是在测试一个小项目,还是一个庞大、复杂的企业 Java 项目,您都可以在任何地方使用 Mockito。它提供了一个非常简单、干净的 API,让你的单元/集成测试保持干净。
主要特点:
- 精益清洁的 API。
- 提供简化的存根模型。
- 经由间谍的局部嘲讽。
- 基于注释的模拟/间谍注入。
- 使用 BDDMockito 的行为驱动开发语法。
链接:
Szczepan Faber and friends 为您提供摩奇托。第一批在生产中使用 Mockito 的工程师是…
site.mockito.orgHa](https://site.mockito.org)
AssertJ
AssertJ 是我列表中第二个与 TDD 相关的库。测试的主要特征之一是验证测试结果是否与预期结果相匹配。JUnit 在 org.junit.Assert 类中有一个内置的断言机制。对于专业开发人员来说,这两种方法是不够的。
幸运的是,Java 环境中存在两个强大的断言库: Hamcrest matchers 和 AssertJ 断言。相比 Hamcrest,我更喜欢 AssertJ,因为它的 API 很流畅。它也是高度模块化的,在其核心模块中提供必要的功能,在其他模块中提供一些高级功能。
主要功能:
- 流畅的断言 API 提供更好的代码可读性。
- 丰富的断言集和有用的错误消息。
- 标准 Java 库的核心模块。
- 在流行的 Java 库中提供断言的模块,例如 Guava、Joda、Neo4j。
- 模块为 SQL 数据库提供断言。
链接:
所有资产的入口点方法和实用程序方法(例如入口)导入静态…
assertj.github.io](https://assertj.github.io/doc/)
冬眠
在我们作为软件工程师的日常生活中,我们必须使用数据存储。在现代,有许多类型的数据存储:SQL 和无数的 NoSQL 数据存储。处理数据存储的一种方式是使用低级 API(例如,SQL 的 JDBC)。这种方法的缺点是不可移植。因此,处理数据存储的最佳方式是在应用程序和数据存储之间引入一个抽象层。这个抽象层(ORM)将 Java 类与数据库表/集合进行映射。Hibernate 是所有编程语言中最早的 ORM 库之一,并启发了业界许多类似的技术。
尽管 Hibernate 主要以 SQL 数据库的 ORM 功能而闻名,但它也扩展到了 NoSQL 数据库。Hibernate 也是模块化的,它提供了一个核心模块和许多基于功能的模块。
主要特点:
- 关系数据库(ORM)的域模型持久性。
- NoSQL 数据存储(OGM)的域模型持久性。
- 领域模型的基于注释的验证。
- 领域模型的全文搜索。
链接:
[## 冬眠
编辑描述
hibernate.org](https://hibernate.org/)
Apache HTTPComponents
HTTP 是迄今为止使用最多、最流行的应用层协议。Java 标准库没有提供太多处理 HTTP 的功能。幸运的是,Apache HTTPComponents 提供了一套专注于 HTTP 和相关协议的 Java 组件工具。Apache HTTPComponents 也是高度模块化的,它提供了一个核心模块来开发定制的客户机/服务器 HTTP 服务,占用空间很小。它还为异步 HTTP 客户端等高级功能提供了增值模块。
主要特点:
- 用于客户机/服务器服务的低级 HTTP 传输组件。
- 提供阻塞和非阻塞 I/O 型号。
- 用于客户端身份验证、状态管理和连接管理的同步 HTTP 客户端。
- 异步 HTTP 客户端处理大量并发连接。
链接:
[## Apache http components—Apache http components
Apache HttpComponents 项目负责创建和维护低级 Java 组件的工具集…
hc.apache.org](https://hc.apache.org/)
类似文章:
Java,Kotlin,Scala,Groovy,Clojure
md-kamaruzzaman.medium.com](https://md-kamaruzzaman.medium.com/coding-languages-for-fintech-how-will-jvm-make-you-succeed-89f84af22296) [## 10 个优秀的 GitHub 库,适合每一个 Java 开发者
面向 Java 开发人员的基本 GitHub 库的精选列表
towardsdatascience.com](/10-excellent-github-repositories-for-every-java-developer-41084a91ade9) [## 您应该尝试的 25 个鲜为人知的 Java 库
对 Java 和 JVM 软件开发有很大帮助的库
towardsdatascience.com](/25-lesser-known-java-libraries-you-should-try-ff8abd354a94)
Python 中提高生产力的 10 大神奇命令
jupyter 笔记本中重要 IPython 魔术命令的实现
Artem Maltsev 在 Unsplash 上拍摄的照片
Python 不仅是最通用的编程语言,而且在集成新特性时也是最灵活的。也就是说,魔术命令是 python shell 中添加的重要特性之一。
python 中的魔法命令到底是什么?
魔术命令是在普通 python 代码上添加的增强功能,这些命令是由 IPython 内核提供的。
这些神奇的命令通常以“**%”**字符为前缀
添加这些命令主要是为了解决我们面临的常见问题,同时也为您的代码提供了一些快捷方式。
有两种神奇的命令可供使用— %前缀和%%前缀
% prefix 表示命令在单行代码上操作,而%% prefix 允许命令在整个单元上操作。
以下是在 jupyter notebook 中执行的魔法命令及其实现列表。
运行外部文件
当我们尝试在 jupyter 笔记本中运行一些代码片段时,我们希望运行位于某个目录中的外部代码文件。
%run 允许您从 jupyter 笔记本运行任何外部 python 文件
上面的文件 myCode.py 包含一个简单的脚本,它输出上述语句。
如果我们指定包含%run 命令路径的文件名,它将执行该文件。
注意:%run 也允许执行外部 jupyter 笔记本。
代码执行时间
有没有想过你的手机运行需要多长时间?
时间魔术命令允许跟踪你的细胞的总执行。
因为我们将在这里处理整个单元格,所以我们将在 time 关键字前使用%%作为前缀。
上面的单元格包括一个随机计算的 for 循环。%%time 有助于获得运行 for 循环所需的执行时间。
将内容复制到外部文件
大多数时候,您会觉得需要直接从 jupyter 笔记本中将内容添加到 python 脚本或文本文件中。
您可以通过在代码前添加 writefile 命令来直接导出单元格内容,而不是复制所有内容并创建新文件。
请注意命令前的双%,它表示将导出单元格的全部内容。
因为我已经创建了包含一些内容的文件,所以它显示“Overwriting myCode.py ”,指定它将用上面图像中显示的内容覆盖我的原始内容。
显示外部文件的内容
通常你会觉得需要从外部文件中复制几行代码到你的代码中。%pycat 允许您显示任何目录中任何文件的内容,而不是获取文件并打开它进行复制的漫长过程。
它将外部文件的所有内容显示为输出。就其应用而言,它可以被认为是%writefile 的反向。
克里斯·利维拉尼在 Unsplash 上的照片
抓紧了!大量令人惊奇的命令仍有待探索。
列出所有变量
这个神奇的命令显示了整个笔记本中使用的所有变量。
下面是 3 个变量——2 个字符串和 1 个整数。如果我们运行 %who,,它将列出我们已经定义的所有 3 个变量。
a = "hello"
b = "Good Morning"
c = 1
上面的代码显示了所有变量,不管它们的数据类型如何。
为了显示特定的数据类型变量,我们需要在 magic 命令后传递数据类型。上面的代码将所有 string 数据类型变量显示为其输出。
在笔记本之间共享变量
这个神奇的命令允许你在不同的 jupyter 笔记本之间共享任何变量。您需要用 magic 命令传递原始变量。
要检索变量,您需要传递带有’-r '参数的相同命令。
这是第一个笔记本的样子
检索这些数据所需的代码写在另一个笔记本上。
这可能是在不同笔记本之间共享任何数据类型的数据的最简单方式。
执行 html 脚本
%% html 允许我们在单元格中编写 html 代码。该单元格现在将充当 html 编辑器,输出该单元格的 html。
下面的代码包含一个用 html 创建的简单表格。您可以注意到显示预期表格的 html 输出。
%%html
<html>
<body>
<table>
<tr>
<th>Name</th>
<th>Country</th>
<th>Age</th>
</tr>
<tr>
<td>Sid</td>
<td>India</td>
<td>22</td>
</tr>
<tr>
<td>Dave</td>
<td>UK</td>
<td>28</td>
</tr>
</table>
</body>
</html>
提示:您可以使用类似于 HTML magic command 的%%js magic command 在单元格中运行 Javascript 代码。
显示 Matplotlib 图形
% matplotlib inlinemagic 命令是最流行的命令。这个命令允许 Jupyter notebook 在笔记本中显示 matplotlib 图形。此命令为您的 jupyter 笔记本激活 matplotlib 交互式支持。
import random
import matplotlib.pyplot as plt
%matplotlib inline
我们导入了一些解释命令功能所需的库。
我们现在将创建两个随机列表来绘制图表
a = []
b = []
for i in range(10):
a.append(random.randint(0,10))
b.append(random.randint(0,10))
现在我们将绘制数据的散点图。
plt.scatter(a,b)
%matplotlib inline magic 命令允许您在 jupyter 笔记本中可视化图形。
设置环境变量
这个神奇的命令允许你做 3 件事——列出所有的环境变量,获取特定环境变量的值,并为变量设置一个值。
没有参数的%env 将列出所有的环境变量。
带有单个参数的%env 将返回指定参数的值。
**‘%env 变量值’**将为指定的变量名设置值。
对象详细信息
%pinfo 提供了与其一起传递的对象的详细信息。它是类似于**的物体吗?**功能。
在下面的代码片段中,我传递了一个简单的字符串’ a '和%pinfo,以获得关于它的详细信息。
a = "The World Makes Sense!"
%pinfo a
从上面的输出中,%pinfo 提供了关于 string 对象的所有信息。
亚历克斯·纪尧姆在 Unsplash 上的照片
使用’ %lsmagic '命令可以找到所有的魔法命令列表。
%lsmagic
这些是我的 10 大神奇命令,可以帮助你提高工作效率,节省时间。
希望你喜欢!
分类 ML 模型的 10 大模型性能指标
机器学习基础
解释非常规,这将作为评估分类机器学习模型的详尽列表。
介绍
在本帖中,我们将了解 10 个最重要的模型性能指标,这些指标可用于评估分类模型的模型性能。
以下是 10 个指标的列表,我们将通过示例以相互关联的方式进行研究:
- 混淆矩阵
- 第一类错误
- 第二类错误
- 精度
- 回忆或真阳性率或灵敏度
- 精度
- 特异性
- F1 得分
- ROC 曲线- AUC 评分
- PR 曲线
一旦我们学会了正确的用法以及如何根据您的问题陈述来解释这些指标,那么评估分类模型的强度就变得轻而易举了。
让我们开始吧!
我们将使用一个数据集示例,该数据集具有用于训练逻辑回归模型的“是”和“否”标签。此用例可以是任何分类问题—垃圾邮件检测、癌症预测、流失率预测、活动目标预测等。在本帖中,我们将根据需要引用特殊用例。现在,我们将考虑一个简单的逻辑模型,它必须预测是或否
首先,逻辑模型可以给出两种输出:
1.它给出类别标签作为输出值(是/否,1/0,恶性/良性,流失/保留,垃圾邮件/非垃圾邮件等)。)
2.它给出 0 到 1 之间的概率值作为输出值,以表示某一事件对于特定观察的可能性。
类别标签场景可以进一步细分为平衡或不平衡数据集的情况,这两种情况都不能/不应该基于相似的度量来判断。一些指标更适合另一个,反之亦然。类似地,概率场景与类标签场景具有不同的模型性能度量。
下面是流程图,它是这篇文章的完美总结和完美序言,我们将在最后再次回顾这个流程图,以确保我们理解了所有的指标。
1.混淆矩阵
在构建任何统计或 ML 模型时,我们从开发数据集开始。将数据集分为两部分:训练和测试。将测试数据集放在一边,并使用训练数据集训练模型。一旦模型准备好进行预测,我们就尝试对测试数据集进行预测。一旦我们将结果分割成类似于上图所示的矩阵,我们就可以看到我们的模型能够正确预测多少,以及它的预测有多少是错误的。
我们用测试数据集中的数字填充下面的 4 个单元格(例如,有 1000 个观察值)。
- **TP(真阳性)😗*在测试数据集中,该列的实际标签为“是”,而我们的逻辑回归模型也预测为“是”。(500 次观察)
- **TN(真阴性)😗*在测试数据集中,该列的实际标签为“否”,而我们的逻辑回归模型也预测为“否”。(200 项观察)
- **FP(假阳性)😗*在测试数据集中,该列的实际标签为“否”,但我们的逻辑回归模型预测为“是”。(100 项观察)
- **FN(假阴性)😗*在测试数据集中,该列的实际标签为“是”,但我们的逻辑回归模型预测为“否”。(200 项观察)
这 4 个单元格构成了“混淆矩阵”,因为在该矩阵中,通过清楚地描绘出我们模型的预测能力,可以减轻对我们模型的良好性的所有混淆。
混淆矩阵是一个表格,通常用于描述分类模型(或“分类器”)对一组真实值已知的测试数据的性能。
2.第一类错误
第 1 类错误也称为假阳性,当分类模型错误地预测了最初错误观察的真实结果时就会发生。
例如:假设我们的逻辑模型正在处理垃圾邮件,而不是垃圾邮件。如果我们的模型将一封重要的电子邮件标记为垃圾邮件,那么这就是我们的模型的第一类错误的例子。在这个特定的问题陈述中,我们对尽可能减少 I 类错误非常敏感,因为重要的电子邮件进入垃圾邮件会产生严重的后果。
3.第二类错误
第二类错误也称为假阴性,发生在分类模型错误地预测了原本真实的观察结果的错误结果时。
例如:假设我们的逻辑模型正在处理一个用例,它必须预测一个人是否患有癌症。如果我们的模型将一个患有癌症的人标记为健康人,并将其错误分类,那么这是我们模型的第二类错误的一个例子。在这个特定的问题陈述中,我们对尽可能减少 II 型错误非常敏感,因为在这种情况下,如果疾病在受影响的人中继续未被诊断,假阴性可能导致死亡。
4.准确(性)
现在,上面讨论的三个指标是通用指标,与您拥有的训练和测试数据的类型以及您为您的问题陈述部署的分类算法的类型无关。
我们现在将讨论非常适合特定类型数据的指标。
让我们从这里开始讨论准确性,这是一个最适合用于平衡数据集的指标。参考下图,该图来源于本媒体文章。
来源:链接
如您所见,一个平衡的数据集是这样的:1 和 0、是和否、正和负由训练数据均等地表示。另一方面,如果两个类别标签的比率是倾斜的,那么我们的模型将偏向一个类别。
假设我们有一个平衡的数据集,让我们学习什么是准确性。
精度是测量结果与真实值的接近程度。它告诉我们,我们的分类模型能够多准确地预测问题陈述中给出的类别标签。
例如:假设我们的分类模型试图预测客户流失情况。在上图中,在总共 700 个实际流失客户(TP+FN)中,模型能够正确地对 500 个流失客户进行分类(TP)。同样,在总共 300 个保留客户(FP+TN)中,该模型能够正确地对 200 个保留客户(TN)进行分类。
准确率=(TP+TN)/客户总数
在上面的场景中,我们看到模型在 1000 个客户的测试数据集上的准确率是 70%。
现在,我们知道了准确性是一个应该只用于平衡数据集的指标。为什么会这样呢?让我们看一个例子来理解这一点。
在这个例子中,这个模型是在不平衡的数据集上训练的,甚至测试数据集也是不平衡的。准确性指标的得分为 72%,这可能给我们的印象是我们的模型在分类方面做得很好。但是,仔细看,这个模型在预测负面的阶级标签方面做得很糟糕。它只预测了 100 个总阴性标签观察中的 20 个正确结果。这就是为什么如果数据集不平衡,就不应该使用精度指标。
下一个问题是,如果你有一个不平衡的数据集,该怎么做呢?答案是召回率和精确度。下面我们来详细了解一下这些。
5.召回/灵敏度/ TPR
**回忆/敏感度/ TPR(真阳性率)**尝试回答以下问题:
正确识别实际阳性的比例是多少?
来源:维基百科
这个指标给出了 78%的召回分数,如上图所示。召回通常用在真理检测至关重要的用例中。例如:癌症预测、股市分类等。在这里,问题陈述要求假阴性最小化,这意味着召回/灵敏度最大化。
6.精确
精密试图回答以下问题:
实际上有多少比例的正面认同是正确的?
来源:维基百科
上图中显示的示例向我们展示了精度分数为 75%。精度通常用于最重要的是不要有大量误报的情况。例如:在垃圾邮件检测案例中,正如我们上面所讨论的,误报是指不是垃圾邮件但被我们的分类模型分类为垃圾邮件的观察结果。太多的误报会破坏垃圾邮件分类器模型的目的。因此,在这种情况下,Precision 在判断模型性能时非常方便。
7.特征
特异性(也称为真阴性率)衡量被正确识别的实际阴性的比例。
来源:维基百科
基于我们用来理解精确度的同一个垃圾邮件检测分类器示例。特异性告诉我们,我们的模型能够准确地分类多少否定。在本例中,我们看到特异性=33%,这对于垃圾邮件检测模型来说不是一个好的分数,因为这意味着大多数非垃圾邮件被错误地分类为垃圾邮件。通过查看特异性度量,我们可以得出这个模型需要改进的结论。
8.F1 分数
我们分别在第 6 点和第 7 点讨论了召回率和精确度。我们知道,在一些问题陈述中,较高的召回率优先于较高的准确率,反之亦然。
但是在一些用例中,区别不是很明显,作为开发人员,我们希望同时重视召回率和精确度。在这种情况下,可以使用另一个指标——F1 分数。它依赖于精确度和召回率。
在二进制分类的统计分析中, F1 得分(也称为 F 得分或 F 度量)是测试准确度的一种度量。它同时考虑了测试的精度 p 和召回率 r 来计算分数
来源:维基百科
在讨论最后两个指标之前,下面是维基百科上提供的一个很好的汇总表,涵盖了我们到目前为止在本文中讨论的所有指标。放大看看图像是否看起来不清楚。
来源:维基百科
现在,我们在这篇文章的最后一站。到目前为止,我们已经讨论了预测类别标签的分类模型的模型性能度量。现在,让我们研究基于概率运行的模型的度量。
9.ROC 曲线- AUC 评分
曲线下面积(AUC),受试者工作特征曲线(ROC)
这是用于衡量模型性能的最重要的指标之一,在数据科学家中广受欢迎。
让我们从一个例子开始理解这一点。我们有一个分类模型,给出 0-1 范围内的概率值来预测一个人肥胖与否的概率。接近 0 的概率值表示所考虑的人肥胖的概率非常低,而接近 1 的概率值表示人肥胖的概率非常高。现在,默认情况下,如果我们考虑 0.5 的阈值,那么所有概率≤0.5 的人将被归类为“不肥胖”,而概率> 0.5 的人将被归类为“肥胖”。但是,我们可以改变这个阈值。如果我把它变成 0.3 或者 0.9 呢。让我们看看会发生什么。
为了便于理解,我们在样本中选取了 10 个人。
为了绘制 ROC 曲线,我们必须在 x 轴上绘制(1-特异性)即假阳性率,在 y 轴上绘制灵敏度即真阳性率。
ROC ( 接收器操作特性)曲线告诉我们该模型能够多好地区分两种情况(例如 患者是否肥胖)。更好的模型可以准确区分两者。然而,一个差的模型将很难区分这两者。
我们将看到 4 种不同的场景,其中我们将选择不同的阈值,并将计算 ROC 曲线的相应 x 轴和 y 轴值。
场景 1:阈值=0.9
场景 2:阈值=0.6
场景 3:阈值=0.3
场景 4:阈值=0
现在,我们有 4 个数据点,在它们的帮助下,我们将绘制我们的 ROC 曲线,如下所示。
因此,这就是如何为分类模型绘制 ROC 曲线,方法是分配不同的阈值以创建不同的数据点来生成 ROC 曲线。ROC 曲线下的面积称为 AUC。AUC 越多,你的模型就越好。你的 ROC 曲线离中间线性线越远,你的模型越好。这就是 ROC-AUC 如何帮助我们判断分类模型的性能,并为我们提供从许多分类模型中选择一个模型的方法。
10.PR 曲线
在数据主要位于负标签的情况下,ROC-AUC 将给出一个不能很好代表现实的结果,因为我们主要关注正比率方法,TPR 在 y 轴上,FPR 在 x 轴上。
例如,看看下面的例子:
在这里,您可以看到大部分数据位于负标签下,ROC-AUC 不会捕获这些信息。在这种情况下,我们求助于 PR 曲线,它只不过是精确召回曲线。
在 PR 曲线中,我们将在 Y 轴上计算并绘制精度,在 X 轴上绘制召回,以查看我们的模型表现如何。
就是这样!我们已经到达这篇文章的结尾。我希望它有帮助。
你可以从我的个人资料中查看 ML 上的其他帖子。我发表的文章是关于特性缩放的,如果你喜欢的话,可以读一读。
[## 清楚地解释:什么,为什么和如何特征缩放-规范化和标准化
特征缩放的重要性以及如何应用它。我的机器学习模型会从规范化中受益吗?
towardsdatascience.com](/clearly-explained-what-why-and-how-of-feature-scaling-normalization-standardization-e9207042d971)
请关注这个空间,了解更多关于机器学习、数据科学和统计学的内容!
快乐学习:)
十大最常用的数据角色和技能
意见
最全面的数据职业道路指南 出在这里
照片由 Jonathan Chng 在 Unsplash 上拍摄
在当今快速发展的技术世界中,当人类倾向于生成大量数据时,分析数据是必不可少的。数据现在是商业的新前沿,或者我可以说它已经成为这个时代商业的燃料。对于一个处理数据和信息的组织来说,可以获得各种各样的工作来收集、整理和检查信息。
据估计,到 2026 年将有 1150 万个新工作岗位(来源:美国劳工统计局)
从简单的功能到值得注意的知识,每一项信息工作的职责可能会有很大的混乱。在这个故事中,我从与招聘人员、同行的交谈或阅读我的 Google Feed 推荐的文章中,收集了数据行业中最受雇佣的角色以及首选技能、角色和职责的信息。请继续阅读,了解它们是什么!
1.商业分析员
业务分析师负责分析一个组织或业务,它的过程、需求或系统。业务分析师的主要角色是评估业务模型或其与技术的集成。
简单地说,业务分析师负责将业务预期转化为数据分析。如果核心数据团队缺乏领域专业知识,业务分析师可以弥合这一鸿沟,并帮助企业做出数据驱动的决策。基于数据分析,指导企业改进流程、产品、服务或软件。
首选技能
数据可视化、商业智能、SQL
角色和职责
- 改进业务流程
- 充当业务和 IT 需求之间的中介
- 数据可视化工具— Tableau、Power BI、Looker、Alteryx
- 商业智能理解
- 数据建模
- 有意识的倾听和讲故事
2。数据分析师
在我看来,典型的数据分析师最擅长发现如何使用数据来回答问题和解决问题。
数据分析师的角色围绕着正确的数据收集和解释的使用。数据分析师的工作是确保收集的数据相关且详尽,同时解释分析结果。企业雇佣数据分析师,让他们具备可视化和讲故事的技能,将孤立的数字转化为切实的见解。
首选技能
r、Python、JavaScript、C/C++、SQL
角色和职责
- 收集、处理、执行统计分析
- 可视化交流
- 数学、统计和机器学习
- Excel,电子表格
- 数据库系统:SQL 和 NoSQL
3.数据架构师
“你不能在薄弱的基础上建造伟大的建筑。如果你要有一个强大的上层建筑,你必须有一个坚实的基础。”~戈登·b·欣克利
数据架构是模型、策略、规则或标准的结构,用于管理收集的数据,以及如何在数据系统和组织中存储、安排、集成和使用这些数据。
在这种情况下,数据架构师的角色包括设计、创建、部署和管理组织的数据架构。
数据架构师是企业的关键,因为他们的角色是处理大量数据——是的,大数据!数据架构师与云平台、数据仓库、数据库架构、数据集中化密切合作,并确保不同来源的完整性。
首选技能
SQL,NoSQL,XML,Hive,Pig,Hadoop,Spark
角色和职责
- 创建数据管理蓝图
- 集成、集中、保护和维护数据源
- 数据库
- 数据建模
- 系统开发
- 深入了解数据库架构
- 开发数据管道
- 提取、转换、加载、商务智能工具
4.数据库管理员
数据库管理员的工作职责是不言自明的——他们负责企业所有数据库的正常运行,并根据公司员工的要求授予或撤销其服务。他们还负责数据库备份和恢复。
如何成为一名数据库管理员?
数据库管理员的一些必备技能和才能包括数据库备份和恢复、数据安全、数据建模和设计等。对于数据库管理员来说,擅长灾难管理当然是一个额外的收获。
首选技能
SQL、Python、Java、Ruby on Rails、XML、C#
角色和职责
- 数据库应随时可供所有相关用户使用
- 数据库保持安全并正常运行
- 数据建模和设计
- 灾难管理
- 分布式计算(Hadoop)
- ERP 和商业知识
- 数据库系统:SQL 和 NoSQL
5.数据工程师
数据工程师实施、测试并保存记录数据流和设计的基础设施附加信息。实际上,一个数据工程师的职位可能会融合在一个人身上,这个人具有一系列非常相近的能力:ETL、管道。
数据工程通常包括数据设计、构建和数据系统的安装,作为他们职责的一部分。数据工程师在数据团队中推动机器学习和人工智能分析,包括数据采集、数据转换、数据建模以及更多围绕数据处理的工作。
首选技能
SQL,NoSQL,Hive,Pig,Matlab,SAS,Python,Java,Ruby,C++,Perl
角色和职责
- 开发、构建、测试、维护数据架构师
- 数据 API
- 数据建模和 ETL 工具
- 数据仓库技术
- 数据库系统:SQL 和 NoSQL
**6。**数据记者
就我的理解而言,数据记者的角色主要围绕着通过将数据放在正确的环境中来理解数据输出。他们还负责阐明业务问题,并在引人注目的故事中塑造分析结果。
虽然要求有编码和统计经验,数据记者应该能够向利益相关者提出想法,并代表数据团队与那些不熟悉统计的人打交道。
首选技能
SQL,Python,R,Scala,Carto,D3,QGIS,Tableau
角色和职责
- 为数据驱动的故事产生想法
- 将数据的开发和可视化概念化
- 报告和分析数据,以描述一系列平台上令人信服的故事
- 在编辑会议上代表数据团队和新闻团队
7。数据科学家
假设你不打算成为独角兽,数据科学家负责使用机器学习和数据挖掘技术解决业务任务。如果这太模糊,可以通过进一步的模型训练和评估将角色缩小到数据准备和清理。
通过推断和共享隐含的数据见解,数据科学家可以帮助企业在数据的帮助下解决棘手的问题。将数据科学与数据建模、统计、分析和数学技能相结合,以及商业敏锐度,数据科学家发现主要问题的解决方案,帮助企业成为可靠的数据科学家。
首选技能
r,SAS,Python,MATLAB,SQL,NoSQL,Hive,Pig,Hadoop,Spark
角色和职责
- 清理和组织数据
- 预测建模
- 讲故事和视觉化
- 数学、统计和机器学习
- 分布式计算
8。数据分析经理
数据分析经理引导数据科学团队的方向,并确保设置正确的优先级。这个人将多样化技术中的强大技术技能与管理团队所需的社交技能结合起来。
首选技能
SQL,Python,R,SAS,Matlab,Java,NoSQL,Pig,Hive,Hadoop
角色和职责
- 管理分析师和数据科学家团队
- 为数据向导欢呼,解决挑战,并跟踪进展
- 领导力和项目管理
- 数据挖掘和预测建模
- 数据库管理系统:SQL 和 NoSQL
- 人际沟通
9.机器学习工程师
机器学习工程师通过确定使用哪个模型以及每个模型应该使用什么数据来检查结合软件工程和建模技能的任务。
概率统计也是机器学习工程师的强项。机器学习工程师的日常职责是训练、监控和维护模型。
首选技能
r,Python,Scala,Julia,Java
角色和职责
- 设计和开发机器学习和深度学习系统
- 运行机器学习测试和实验
- 实现适当的 ML 算法
- 进行统计分析
- 培训和再培训数据和系统
- 承担机器学习实验和测试
- 基于业务需求开发深度学习系统
- 最后实现合适的 AI/ML 算法
10.统计员
这一切都始于数据及其洞察力的历史领导者——统计学家。
统计学家在统计理论和方法方面的深厚背景,逻辑和以统计为导向的思维模式使他们能够收获数据,并将其转化为有用的信息和知识。
统计学家可以处理各种数据,并不断探索还能做什么。由于他们的定量背景,2020 年的统计学家可以快速掌握新技术,提高他们的智力。统计学家带来了“数学魔力”,正是统计学家的洞察力可以从根本上改变业务和决策。
首选技能
r,SAS,SPSS,Perl,Matlab,Stata,Python,Pig,Hive,SQL,Spark
角色和职责
- 收集、分析和解释数据
- 进行定性和定量数据分析
- 统计理论和方法
- 数据挖掘和机器学习
- 云工具:AWS,谷歌云,Azure
- 分布式计算(Hadoop)
- 数据库系统— SQL 和 NoSQL
虽然上述职业和角色只是在查看不同的数据科学职位发布时对企业期望的一种解释,但我们确实揭示了当今市场上可用的不同数据科学职位。与此同时,不要忘记保持您的数据科学技能与时俱进。
这就是我的博客的结尾。感谢您的阅读!我希望你喜欢这篇文章。请务必告诉我,在您的数据之旅中,您期待探索哪些数据角色?
数据帐篷快乐!
免责声明:本文表达的观点仅代表我个人,不代表严格的观点。
了解你的作者
拉什是芝加哥伊利诺伊大学的研究生。她喜欢将数据可视化,并创造有见地的故事。当她不赶着赶学校的最后期限时,她喜欢喝一杯热巧克力,写一些关于技术、UX 等的东西。
数据科学十大时事通讯
你认为报纸和时事通讯哪个先出现?
来源: Unsplash
我为什么要问?不是为了确定哪个更好,而是为了强调简讯是最古老的和最新的知识传播媒介。
时事通讯起源于古罗马,最初是为一群人提供的手写信息,后来转变成面向更广泛受众的报纸。
为特定利益群体管理知识的文化在线下和线上媒体中仍然很受欢迎——无论是通过报纸的周日杂志还是免费的周日版。
报纸和时事通讯的一个共同点是,它能帮助你适应一天的工作。它用新鲜的想法触发头脑,此外,阅读的行为有助于你集中注意力。
作为数据领域的专业人士,我们的工作要求我们不仅要了解生态系统中正在发生的事情,还要不断向我们的知识库添加新的工具和技术。
此外,吸引我们的不仅仅是尖端人工智能技术的发明,还有人类商业和生活中的应用,同意吗?
那么,在哪里可以找到这样的信息呢?🤔
尤其是现在— 信息过载的年代?好吧,这就是时事通讯帮助我们的地方!
订阅数据科学简讯,每天或每周将精选信息发送到您的收件箱,这是一个很好的起点。为了缩小你的搜索范围,这里有一个十大时事通讯的列表。
附言如果你坚持到最后,我们会有两个惊喜!🤩
在今天的新闻中
TLDR
《TLDR》是一份每日时事通讯,因其字节大小的技术、科学和编码信息而广受欢迎。
由技术爱好者李丹管理,这份时事通讯是任何数据科学爱好者的必读之作。李将时事通讯分为如下几个清晰的部分:
- 每日更新
- 大型科技和创业公司
- 科学和未来技术
- 程序设计和数据科学
这篇时事通讯最好的部分是在每个故事链接下面给出的简明摘要。查看最新一期这里订阅这里。
CB insight
这份简讯可以作为您获取以下所有最新消息的电子邮件:
- 技术趋势
- 风险资本
- 创业公司
…所有这些都有强大的数据点、研究和合理的趋势图作为后盾。他们的网站上充满了疯狂的评论,所以去看看,并在这里订阅。
数据中的一周
如果您想了解全球各地发生的最佳数据事件,也想享受参加这些讲座的折扣,本新闻通讯将为您提供有关数据和技术新动态的所有有趣新闻。
它是由 ODI(开放数据倡议)策划的,ODI 于 2012 年由 web 和 AI 的发明者蒂姆·伯纳斯·李爵士和奈杰尔·沙德博尔特爵士发起,旨在向所有人展示开放数据的价值。点击这里可以订阅。
来源:数据中的 T he 周截图情人节版
内部数据科学
数据科学综述
这篇时事通讯中友好的第一人称的声音让读者感觉好像是特里斯坦·汉迪在亲自和我们讨论本周的热门数据博客文章。这绝对是我们的最爱之一🧡订阅简讯这里。
点击查看他的 2019 年前 20 篇文章综述。
来源:数据科学综述时事通讯的片段
重要
这篇时事通讯有一个有趣的格式,有助于揭开人工智能的神秘面纱。这封信的作者杰克·克拉克(Jack Clark)也是 open . ai(open . ai)的主管,他的写作风格非常自然。*“为什么那很重要”*部分给出了对版本中每一件作品的理解和作者的观点。
最有趣的部分是简讯的最后一部分,一个科技故事,这是一个有趣的故事,由科技和人工智能的一些相关主题编织而成。查看其档案部分,并在此订阅。
布丁
如果不添加一个好的数据可视化时事通讯,我们的列表将是不完整的!
让这份简讯脱颖而出的是,它的每一版都是一个有趣的数据故事,具有美丽而强大的可视化效果。他们称这些故事为视觉散文。查看到目前为止创作的所有视觉散文这里订阅信这里。
来源:布丁的数据可视化故事之一。
新技术和资源
数据科学周刊
这份时事通讯充满了新的知识。它包含数据科学领域的有用文章、视频、指南和工作。对于刚接触数据生态系统并希望了解更多信息的人来说,这篇新闻简报是一个很好的起点。订阅它这里。
P . S .。他们为有抱负的数据科学家提供了一些非常有用的资源,帮助他们踏上征程。点击查看它们。
数据是复数
每周杰里米·辛格都会在你的收件箱里发送一些最有趣的公开数据集,让你大吃一惊。他们一定会提示你内心的数据分析师,从他的列表里挑一个,自己去分析。你可以在这里订阅时事通讯。
数据药剂
这份时事通讯是每周一次的对数据世界的学习和见解,内容简洁,不太多。它包含以下几个部分:
- 工具和技术
- 数据即
- 会议和活动
奥莱利数据通讯
是的,这是同一个 O’Reilly,它出版了数据科学领域的书籍,他们的时事通讯也同样不错,内容丰富。他们也有单独的人工智能时事通讯,只关注人工智能新闻和资源。您可以在此查看样本简讯并在此订阅。
来源:奥赖利数据通讯的一个片段
现在是揭开惊喜的时候了!🥁
特别提到我们一直以来最喜欢的时事通讯等等,但是为什么和 xkcd 。
这两个简讯几乎总能让您喜笑颜开,并促使您从不同的角度进行思考,这有时是应对我们富有创造力和多功能的数据科学领域的挑战所必需的。
这篇文章最初发表在 Atlan 的人类数据上。
参考文献
每个人都必须知道的 10 大 OpenCV 函数
我们来看一下 OpenCV 库,它同时用于计算机图形和视觉。
计算机视觉和计算机图形学现在真的很受欢迎,因为它们与人工智能有很大的联系,它们的主要共同点是它们使用同一个库 OpenCV 以便从数字图像或视频(CV)或生成图像(CG)中执行高级理解。
这就是为什么今天我们要来看看这个为计算机科学的这些大领域提供燃料的同一个库,看看有哪些功能可以让你受益匪浅!
原创图片由创作
在我们进入 OpenCV 的强大功能之前,让我们看一下计算机视觉、图形和 OpenCV 的定义,以便更好地理解我们在这里做什么。
计算机视觉
计算机视觉是一个跨学科领域,研究如何让计算机获得对数字图像或视频的高级理解。从工程的角度来看,它寻求将人类视觉系统可以完成的任务自动化。
电脑图形图像
计算机图形学是计算机科学的一个分支,它研究在计算机的帮助下生成图像。今天,计算机图形是数码摄影、电影、视频游戏、手机和计算机显示器以及许多专业应用的核心技术。
OpenCV
OpenCV(开源计算机视觉库)是一个开源的计算机视觉和机器学习软件库。OpenCV 旨在为计算机视觉应用提供一个公共基础设施,并加速机器感知在商业产品中的应用。
该库提供了处理和分析图像内容的工具,包括识别数字照片中的对象(如人脸和人物、文本等。),跟踪物体的运动,转换图像,应用机器学习方法,识别各种图像中的共同元素。
一旦我们解决了这个问题,我们就可以从我个人选择的 10 大功能开始。(用 Python 编写的函数代码)
imread/imshow
这个功能必须是第一位的,因为它是用图像开始你的项目的关键。从这个函数的名字就可以猜到,它加载了一个 BGR(蓝绿色红色)格式的图像。
import cv2
import matplotlib.pyplot as plotimage = cv2.imread('data.png') #load image
plot.imshow(image) #show image
CVT 颜色
加载图像后,还可以使用 cvtColor 中的不同标志将其转换为不同的配色方案。
cv2.cvtColor(image,cv2.COLOR_BGR2RGB)
下面是 cvtColor 的一些其他标志:COLOR_BGR2GRAY、COLOR_BGR2HSV、COLOR_BGR2YUV 等。
这是双向的,所以比如 COLOR_YUV2BGR 也是可以的。
调整大小
有时你只需要一个不同大小的图片,这就是你需要的功能。
cv2.resize(image, dimension, interpolation = cv2.INTER_AREA)
它获取原始图像,并使用 dimension 创建一个新图像。尺寸定义为:
dimension = (width, height)
插值是它对图片重新采样的方式,在我的具体例子中,它使用INTER _ AREA——使用像素区域关系重新采样,还有更多类似的方式
- INTER_NEAREST: 最近邻插值
- INTER_LINEAR: 双线性插值
- **INTER _ CUBIC:**4×4 像素邻域上的双三次插值
- INTER _ LANCZOS 4:8×8 邻域上的 lanc zos 插值
拆分/合并
每张图片有 3 个通道,如果我们想将它们分割成单独的图像,我们可以使用分割功能。
(channel_b, channel_g, channel_r) = cv2.split(img)
如果图像是 BGR 格式,它会将每个通道分成你定义的三个变量。
在你已经分割了频道并且你想要将它们合并在一起,你使用合并。
cv2.merge(channel_b, channel_g, channel_r)
vconcat/hconcat
使用vconcat()
、hconcat()
纵向和横向连接(组合)图像。v
表示垂直,h
表示水平。
cv2**.**vconcat([image1, image2])
cv2**.h**concat([image1, image2])
1/0
如果您想要在所有三维空间用 1 或 0 填充图像(Mat ),因为 Mat 需要彩色图像的 3 个层/维度。
size = 200, 200, 3
m = np.zeros(size, dtype=np.uint8)
n = np.ones(size, dtype=np.uint8)
作为一个额外的功能,我想在这里补充一点,那就是转置功能。
移项
如果我们有一个要转置的定义好的矩阵 mat,我们要做的就是对它使用这个函数:
import numpy as np
mat = np.array([[1, 2, 3], [4, 5, 6]])
mat_transpose = mat.transpose()
print(mat_tranpose)
我们得到输出:
[[1 4]
[2 5]
[3 6]]
#original input
[[1, 2, 3]
[4, 5, 6]]
我们完了!
后续步骤
这主要是针对初学者的,但是下一次我们将看看 OpenCV 更高级的特性。
在此之前, 跟我 求更!😎
感谢阅读!
查看我的其他文章并关注我的媒体
当我发布一篇新文章时,请在 Twitter 上关注我
了解数据科学的十大热门 GitHub 存储库。
数据科学
以下是 GitHub 上一些关于数据科学的最佳资源。
itHub 是一个来自世界各地的程序员共享代码的平台。这是一个协作、学习、培养技能等等的地方。但是 GitHub 不仅仅是一个分享代码的地方,它还是一个分享资源的地方。
Github 中的数据科学
自创建以来,GitHub 一直被认为是软件工程师的居所。但随着数据呈指数级增长,Python 和 JavaScript 等语言变得流行,GitHub 已经成为数据科学爱好者和专业人士的巨大社区。
随之而来的是,出现了大量主题为“机器学习”、“自然语言处理”、“计算机视觉”的知识库,最突出的是 python 库“Scikit-learn”和“TensorFlow”,这是两种流行的用于数据科学的 Python 工具。GitHub 中数据科学的兴起催生了许多免费资源,帮助成千上万的数据爱好者了解数据科学。
DIY 数据科学
这些免费资源隐藏在金色的 GitHub 仓库中,收集了大量与数据科学相关的资源。任何你能想到的,都在那里。寻找学习数据科学的学院、在线课程(MOOC)、网站、数据集、时事通讯、播客、书籍等。
因此,与其为互联网上过多的在线课程付费,为什么不去 GitHub 创建自己的数据科学课程呢?关于白手起家的数据科学家如何从对编程一无所知到在大型科技公司工作的故事数不胜数。那个人也可以是你!
所以在这篇文章中,我将与你分享这些资源。不分先后听。现在就来看看下面吧!
目录
- 一般
- 路线图
- 备忘单
- 博客
- 书
- 编程;编排
1.牛逼的数据科学
作者:法提赫·阿克图尔克,侯赛因·梅尔特 & 奥斯曼·温古尔,雷杰普·埃罗尔。
这本书无疑是关于数据科学的最佳资源集。它几乎涵盖了学习数据科学的所有方面,从解释为什么学习数据科学的动机方面开始。然后是视觉信息图,帮助初学者理解数据科学的整个途径。剩下的就是数据集、博客、播客、书籍、比赛等资源。
这份报告对那些数据科学新手非常有帮助,肯定有助于缓解学习曲线。
2.数据-科学家-路线图
作者: MrMimic
数据科学路线图 Swami Chandrasekaran
这个报告的灵感来自 Swami Chandrasekaran 的数据科学技能路线图。它包含成为一名数据科学家所需的全部内容,从基础知识、统计学、编程到机器学习、数据可视化和数据管理。还有一个存放数据科学家在工作中使用的工具的文件夹。
如果你想了解成为数据科学家的历程,这份报告正适合你。
3.数据科学最佳资源
正如 readme.md 中提到的,这个 repo 是一个精心策划的资源和链接(关于软件、平台、语言、技术等主题)的宝库。)与数据科学相关的,都在一个地方。它有各种各样的资源——人工智能文章、亚马逊网络服务、博客、书籍、文章、MOOCs、可视化、神经网络、云计算、REST API、时间序列等等。
这个回购是为那些寻找与数据科学相关的各种主题的有趣文章的人准备的。
4.数据科学备忘单
由: Asif Bhat
正如 repo 的名字所暗示的,这个 repo 包含了所有数据科学的备忘单。备忘单对于初学者来说是非常好的,可以让他们以直观的方式进入一个主题,并对他们正在钻研的主题有所了解。这些小抄包括 AI、大数据、数据角力、Git、面试问题、机器学习、Numpy 等主题。
这是为那些寻找数据科学小抄的人准备的。
5. Ds-cheatsheets
作者:法维奥·安德烈·巴斯克斯
这是另一个回购,其中包含大量数据科学备忘单。与之前的回购相比,这是一个较小的列表,但在您的数据科学资源库中有更多可用的备忘单也无妨。然而,这个回购有一些有趣的备忘单,涉及商业科学、R、SQL、数据可视化等主题。
这个回购是为每个人谁是寻找数据科学的小抄。
6.数据科学资源
作者: jb
这个回购开始时是创作者的资源宝库,但在意识到数据科学变得如此流行后,它最终成为数据科学主题和高质量资源的精选列表。
最初的目标是涵盖数据科学的技术方面,如编程、数据管道和工具以及机器学习。但是,由于数据科学正在世界各地的企业中实施,因此也涵盖了数据科学团队、用例以及职业道路等主题。
这个回购是为那些希望学习数据科学和利用给定的职业资源规划未来职业生涯的人准备的。
7.数据科学博客
作者: Artem Golubin
这个报告包含了大量的数据科学博客,供你了解数据科学的一切。为了便于导航,列表按字母顺序排列,链接就在博客标题的旁边。数据科学博客是解释、建议、技巧和诀窍以及端到端教程和项目的绝佳选择。一些著名的博客包括 Analytics Vidhya、Data Science Dojo Blog、Drew Conway、FastML 等。
对于那些希望发现数据科学内容的伟大博客的人,请查看此回购。
8.免费数据科学书籍
作者:吴语
本报告包含学习数据科学和大数据的免费资源。它首先介绍什么是数据科学,然后是数据处理和数据分析、统计学、机器学习,最后是数据科学的应用。这个回购的一个好处是,每个资源旁边都有初级、中级和资深标签,确保你根据自己的水平学习。
这个回购是为那些寻找免费数据科学资源和数据科学速成班。
9。 自由数据科学学习
作者:学数据 Sci
这个回购包含一个免费数据科学书籍的列表。学习数据科学的书籍是令人惊奇的,因为你在做“如何做”之前学习它们为什么,这对于像数据科学这样复杂的主题是很重要的。每个链接都会把你带到这些书的 pdf 文件,你可以开始免费阅读它们。
这个回购是为那些寻找关于数据科学的免费书籍。
10.数据-科学-维基
作者:伦纳德
这个报告是 DevOps 指南、脚本和教程的列表。有一个类别是从初学者到高级水平的数据科学、Python 编程、Linux 教程、git、代码编辑器和机器学习。这些教程以文章、youtube 视频、在线课程等形式出现。
这个回购更多的是面向希望学习如何编码的数据科学爱好者。
行动计划
西蒙·米加杰在 Unsplash 上拍摄的照片
itHub 存储库就像是宝贵资源的宝库,可以启动您的数据科学之旅。有了上面大量的免费资源,你就可以用自己的课程学习数据科学了。
有了这些回复,你可以通过备忘单更多地了解什么是数据科学,找到我们的哪些编程语言是重要的,找到你最喜欢的 YouTuber,关注分享丰富帖子的 Twitter 帐户,找到一本为你提供知识并培养你的技能的书。
所以,在你的浏览器中把这些资源加入书签,或者把它们保存在你的笔记中,当你需要它们的时候就可以参考它们。或者像上面的数据科学家一样,制定自己学习数据科学的路线图。
保持动力
您还可以创建自己的 GitHub repo 和 commit 网站、书籍和教程,帮助您了解这个多学科领域的更多信息。学习过程中的一个重要部分是记录你的进步,因为这会让你更有动力和灵感。同样,参加像#100DaysofMlcode 这样的挑战也能让你保持热情。
投资组合
这会让你有一个作品集,你可以向你周围的人展示,并增加你的工作前景。在这个文件夹中,你可以展示你用上述资源完成的项目,并突出你的技能。
所以,现在就在 GitHub 上记录下你的进步,并与世界分享吧!
感谢你阅读这篇文章,我希望它对你有用。注意安全。
如果您对学习数据科学感兴趣,请查看“超学习”数据科学系列!
这是一个简短的指南,基于《超学习》一书,应用于数据科学
medium.com](https://medium.com/better-programming/how-to-ultralearn-data-science-part-1-92e143b7257b)
查看其他文章,了解更多关于数据科学的知识。
[## 互联网上 20 大免费数据科学、ML 和 AI MOOCs
以下是关于数据科学、机器学习、深度学习和人工智能的最佳在线课程列表
towardsdatascience.com](/top-20-free-data-science-ml-and-ai-moocs-on-the-internet-4036bd0aac12) [## 机器学习和数据科学的 20 大网站
这里是我列出的最好的 ML 和数据科学网站,可以提供有价值的资源和新闻。
medium.com](https://medium.com/swlh/top-20-websites-for-machine-learning-and-data-science-d0b113130068) [## 开始数据科学之旅的最佳书籍
这是你从头开始学习数据科学应该读的书。
towardsdatascience.com](/the-best-book-to-start-your-data-science-journey-f457b0994160) [## 数据科学 20 大播客
面向数据爱好者的最佳数据科学播客列表。
towardsdatascience.com](/top-20-podcasts-for-data-science-83dc9e07448e)
联系人
如果你想了解我的最新文章,请通过媒体关注我。
其他联系方式:
注意安全!
作为数据科学家,你需要学习 Python 的 7 大理由
Python 给数据科学家带来的好处
在 Unsplash 上由 Hitesh Choudhary 拍摄的照片
作为一名新的数据科学家,你知道你的道路从你需要学习的编程语言开始。在所有可供选择的语言中,Python 是最受所有数据科学家欢迎的语言。在这篇文章中,我将讲述 Python 流行背后的 7 个原因,这将帮助你理解为什么程序员喜欢它。
1.简单
Python 是开始您的旅程最简单的语言之一。此外,它的简单性不会限制您的功能可能性。
是什么赋予 Python 如此的灵活性?有多种因素:
- Python 是一种免费的开源语言
- 这是一个高级编程
- Python 被解读
- 它有一个庞大的社区
另外,Python 写起来速度很快。只需比较这两个用 Java 和 Python 编写的例子:
这个简单的例子展示了如何从 Python 中获益。您只需要编写 1 行代码,而不是输入 3 行代码。想象一下,在更复杂的任务中你可以节省多少时间。
1.可量测性
Python 是一种扩展速度非常快的编程语言。在所有可用的语言中,Python 是伸缩性的领导者。这意味着 Python 有越来越多的可能性。
Python 的灵活性对于应用程序开发中的任何问题都非常有用
随着新的更新即将到来,任何问题都可以很容易地解决。说 Python 为新手提供了最好的选择,因为有很多方法来决定同一个问题。
即使你有一个懂 c++设计模式的非 Python 程序员团队,就开发和验证代码正确性所需的时间而言,Python 也更适合他们。
它发生得很快,因为你没有花时间去寻找内存泄漏,编译或分段错误。
2.库和框架
由于它的流行,Python 有数百个不同的库和框架,这对你的开发过程是一个很好的补充。它们节省了大量手动时间,可以轻松替换整个解决方案。
作为一名数据科学家,你会发现许多这些库将专注于数据分析和机器学习。此外,还有对大数据的巨大支持。我认为应该有一个强有力的理由来解释为什么你需要把 Python 作为你的第一语言。
下面给出了其中的一些库:
这是伟大的数据分析和数据处理。Pandas 提供数据操作控制。
NumPy 是一个免费的数值计算库。它提供了高级数学函数和数据操作。
这个图书馆与科学和技术计算有关。SciPy 可用于数据优化和修改、代数、特殊函数等。
3.Web 开发
为了让你的开发过程尽可能的简单,学习 Python 吧。有很多 Django 和 Flask 库和框架可以让你的编码更有效率并加快你的工作。
如果你比较 PHP 和 Python,你会发现同样的任务可以通过 PHP 在几个小时的代码内创建。但是使用 Python,只需要几分钟。看看 Reddit 网站就知道了——它是用 Python 创建的。
以下是 Pythons 开发的全栈框架:
- 姜戈
- 金字塔
- Web2py
- 涡轮齿轮
以下是 Pythons 开发的微框架:
- 瓶
- 瓶子
- 樱桃派
- 紧抱
此外,您可能需要考虑一个替代框架:
- 龙卷风
4.巨大的社区
正如我之前提到的,Python 有一个强大的社区。你可能认为这不应该是你选择 Python 的主要原因之一。但事实恰恰相反。
如果你得不到其他专家的支持,你的学习之路会很艰难。这就是为什么你应该知道这不会发生在你的 Python 学习过程中。
以下是一些 Python 社区的列表:
官方 Python 有用链接:
官方教程:http://docs.python.org/tutorial/
语言参考:http://docs.python.org/reference/
每日新闻和互动
巨蟒日报:http://www.pythonware.com/daily/
星球巨蟒:http://planet.python.org/
视频教程:http://showmedo.com/videotutorials/python
事实:http://www.ibiblio.org/swaroopch/byteofpython/read/
团体
Irc 节点:【http://www.python.org/community/irc/】T2
stack overflow:http://stackoverflow.com/questions/tagged/python?排序=最新的
5.自动化
使用 PYunit 这样的 Python 自动化框架有很多好处:
- 不需要安装额外的模块。它们和盒子一起送来的
- 即使你没有 Python 背景,你也会发现使用 Unittest 非常舒服。它是衍生的,工作原理类似于其他的 xUnit 框架。
- 你可以用一种更直接的方式来运行单个实验。你应该简单地在终端上指出名字。输出也很紧凑,这使得该结构在执行测试用例时具有适应性。
- 测试报告在几毫秒内生成。
用于测试自动化的 5 个 Python 框架:
2.单元测试
6.就业和增长
Python 是一种独特的语言,具有强大的增长能力,并为数据科学家提供了多种职业机会。如果你学习 Python,你可以考虑将来可能想转行的多个额外工作:
- Python 开发者
- 生产部经理
- 教师
- 财务顾问
- 数据记者
7.薪水
如果你正在寻找高薪机会,Python 为你提供了大量选择。看看这些数据:
2020 年各州 Python 开发人员的平均工资
2020 年各州 Python 开发人员的平均工资 Daxx
结论
Python 是任何数据科学家的基础。选择这种功能强大的编程语言有很多原因,所以主要原因是什么取决于你。你一定要考虑 Python,因为它的可能性和正在进行的改进,这将帮助你构建惊人的产品和帮助企业。
拥有这 10 种资源,在 2023 年成为数据科学家
无障碍学习,图片来自 Pixabay 的 silviarita
来自数据科学家的行动计划
我是一名机械工程师。我的职业生涯始于钢铁行业的一份核心工作。
穿着沉重的钢制橡胶靴,戴着塑料头盔,在大型高炉和轧钢厂周围冒险。至少可以说是人为的安全措施,因为我知道如果发生不幸的事情,什么也救不了我。也许跑鞋会有帮助。至于头盔。我只能说钢水的燃烧温度是 1370 摄氏度。
由于我不断的恐惧,我意识到这份工作不适合我,所以我把在 2011 年左右进入分析和数据科学领域作为我的目标。从那时起,MOOCs 就成了我学习新事物的首选,我最终选择了很多。好的和坏的。
现在 2023 年,数据科学领域变化如此之快,学习数据科学的资源并不短缺。但这也经常给初学者带来一个问题,即从哪里开始学习,学什么?互联网上有很多很好的资源,但这意味着也有很多不好的资源。
很多选择可能经常导致停滞不前,因为焦虑对学习没有好处。
在他的书《选择的悖论——为什么越多越少》中,施瓦茨认为,消除消费者的选择可以大大减少购物者的焦虑。数据科学课程也是如此。
本文旨在为迷失的灵魂提供建议,让他们可以选择从哪里开始他们的数据科学之旅。
1) Python 3 编程专门化
Python 2.7 的“再见世界”!!!
首先,你需要一门编程语言。密歇根大学的这个专业是关于学习使用 Python 和自己创造东西的。
您将学习编程基础,如变量、条件和循环,并接触一些中间材料,如关键字参数、列表理解、lambda 表达式和类继承。
在进行这个专门化的过程中,你可能也想看看我的 Python Shorts 帖子。
阅读关于 Python 的文章,了解数据科学。共享概念、想法和代码的媒体出版物。
towardsdatascience.com](https://towardsdatascience.com/tagged/python-shorts)
2)使用 Python 的应用数据科学
先做,后理解
在完全理解机器学习之前,我们需要先体验一下。
这个关于 Python 应用数据科学的专业介绍了许多你应该知道的现代机器学习方法。不是彻底的打磨,但你会得到工具来建立你的模型。
这种基于技能的专业化面向具有基本 python 或编程背景,并希望通过流行的 python 工具包(如 pandas、matplotlib、scikit-learn、nltk 和 networkx)应用统计、机器学习、信息可视化、文本分析和社交网络分析技术来深入了解其数据的学习者。
在学习本专业的过程中,您可能还想看看我的一些帖子:
您需要的所有熊猫功能
towardsdatascience.com](/minimal-pandas-subset-for-data-scientists-6355059629ae) [## Python 的一个线性图形创建库,带有汉斯·罗斯林风格的动画
动画,单线图。它拥有一切
towardsdatascience.com](/pythons-one-liner-graph-creation-library-with-animations-hans-rosling-style-f2cb50490396) [## 针对每个数据集的 3 种出色的可视化技术
同时学习一些关于足球的知识
towardsdatascience.com](/3-awesome-visualization-techniques-for-every-dataset-9737eecacbe8)
3)机器学习理论和基础
完成上述课程后,你将获得我称之为**“初学者”的地位**
恭喜你。!!。你懂东西;你知道如何实现事情。
你很有用
然而,你并没有完全理解所有这些模型背后的数学和计算。
你需要理解clf.fit
背后的含义。该是面对现实的时候了。在你理解模型背后的数学之前,没人会把你当回事。
如果你不理解它,你就不能改进它
游戏改变者机器学习专精来了。它包含了许多机器学习算法背后的数学。
我将把这个专精称为 一个你必须接受的专精 作为这个专精的前一个版本激励我进入这个领域,吴恩达是一个伟大的导师。还有,这是我刚开始的时候自己上的第一门课。
这种专门化几乎什么都有——回归、分类、异常检测、推荐系统、神经网络,还有很多很棒的建议。
在学习本课程的过程中,您可能还想看看我的一些帖子:
对特征工程技术的详尽研究
towardsdatascience.com](/the-hitchhikers-guide-to-feature-extraction-b4c157e96631) [## 每个数据科学家都必须知道的 5 个分类评估指标
以及具体什么时候使用它们?
towardsdatascience.com](/the-5-classification-evaluation-metrics-you-must-know-aa97784ff226) [## 每个数据科学家都应该知道的 5 种特征选择算法
额外收获:是什么让一个优秀的足球运动员变得伟大?
towardsdatascience.com](/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2) [## 3 个决策树分裂标准背后的简单数学
🌀理解分割标准
towardsdatascience.com](/the-simple-math-behind-3-decision-tree-splitting-criterions-85d4de2a75fe)
4)学习统计推断
“事实是顽固的东西,但统计数字是易驾驭的.”
――马克·吐温
mine etinkaya-run del 教授这门关于推断统计学的课程。没有比这更简单的了。
她是一个很好的老师,并且很好地解释了统计推断的基础——这是一门必修课。
您将学习假设检验、置信区间和数字和分类数据的统计推断方法。
在学习本专业的过程中,您可能还想看看我的一些帖子:
没有统计学家的自命不凡和数据科学家的冷静
towardsdatascience.com](/p-value-explained-simply-for-data-scientists-4c0cd7044f14) [## 为数据科学家简单解释置信区间
没有沉重的术语
towardsdatascience.com](/confidence-intervals-explained-simply-for-data-scientists-8354a6e2266b)
5)学习数据科学的 SQL 基础知识
SQL 是所有数据 ETL 的核心
虽然我们觉得通过创建模型和提出不同的假设更有成就,但数据管理的作用不能低估。
当谈到 ETL 和数据准备任务时,SQL 无处不在,每个人都应该知道一点,至少是有用的。
SQL 也已经成为使用 Apache Spark 等大数据工具的事实标准。这位来自加州大学戴维斯分校的SQL 专家将教你关于 SQL 以及如何使用 SQL 进行分布式计算。
从课程网站:
通过四个难度逐渐增加的 SQL 项目和数据科学应用程序,您将涵盖 SQL 基础知识、数据争论、SQL 分析、AB 测试、使用 Apache Spark 的分布式计算等主题
在学习本专业的过程中,您可能还想看看我的一些帖子:
通过写它
towardsdatascience.com](/learning-sql-the-hard-way-4173f11b26f1) [## 使用 Spark 处理大数据的指南
不仅仅是介绍
towardsdatascience.com](/the-hitchhikers-guide-to-handle-big-data-using-spark-90b9be0fe89a) [## 在 PySpark 数据框架中添加新列的 5 种方法
并且,它们都是有用的
towardsdatascience.com](/5-ways-to-add-a-new-column-in-a-pyspark-dataframe-4e75c2fd8c08)
6)深度学习
深度学习是未来
Andrew NG 带着他的新深度学习专业化再次归来。这是纯金的。
吴恩达在用通俗易懂的方式解释复杂的概念方面已经达到了炉火纯青的地步。他所遵循的术语不同于网上的所有其他教程和课程,我希望它能流行起来,因为它对理解所有的基本概念非常有帮助。
从专业化网站:
学习深度学习的基础,了解如何构建神经网络,学习如何领导成功的机器学习项目。您将了解卷积网络、RNNs、LSTM、Adam、Dropout、BatchNorm、Xavier/He 初始化等等。你将从事医疗保健、自动驾驶、手语阅读、音乐生成和自然语言处理的案例研究。
在试图理解本课程中的一些材料时,你可能想看看我的一些帖子。
柠檬榨汁机
towardsdatascience.com](/an-end-to-end-introduction-to-gans-bf253f1fa52f) [## 使用深度学习方法的对象检测:端到端的理论观点
物体探测领域最有影响力的论文详解
towardsdatascience.com](/object-detection-using-deep-learning-approaches-an-end-to-end-theoretical-perspective-4ca27eee8a9a)
Pytorch
着火的蟒蛇
我通常从不提倡学习一种工具,但在这里我提倡。原因是它是不可思议的和严肃的,如果你理解 Pytorch,你将能够阅读许多最近的研究论文中的代码。Pytorch 已经成为从事深度学习的研究人员的默认编程语言,它只会为我们学习它付费。
学习 Pytorch 的一种结构化方法是通过参加 Pytorch 的深度神经网络课程。从课程网站:
课程将从 Pytorch 的张量和自动微分包开始。然后,每一节将涵盖不同的模型,从基础开始,如线性回归,逻辑/softmax 回归。其次是前馈深度神经网络,不同激活函数的作用,归一化和漏失层。然后卷积神经网络和转移学习将被涵盖。最后,将介绍其他几种深度学习方法。
你也可以真正地看看你的这些帖子,在那里我试图解释如何使用 PyTorch。
为什么?怎么会?没那么难。
towardsdatascience.com](/moving-from-keras-to-pytorch-f0d4fff4ce79) [## 面向数据科学家的 PyTorch 最完整指南
进行深度学习时需要的 PyTorch 的所有功能。从实验/研究中…
towardsdatascience.com](/minimal-pytorch-subset-for-deep-learning-for-data-scientists-8ccbd1ccba6b)
8)机器学习 AWS 入门
秘诀:重要的不是你知道什么,而是你表现出什么。
在构建一个伟大的机器学习系统时,有很多事情需要考虑。但是经常发生的是,作为数据科学家,我们只担心项目的某些部分。
但是我们有没有想过一旦有了模型,我们将如何部署它们呢?
我见过很多 ML 项目,其中很多注定要失败,因为他们从一开始就没有一套生产计划。
拥有一个好的平台,并了解该平台如何部署机器学习应用程序,将在现实世界中产生很大的影响。这个关于 AWS 的课程旨在实现机器学习应用,这正是它所承诺的。
本课程将教会你:
1.如何使用内置算法的 Amazon SageMaker 和 Jupyter Notebook 实例构建、训练和部署模型。
2.如何使用亚马逊人工智能服务构建智能应用程序,如亚马逊理解、亚马逊 Rekognition、亚马逊翻译等。
你也可以看看我的这篇文章,在这里我试着谈论应用并解释如何计划生产。
[## 如何为数据科学家使用简单的 Python 编写 Web 应用?
无需了解任何 web 框架,即可轻松将您的数据科学项目转换为酷炫的应用程序
towardsdatascience.com](/how-to-write-web-apps-using-simple-python-for-data-scientists-a227a1a01582) [## 如何使用 Amazon Free ec2 实例部署 Streamlit 应用程序?
10 分钟内将数据应用程序上传到网上
towardsdatascience.com](/how-to-deploy-a-streamlit-app-using-an-amazon-free-ec2-instance-416a41f69dc3) [## 通过这 5 个简单的步骤将您的机器学习模型投入生产
或者为什么机器学习项目会失败?
towardsdatascience.com](/take-your-machine-learning-models-to-production-with-these-5-simple-steps-35aa55e3a43c)
9)数据结构和算法
算法。是的,你需要它们。
算法和数据结构是数据科学不可或缺的一部分。虽然我们大多数数据科学家在学习时没有上过适当的算法课程,但它们仍然是必不可少的。
许多公司在招聘数据科学家的面试过程中会询问数据结构和算法。
它们将需要像你的数据科学面试一样的热情来破解,因此,你可能想要给一些时间来研究算法和数据结构以及算法问题。
我发现学习算法最好的资源之一是 UCSanDiego 在 Coursera 上的 **算法特殊化。**来自专业化网站:
你将学习解决各种计算问题的算法技术,并用你选择的编程语言实现大约 100 个算法编码问题。在算法方面,没有任何其他在线课程能为你提供你在下一次工作面试中可能面临的大量编程挑战。
你可能也想看看我的一些帖子,同时试图理解这个专业中的一些材料。
数学更少,代码更多
towardsdatascience.com](/three-programming-concepts-for-data-scientists-c264fc3b1de8) [## 面向数据科学家的链表简单介绍
或者说,什么是链表,为什么我需要了解它们?
towardsdatascience.com](/a-simple-introduction-of-linked-lists-for-data-scientists-a71f0eb31d87) [## 数据科学家的动态编程
DP 如何工作?
towardsdatascience.com](/dynamic-programming-for-data-scientists-bb7154b4298b) [## 在数据科学算法面试中处理树
不是那种树桩
towardsdatascience.com](/handling-trees-in-data-science-algorithmic-interview-ea14dd1b6236)
10.Coursera Plus 订阅
最后但并非最不重要的一点是,我建议你参加 Coursera+ 课程,它可以让你以一个全包的订阅价格无限制地学习 7000 多门世界级课程、实践项目和就业准备证书课程。
继续学习
将来我也会写更多初学者友好的帖子。在 中 关注我,或者订阅我的 博客 了解他们。一如既往,我欢迎反馈和建设性的批评,可以通过 Twitter @mlwhiz 联系到我。
此外,一个小小的免责声明——这篇文章中可能会有一些相关资源的附属链接,因为分享知识从来都不是一个坏主意。
[## 通过我的推荐链接加入 Medium-Rahul Agarwal
作为一个媒体会员,你的会员费的一部分给了你所阅读的作家,你可以在…上看到所有的故事
mlwhiz.medium.com](https://mlwhiz.medium.com/membership)
数据科学家的十大技能
那会让你在数据部工作。
用加仑的咖啡清理收件箱,欢迎回到研磨!😀
寒假的时候,我列了一个我想写的故事的清单,这是我最兴奋的一个!因为我也努力学习一些数据科学的技能。作为数据领域的人,你最终会阅读和了解很多很多东西。
根据我的理解,数据科学总是关于组合最适合完成工作的工具。它是关于从数据中提取知识来回答一个特定的问题。对我来说,简单地说,数据科学是一种力量,它允许企业和利益相关者做出明智的决策,并用数据解决问题。
现在,不是每个技术专家都对其他技能充满热情,但她会对自己工作领域的技能感到兴奋。数据科学家的一些技能也是如此。随着我们在新的一年里为新的技术趋势和更重大的挑战做好准备,我们必须夯实我们的基础。
排名不分先后,让我们一起来了解一下 2020 年数据科学家的10 大技能!
1.概率与统计
数据科学是关于使用资本流程、算法或系统从数据中提取知识、见解并做出明智的决策。在这种情况下,进行推断、估计或预测是数据科学的重要组成部分。
借助于统计方法的概率有助于为进一步的分析作出估计。统计学主要依赖于概率论。简单来说,两者是交织在一起的。
数据科学的概率统计能做什么?
- 探索和了解更多关于数据的信息
- 确定两个变量之间可能存在的潜在关系或依赖关系
- 根据以前的数据趋势预测未来趋势或预测漂移
- 确定数据的模式或动机
- 发现数据中的异常
特别是对于数据驱动的公司,利益相关者依赖数据进行决策和数据模型的设计/评估,概率和统计是数据科学不可或缺的一部分。
2.多元微积分和线性代数
大多数机器学习,总是数据科学模型,是建立在几个预测器或未知变量的基础上的。多元微积分的知识对于建立机器学习模型是很重要的。以下是在数据科学领域工作时您可能会熟悉的一些数学主题:
- 导数和梯度
- 阶跃函数、Sigmoid 函数、Logit 函数、ReLU(校正线性单位)函数
- 成本函数(最重要)
- 功能绘图
- 函数的最小值和最大值
- 标量、矢量、矩阵和张量函数
摘要
*数据科学线性代数:*矩阵代数与特征值
*数据科学的微积分:*导数和梯度
*从零开始梯度下降:*从零开始实现神经网络
3.编程、软件包和软件
当然啦!数据科学本质上是关于编程的。数据科学编程技能汇集了将原始数据转化为可操作见解所需的所有基本技能。虽然编程语言的选择没有特定的规则,但是 Python 和 R 是最受欢迎的。
我不是一个对编程语言偏好或平台有宗教信仰的人。数据科学家选择一种编程语言来满足手头问题陈述的需要。然而,Python 似乎已经成为最接近数据科学通用语言的东西。
点击阅读更多关于十大数据科学 Python 库 的信息。
排名不分先后,以下是可供数据科学选择的编程语言和软件包列表:
- 计算机编程语言
- 稀有
- 结构化查询语言
- Java 语言(一种计算机语言,尤用于创建网站)
- 朱莉娅
- 斯卡拉
- 矩阵实验室
- TensorFlow(非常适合 Python 中的数据科学)
我不是在写你能用数据科学中的编程技能做什么😛
从这里往下的一切都是关于编码的。数据科学,没有熟悉的编码经验或知识,可能有点难。因此,我更喜欢先提高我的 Python 技能,阅读关于我将从事的项目的文献,然后开始构建代码。
4.数据争论
通常,企业获取或接收的数据还没有准备好进行建模。因此,理解并知道如何处理数据中的缺陷是非常必要的。
数据争论是你为进一步分析准备数据的过程;将原始数据从一种形式转换和映射到另一种形式,以便为洞察做好数据准备。对于数据角力,你基本上是获取数据,结合相关领域,然后清洗数据。
对于数据科学的数据争论,你能做什么?
- 通过从多个渠道收集数据,揭示数据中隐藏的深层情报
- 及时向业务和数据分析师提供可操作数据的非常准确的表示
- 减少处理时间、响应时间,以及收集和组织难以处理的数据并加以利用的时间
- 使数据科学家能够将更多精力放在数据分析上,而不是清理部分
- 将数据驱动的决策流程引向由准确数据支持的方向
5.数据库管理
对我来说,数据科学家是不同的人,是所有插孔的主人。他们必须知道数学、统计学、编程、数据管理、可视化,以及不是“全栈”数据科学家的东西。
正如我前面提到的,80%的工作是准备在行业环境中处理的数据。由于要处理大量的数据,数据科学家知道如何管理这些数据是至关重要的。
数据库管理本质上由一组可以编辑、索引和操作数据库的程序组成。DBMS 接受来自应用程序的数据请求,并指示操作系统提供特定的所需数据。在大型系统中,DBMS 帮助用户在任何给定的时间点存储和检索数据。
对于数据科学的数据库管理,您能做些什么?
- 定义、检索和管理数据库中的数据
- 操作数据本身、数据格式、字段名称、记录结构和文件结构
- 定义写入、验证和测试数据的规则
- 在数据库的记录级上操作
- 支持多用户环境并行访问和操作数据
一些流行的数据库管理系统包括:MySQL、SQL Server、Oracle、IBM DB2、PostgreSQL 和 NoSQL 数据库(MongoDB、CouchDB、DynamoDB、HBase、Neo4j、Cassandra、Redis)
6.数据可视化
数据可视化必然意味着什么?对我来说,它是从所考虑的数据中发现的图形表示。可视化有效地沟通和引导探索的结论。
我本质上是一个数据可视化的人。它给了我从数据中构思故事和创建综合演示的能力。数据可视化是更重要的技能之一,因为它不仅仅是表示最终结果,还包括了解和学习数据及其脆弱性。
形象地描绘事物总是更好;真正的价值是众所周知的。当我创建一个可视化,我肯定会得到有意义的信息,这可能是令人惊讶的,因为它拥有影响系统的力量。
直方图、条形图、饼图、散点图、折线图、时间序列、关系图、热图、地理图、三维图以及一长串可用于数据的可视化效果。更详细的名单,请点击这里访问。
数据可视化能为数据科学做些什么?
- 为强大的洞察力绘制数据(当然!😀)
- 确定未知变量之间的关系
- 可视化需要关注或改进的区域
- 识别影响客户行为的因素
- 了解哪些产品应该放在哪里
- 显示来自新闻、联系、网站、社交媒体的趋势
- 可视化大量信息
- 客户报告、员工绩效、季度销售图
- 设计针对用户群的营销策略
一些流行的数据可视化工具包括: Tableau、PowerBI、QlikView、Google Analytics(用于 Web)、MS Excel、Plotly、Fusion Charts、SAS
7.机器学习/深度学习
如果你在一家管理和操作大量数据的公司工作,在那里决策过程是以数据为中心的,可能需要的技能是机器学习。ML 是数据科学生态系统的一个子集,就像统计或概率一样,有助于数据建模和获得结果。
数据科学的机器学习包括对 ML 至关重要的算法;k 近邻,随机森林,朴素贝叶斯,回归模型。PyTorch、TensorFlow、Keras 也发现了它在数据科学的机器学习中的可用性
数据科学的机器学习能做什么?
- 欺诈和风险检测与管理
- 医疗保健(蓬勃发展的数据科学领域之一!遗传学、基因组学、图像分析)
- 航线规划
- 自动垃圾邮件过滤
- 面部和声音识别系统
- 改进的交互式语音应答(IVR)
- 全面的语言和文档识别和翻译
8.云计算
数据科学实践通常包括使用云计算产品和服务来帮助数据专业人员访问管理和处理数据所需的资源。[customerthink.com数据科学家的日常工作通常包括分析和可视化存储在云中的数据。
你可能已经读到过数据科学和云计算携手并进,这通常是因为云计算帮助数据科学家使用 AWS、Azure、Google Cloud 等平台,这些平台提供了对数据库、框架、编程语言和运营工具的访问。
鉴于工具和平台的规模和可用性,熟悉数据科学包括与大量数据的交互这一事实,理解云和云计算的概念对于数据科学家来说不仅是相关的,而且是关键的技能。
对于数据科学,云计算能做什么?
- 数据采集
- 解析、管理、争论、转换、分析和净化数据
- 数据挖掘[探索性数据分析(EDA),汇总统计,…]
- 验证和测试预测模型、推荐系统和此类模型
- 调整数据变量并优化模型性能
一些流行的数据科学云平台包括亚马逊网络服务、Windows Azure、谷歌云或 IBM 云。不久前,我还读到有人正在试验阿里云,这让我觉得很有趣。
9.微软优越试算表
我们知道 MS Excel 可能是最好和最流行的数据处理工具之一。我们可能会听到,“*嘿,你收到老板发来的 Excel 了吗?*等等,我们不是在讨论数据科学的技能吗?Excel?我一直想知道一定有什么简单的方法来管理数据。随着时间的推移,探索 Excel 的数据管理,我意识到,Excel 是:
- 2D 数据最佳编辑
- 高级数据分析的基础平台
- 获得与 Python 中正在运行的 Excel 表的实时连接
- 你可以做任何你想做的事情,无论何时,只要你愿意,你可以保存任意多的版本
- 数据操作相对容易
今天,大多数非技术人员经常使用 Excel 作为数据库的替代品。这可能是一种错误的用法,因为它在某种程度上缺乏版本控制、准确性、可再现性或可维护性。然而,Excel 所能做的也有些令人惊讶!
用 Excel 做数据科学可以做什么?
- 命名和创建范围
- 过滤、排序、合并、整理数据
- 创建数据透视表和图表
- visual Basic for Applications(VBA)[如果你还不知道,可以谷歌一下。这是一个 MS Excel 的超级能力,这个空间不会公正地解释它。VBA 是 Excel 的编程语言,它允许你运行循环,宏,如果…else]
- 清除数据:删除重复值**,**在绝对、混合和相对之间改变引用
- 在成千上万的记录中查找所需的数据
10.DevOps
我一直听说并相信数据科学是为那些懂数学、统计学、算法和数据管理的人准备的。不久前,我遇到了一个在核心 DevOps 领域拥有 6 年以上经验的人,他正在寻找数据科学方面的职业转变。好奇的我想知道 DevOps 是否以及如何成为数据科学的一部分。我对 DevOps 知之甚少(实际上是一无所知),但有一点是肯定的:DevOps 对数据科学的重要性日益增加。
DevOps 是一套结合软件开发和 IT 运营的方法,旨在缩短开发生命周期,并提供高质量的不间断交付。
DevOps 团队与开发团队紧密合作,有效地管理应用程序的生命周期。数据转换要求数据科学团队与 DevOps 紧密协作。DevOps 团队预计将提供高度可用的 Apache Hadoop、Apache Kafka、Apache Spark 和 Apache Airflow 集群来处理数据提取和转换。
DevOps 可以为数据科学做些什么?
- 调配、配置、扩展和管理数据集群
- 通过持续集成、部署和监控数据来管理信息基础架构
- 创建脚本,为各种环境自动提供和配置基础。
感谢您的阅读!我希望你喜欢这篇文章。请务必告诉我,在您的数据科学之旅中,您期待学习或探索什么技能?
数据帐篷快乐!
免责声明:本文表达的观点仅代表我个人,不代表严格的观点。
了解你的作者
拉什是芝加哥伊利诺伊大学的研究生。她喜欢将数据可视化,并创造有见地的故事。她是用户体验分析师和顾问、技术演讲者和博客作者。
2020 年十大技术技能
来源:freephotoc,via pixabay
重塑和重新定义工作场所的技能
根据来自麦肯锡的研究,随着技术的快速进步,到 2030 年将近三分之一的美国工人将需要寻找新的工作。这些进步意味着员工需要不断学习新技能。
听着,归根结底,我对几件事充满热情:优质啤酒(开玩笑的,但说真的,你可以把你当地的 IPAs 寄给我)、领导力和管理、经济学和消费者行为、企业家精神和初创企业,最后是技术和小工具。技术是最突出的,因为我全职管理 ABBYY Software 的全球过程智能部门的产品营销。我对技术的热情意味着是的!我手腕上有一个智能小玩意儿,家里有声控恒温器和其他漂亮的智能设备。技术趋势变化如此之快,新的“酷东西”发展如此之快,这让我不断阅读文章,观看 CES 2020 live 的片段,渴望了解“下一步是什么?”。谈论所有与技术相关的事情,接着我之前关于 2020 年 10 大技术趋势的文章,我想讨论 2020 年及以后的 10 大趋势技术技能。
改变我们思考和工作方式的策略和事物
towardsdatascience.com](/top-10-technology-trends-for-2020-4a179fdd53b1)
你知道利害关系在变,我也知道。我不认为这些顶级技能会让你感到惊讶,但它们值得在你的下一次管理或领导会议上提及。对技术的需求,尤其是对拥有高级技术技能的工人的需求正在飞速增长。随着企业内大规模中断的发生,组织需要以全新、创新的方式做出响应。这意味着重新思考我们如何对待劳动力技能和人才管理。许多公司正在投入更多的资源来招募、雇佣和培养合适的人才,以保持竞争力。毫无疑问,这意味着愿意花时间开发先进技术技能的员工可能在未来 12 个月内获得企业中一些最受欢迎的角色。
在 Unsplash 上由 Austin Distel 拍摄的照片
根据招聘软件公司 iCIMS 的 2019 年报告,2016 年组织平均需要 55 天来填补一个技术职位。2019 年,这一数字跃升至 66 天。根据该报告,这些空缺职位每天每个空缺会造成约 680 美元的收入损失。这些技术工作的供给很少,需求却很大!你具备获得这些职位的技能吗?
2016-2019 年越来越受欢迎的十大技术技能
当在 Udemy 上查看最热门的技能趋势时,数据显示在过去的 3 年中,已经出现了向人工智能和数据科学技能学习的转变。这是有意义的,因为 2020 年的许多顶级技术趋势包括超自动化、自主事物和人工智能安全等。(如果你还没有读过这些技术,我建议你至少从上面链接的文章中了解完整的列表。)
根据 Udemy 的数据,从 2016 年到 2019 年,这是过去 3 年里越来越受欢迎的 10 大技术技能。
- 张量流
- 聊天机器人
- 微软 Azure —架构
- OpenCV(计算机视觉/人工智能)
- 神经网络
- LPIC- Linux
- 以太坊(区块链)
- Splunk(数据)
- 开源地理信息系统软件
- 科特林
*排名基于 2019 年 Udemy.com 的最高消费。资料来源:2020 年 Udemy 数据。
TensorFlow、OpenCV 和神经网络是数据科学家今天正在利用的基础技能,对于理解和开发人工智能应用程序和平台至关重要。
开源机器学习和神经网络处理越来越受欢迎的人工智能(AI)创新背后的沉重负担。这些数字技术席卷了世界,可以在各行各业看到。
2020 年十大最受欢迎的技术技能
当 Udemy 查看学习平台网站上 2020 年最受欢迎的技能时,也有类似的趋势。
技能缺口困扰着全球的组织,这 10 项技能是必备的。商业领袖正在努力填补这些工作角色。
如果你想在今年进行 IT 技能投资或开始新的职业生涯,这些是你要考虑的领域。在分析了超过 4000 万用户的数据后,Udemy 发现人们正在学习的最受欢迎的技术技能是编程语言 Python。
总体而言,该报告指出,人们对学习人工智能(AI)和数据科学有着巨大的兴趣,但对网络开发框架(React,Angular)、云计算和其他 IT 认证(AWS,CompTIA)以及 Docker 的需求也在不断增长。
- Python —一种用于软件开发、基础设施管理和数据分析的编程语言。Python 的设计理念强调代码的可读性,并大量使用空白。
- React (web) —一个用于构建用户界面的 JavaScript 库。它由脸书和一个由个人开发者和公司组成的社区维护。React 可以用作开发单页面或移动应用程序的基础。
- Angular —基于 JavaScript 的开源前端 web 框架。它由谷歌的 Angular 团队和一个由个人和公司组成的社区维护。Angular 是由构建 AngularJS 的同一个团队完全重写的。
- 机器学习——算法和统计模型的科学研究。它被视为人工智能的一个子集
- Docker —一个开源平台,用于创建称为容器的软件包。容器是相互隔离的,捆绑了它们自己的软件、库和配置文件。
- Django —一个基于 Python 的免费开源 web 框架。Django 的主要目标是简化复杂的、数据库驱动的网站的创建。
- CompTIA —一家专业技术机构,拥有从入门级到专家级的四个 IT 认证系列。它被认为是 It 行业的顶级行业协会之一。
- 亚马逊 AWS —AWS 向个人、公司和政府提供随需应变的云计算平台和 API,采用计量付费的方式。AWS 认证验证了云专业知识。
- 深度学习 —一类基于人工神经网络的机器学习。学习可以是有监督的、半监督的或无监督的。
- React Native (mobile) —由脸书创建的开源移动应用框架,用于开发 Android、iOS、Web 和通用 Windows 平台的应用。
*排名基于 2019 年 Udemy.com 最高消费。资料来源:2020 年 Udemy 数据。
2020 年十大新兴技术技能
虽然有很多技能对 2020 年的技术成功至关重要,但今年及以后还会出现一些技术技能。
- Gatsby.js(网络框架)
- AWS 大数据
- 反应钩
- 微软 Azure 架构
- Next.js (web 框架)
- 阿帕奇气流(数据处理)
- SwiftUI(苹果应用程序)
- 数字过程自动化
- ESP32(物联网)
- 量子计算
*数据基于 2018 年零消耗但 2019 年在 Udemy 上激增的技能。资料来源:2020 年 Udemy 数据。
2020 年十大新兴技术技能包括网络开发、量子计算和物联网(IoT)。
Udemy 分析了目前超过 4000 万人正在该平台上学习的新兴技能,并发现 Gatsby.js,一种新的 web 开发框架工具,正在迅速被采用。越来越受欢迎的其他 web 开发工具包括 React Hooks、Next.js 和 SwiftUI,这是一种用于苹果应用程序的用户界面工具。全新的技能出现在新兴技术技能清单上,包括量子计算和 ESP32,用于物联网的发展。
数字化的转变即将到来——对数字化技能的需求至关重要
这些榜单展示了企业兴趣的转变,也反映了我们日益数字化的世界。你为数字化企业做好准备了吗?
这些 2020 年十大技术技能和其他有趣的见解来自 Udemy for Business 的 2020 年工作场所学习趋势报告:未来的技能 (48 页,PDF,选择加入)。该报告强调了您的组织在 2020 年将需要的未来技能,以及您如何为这个新的十年准备您的员工。
如果你喜欢这篇文章,你可能也会喜欢其他的阅读!:
人工智能在工作场所的兴起支持和维持了数字化劳动力,这是一个明显的趋势…
towardsdatascience.com](/top-10-ai-trends-for-2020-d6294cfee2bd) [## 2020 年十大技术趋势
改变我们思考和工作方式的策略和事物
towardsdatascience.com](/top-10-technology-trends-for-2020-4a179fdd53b1) [## 数据挖掘的 5 个误区
什么是数据挖掘?
towardsdatascience.com](/5-myths-of-data-mining-70d49f0abd18) [## 你的团队中有数据英雄吗?
商业分析和商业智能
towardsdatascience.com](/do-you-have-a-data-hero-on-your-team-e4ddc318926e)
RYAN M. RAIKER,MBA // Ryan Raiker 是 ABBYY 的高级产品营销经理,ABBYY 是一家业务流程和数字智商解决方案的全球供应商。作为常驻的“流程智商人员”,Ryan 在流程发现、分析、监控和预测/说明性分析、业务战略管理、业务发展方面拥有专业知识,专注于帮助公司了解其业务流程并从中获得价值。他获得了威得恩大学的工商管理硕士学位、商业分析/信息学学士学位和运营管理辅修学位,并继续在该大学担任兼职教授。
2020 年十大技术趋势
改变我们思考和工作方式的策略和事物
20 世纪 60 年代的电视节目如《杰森一家》预言 21 世纪将充满会飞的汽车,空中机器人将成为我们日常生活的一部分。2015 年 10 月 21 日标志着马蒂·小飞侠(迈克尔·J·福克斯饰)在 1989 年的经典《回到未来第二部》续集中旅行到的时间点。他发现的未来已经抓住了数百万人的想象力——相反,今天,我们生活在一个由直播、智能手机和社交网络主导的世界,而不是飞行汽车或悬浮板(也许,因为这真的是悬浮板吗?)。
在短短的 10 年时间里,或者更短的时间内,像优步、 Lyft 、 DoorDash 、 AirBnB 等服务应用已经产生了数百万用户,几乎每个人的智能手机上都可以找到它们。像 Siri 和 Alexa 这样的个人助理已经进入了我们的很多生活。任何人如果说世界在过去十年没有改变,那就太天真了。这种技术的发展和变化可能会持续到下一个十年甚至更久。
是咆哮 20 的宝贝!在新千年开始时,信息技术对 2000 年问题深感忧虑……“哦,不,是零和时钟!”当时钟在 2000 年敲响 12 点时,iPhone、Twitter、脸书、4k、5G 以及我们今天知道的所有其他有趣的东西都不存在。那么,随着新十年的开始,会发生什么呢?
你更感兴趣的是你需要学习哪些技能来跟上 2020 年的技术趋势?
重塑和重新定义工作场所的技能
towardsdatascience.com](/top-10-technology-skills-for-2020-9eac27e0839c)
2020 年将带来许多改变游戏规则的技术趋势,我们将会接受(或者已经接受)。虽然有些东西已经存在,并且在现代企业中很常见,但其他新技术是彻底改变我们生活、工作和社交方式的“首选”。随着我们所了解和喜爱的现代技术随着新的用例甚至更新的应用而发展,我们将开始看到新的优势和机会。
2019 年 10 月的 Gartner IT 研讨会/Xpo 上公布了 2020 年十大技术趋势。Gartner 预测,2020 年的关键战略技术趋势包括两个主要领域:以人为中心和智能空间。
高度自动化
高度自动化将任务自动化提升到了一个新的水平。它是人工智能(AI)和机器学习(ML)等先进技术的应用,以比传统自动化能力更具影响力的方式自动化流程(不仅仅是任务)。它结合了多种机器学习、打包软件和自动化工具来交付工作。高度自动化需要工具的组合来帮助支持复制人类参与任务的部分。这一趋势始于机器人流程自动化(RPA ),但将随着流程智能、内容智能、人工智能、OCR 和其他创新技术的结合而增长。
多重体验
多重体验处理从二维屏幕和键盘界面到更加动态、多模态的界面世界的巨大转变,我们沉浸在交互技术中,它围绕着我们。Multi-experience 目前专注于使用增强现实、虚拟现实、混合现实、多通道人机界面和传感技术的沉浸式体验。
人工智能对话平台改变了人们与数字世界互动的方式。除了对话,虚拟现实(VR)、增强现实(AR)和混合现实(MR)正在改变人们对数字世界的看法。这种感知和互动的综合转变将带来未来的多感官和多模态体验。在未来十年,这种趋势将成为所谓的环境体验。
技术的民主化
技术民主化指的是技术的获取继续快速变得对更多的人更容易。
技术的民主化意味着让人们无需大量或昂贵的培训就能轻松获得技术或商业专业知识。随着公民开发者的兴起,这一点已经得到了广泛的认可。过去,自动化是由 IT 部门管理和部署的,但随着数字工人的出现,机器人流程自动化的出现改变了这一状况。我们现在看到新一代的公民开发人员,如业务分析师,他们更接近业务挑战,可以对数字工作者进行编程和自动化,以帮助他们完成工作。这一趋势将集中在四个关键领域:应用开发、数据和分析、设计和知识。根据 Gartner 的说法,这些工具可能是为“生成合成训练数据而设计的,这有助于解决 ML 模型开发的重大障碍。”
新技术和改进的用户体验将使技术行业之外的人能够获得和使用技术产品和服务。
安迪·凯利在 Unsplash 上的照片
人类隆胸
人类增强探索技术如何被用来提供认知和身体的改善,作为人类体验不可分割的一部分。这种增强利用技术来提高人类的身体和认知能力。像波士顿动力公司这样的公司已经开发了各种各样的人类增强设备,可以在工厂或战场上使用。
我们已经看到智能设备和智能可穿戴设备的激增。新的应用包括使用这些可穿戴设备来提高采矿业工人的安全。在零售和旅游等其他行业,可穿戴设备可以用来提高员工生产率和增强人类能力。
透明度和可追溯性
越来越多的消费者意识到他们的个人信息是有价值的,并要求控制。许多人认识到保护和管理个人数据的风险越来越大。除此之外,政府正在实施严格的立法来确保他们这样做。透明度和可追溯性是支持这些数字道德和隐私需求的关键要素。
未来几年,世界各地可能会颁布更多类似于欧盟通用数据保护法规(GDPR)的立法。
随着越来越多的组织部署人工智能,并利用机器学习代替人类做出决定,这是一个令人担忧的进一步原因。对可解释的人工智能和人工智能治理的需求不断发展。这一趋势要求关注信任的这些关键要素:正直、开放、负责、能力和一致性。
被授权的边缘
边缘计算是一种计算拓扑,在这种拓扑中,信息处理、内容收集和交付更靠近信息的来源、存储库和消费者。这允许减少延迟,并且允许这些边缘设备上的某种程度的自治。边缘计算诞生于物联网系统向嵌入式物联网世界提供断开连接或分布式功能的需求。
据 Gartner 的 Brian Burke 称:“随着边缘设备拥有越来越复杂和专业的计算资源以及更多的数据存储,边缘计算将成为几乎所有行业和使用案例的主导因素。包括机器人、无人机、自动驾驶汽车和操作系统在内的复杂边缘设备将加速这一转变”。
这将扩大设备作为智能空间基础的作用,并将关键应用和服务移至更靠近使用它们的人和设备。
分布式云
分布式云是云转变的方式。大多数人认为云是独立于位置的——它就在那里;它就在上面的某个地方。但是现在有了分布式云,这些数据中心的物理位置变得越来越重要。解决法规问题和延迟问题等诸如此类的问题变得越来越重要。
云现在扩展了它的领域并成为分布式云,这是将公共云服务分发到不同的位置,而原始公共云提供商承担服务的运营、治理、更新和发展的责任。这代表着大多数公共云服务的集中化模式的重大转变,并将引领云计算的新时代。
更自主的东西
自主事物是使用人工智能来自动化先前由人类执行的功能的物理设备。目前最容易识别的自主事物形式是机器人、无人机、自主车辆和电器。这些东西的自动化超越了僵化的编程模型所提供的自动化,它们利用人工智能来交付高级行为,这些行为与环境和人的交互更加自然。
随着技术能力的提高,监管允许和社会接受度的增长,更多自主的东西将被部署在不受控制的公共空间。
加密货币和实用区块链
认识到“实用区块链”在这里很重要:虽然区块链已经出现了几年,但由于技术上的一些技术和管理问题,它的商业部署一直很慢。区块链有可能通过实现信任、提供透明度和实现跨商业生态系统的价值交换来重塑行业,有可能降低成本、减少交易结算时间并改善现金流和材料的流动。
报告指出,区块链具有潜力的另一个领域是身份管理。智能合约可以被编程到区块链中,事件可以触发动作;例如,当收到货物时,付款被释放。然而,Gartner 的 Brian Burke 表示,由于一系列技术问题,包括较差的可扩展性和互操作性,区块链在企业部署方面仍不成熟。“尽管面临这些挑战,但巨大的中断和创收潜力意味着组织应该开始评估区块链,即使他们预计不会在短期内积极采用这些技术,”他说。
随着人工智能和物联网等互补技术开始集成,区块链将看到企业的巨大增长。
照片由 Denys Nevozhai 在 Unsplash 上拍摄
AI 安全
超自动化等不断发展的技术已经表明,真正的数字化转型正在改变商业世界。然而,这些技术也通过潜在的新攻击点产生了安全漏洞。未来的人工智能安全将有 3 个关键的视角:1)保护人工智能驱动的系统,安全的人工智能训练数据,以及训练有素的管道和机器学习模型;2)利用人工智能来增强安全防御,并利用机器学习来理解模式,发现攻击并自动化部分网络安全流程;3)预测攻击者对 AI 的负面使用——识别这些攻击并防御它们。
克里斯多夫·伯恩斯在 Unsplash 上拍摄的照片
2020 年为企业领导者带来了巨大的机遇和挑战。重要的是要永远记住,拥抱变化和采用新的技术和趋势将保证您的组织在市场上保持竞争力。毫无疑问,抵制变革会让你的公司落后。那些专注于真正的数字化转型的人将会发展他们的业务。你有足够的勇气去执行这些将重塑未来的趋势吗?
Gartner 的完整报告【2020 年战略技术趋势,可在此下载(需要注册)。
如果你喜欢这篇文章,你可能也会喜欢其他的阅读!:
人工智能在工作场所的兴起支持和维持了数字化劳动力,这是一个明显的趋势…
towardsdatascience.com](/top-10-ai-trends-for-2020-d6294cfee2bd) [## 2020 年十大技术技能
重塑和重新定义工作场所的技能
towardsdatascience.com](/top-10-technology-skills-for-2020-9eac27e0839c) [## 数字化员工在工作场所的贡献将增长 50%
人机协作——混合劳动力是成功企业的新常态。
medium.com](https://medium.com/@ryraiker/digital-workers-contributions-in-the-workplace-to-grow-by-50-e26335b43836) [## 数据挖掘的 5 个误区
什么是数据挖掘?
towardsdatascience.com](/5-myths-of-data-mining-70d49f0abd18) [## 你的团队中有数据英雄吗?
商业分析和商业智能
towardsdatascience.com](/do-you-have-a-data-hero-on-your-team-e4ddc318926e)
RYAN M. RAIKER,MBA // Ryan Raiker 是 ABBYY 的高级产品营销经理,ABBYY 是一家业务流程和数字智商解决方案的全球供应商。作为常驻的“流程智商人员”,Ryan 在流程发现、分析、监控和预测/说明性分析、业务战略管理、业务发展方面拥有专业知识,专注于帮助公司了解其业务流程并从中获得价值。他获得了威得恩大学的工商管理硕士学位、商业分析/信息学学士学位和运营管理辅修学位,并继续在该大学担任兼职教授。
**充分披露:**本文中包含的一些链接是附属链接,这意味着您无需支付额外费用,如果您点击并购买或注册一项服务,我可能会收到佣金。