五步法学习Python进阶数据科学:数据分析和挖掘的入门分析及学习资源路径

原文: How to Learn Python for Data Science In 5 Steps
作者:Charlie Custer

为什么要为数据科学学习Python?

在探索如何学习Python进行数据科学之前,我们应该简要回答为什么首先要学习Python。
简而言之,理解Python是从事数据科学职业所需的宝贵技能之一

尽管并非总是如此,Python是数据科学的首选编程语言。以下是一段简短的历史:
2016年,它在数据科学竞赛的首要平台Kaggle上超越了R。
2017年,在KDNuggets的年度数据科学家最常用工具调查中,它超越了R。
2018年,66%的数据科学家报告每天都在使用Python,这使它成为分析专业人士的头号语言。

数据科学专家预计,随着Python生态系统的不断发展,这一趋势将继续下去。虽然您学习Python编程的旅程可能才刚刚开始,但很高兴知道就业机会也很丰富(而且还在增长)。

事实上,数据科学家的平均工资是121583美元。

好消息是什么?随着对数据科学家的需求预计将持续增长,这一数字预计只会增加。据Quanthub称,2020年,数据科学领域的职位招聘数量是数据科学领域的求职人数的三倍。这意味着对数据科学的需求远远超过了供给。

因此,数据科学的未来是光明的,Python只是众所周知的馅饼中的一块。幸运的是,学习Python和其他编程基础仍然是可以实现的。我们将通过五个简单的步骤向您展示如何操作。

但是请记住,仅仅因为步骤简单并不意味着你就不必投入工作。如果您全身心地投入并投入有意义的时间学习Python,那么您不仅有可能学会一项新技能,而且有可能将您的职业生涯提升到一个新的水平。

如何为数据科学学习Python

首先,您需要找到正确的课程来帮助您学习Python编程。Dataquest的课程专门为您设计,让您以自己的速度学习Python for data science,挑战您在交互式浏览器界面中编写真实代码和使用真实数据。
除了在课程设置中学习Python,您成为数据科学家的旅程还应该包括软技能。此外,我们建议您在学习过程中学习一些免费的技术技能。

步骤1:学习Python基础知识

每个人都从某个地方开始。这第一步是学习Python编程基础知识的地方。您还需要介绍数据科学。
在旅程的早期,您应该开始使用的一个重要工具是Jupyter笔记本,它预先打包了Python库,以帮助您学习这两件事。

通过加入社区来启动您的学习

通过加入社区,你将与志同道合的人交往,增加就业机会。根据人力资源管理学会的数据,员工推荐占所有员工的30%。

创建一个Kaggle帐户,加入本地Meetup小组,并与现有学生和校友一起参与Dataquest的学习者社区

相关技能:尝试命令行界面
通过命令行界面(CLI :Command Line Interface),可以更快地运行脚本,从而可以更快地测试程序并处理更多数据。

步骤2:练习迷你Python项目

我们真正相信动手学习。您可能会惊讶于很快就可以构建小型Python项目了。我们已经为初学者编写了一本很棒的Python项目指南,其中包括以下想法:

尝试我们的一个指导性项目-交互式Python项目,针对每一个技能级别,使用真实数据并提供指导,同时仍然挑战您以新的方式应用您的技能。

但这只是冰山一角,真的。你可以尝试为在线游戏编写计算器,或者从你所在城市的谷歌上获取天气信息的程序。您还可以构建简单的游戏和应用程序,帮助您熟悉Python的使用。

构建这样的小型项目将帮助您学习Python。像这样的编程项目是所有语言的标准,也是巩固您对基础知识理解的好方法。

您应该开始使用API建立您的体验,并开始web抓取。除了帮助您学习Python编程之外,web抓取还将有助于您以后收集数据。

通过阅读开始你的学习

加强您的课程,并找到您遇到的Python编程挑战的答案。阅读指南、博客文章,甚至其他人的开源代码,学习Python和数据科学最佳实践,并获得新的想法。

阿尔·斯维加特(Al Sweigart)的《用Python自动化无聊的东西》是一个极好的、有趣的资源。但我们已经整理了一份完整的数据科学电子书清单,供您免费阅读。亮点包括:

  • The Data Science Handbook 《数据科学手册》:收集了大量采访在职数据科学家的资料,让您更好地了解真正的数据科学工作以及如何在该领域取得成功。
    *Python Data Science Handbook 《Python数据科学手册》:一本很好的指南,在Github上还提供了方便的Jupyter笔记本格式,因此您可以自己深入并运行所有示例代码。
  • Elements of Statistical Learning 《统计学习的要素》:一本最近更新的大量统计教科书,可以作为学习Python的重要参考,以确保您的工作在统计上是有效的。

以上书籍都是亚马逊资源,大概可以了解一下这方面的概念,寻找国内译本或者类似资源学习即可

相关技能:使用SQL处理数据库

SQL用于与数据库对话以更改、编辑和重新组织信息。SQL是数据科学界的一个重要组成部分,我们已经写了一整篇文章,阐述了如果你想在数据领域找到工作,为什么需要学习SQL

步骤3:学习Python数据科学库

与其他一些编程语言不同的是,在Python中,处理一些事情通常有一种最好的方法。用于数据科学的三个最好也是最重要的Python库是NumPy、Pandas和Matplotlib

我们已经为数据科学提供了15个最重要的Python库的有用指南,但这里有几个对于Python中的任何数据工作都非常重要:

  • NumPy:一个使各种数学和统计操作更容易的库;这也是熊猫图书馆许多特色的基础。
  • pandas:一个专门为方便处理数据而创建的Python库,这是许多Python数据科学工作的基础。
  • Matplotlib:一个可视化库,可以快速轻松地从数据生成图表。
  • scikit learn:Python中最流行的机器学习库。

NumPy和pandas非常适合探索和使用数据。Matplotlib是一个数据可视化库,它可以生成Excel或Google工作表中的图形。

通过提问开始学习
你不知道你不知道的!
Python拥有一个丰富的专家社区,他们渴望帮助您学习Python。像Quora、Stack Overflow和Dataquest的学习者社区这样的资源充满了乐于分享知识并帮助您学习Python编程的人。我们还为每节课提供了常见问题解答,以帮助您解答在使用Dataquest编程课程中遇到的问题。

相关技能:使用Git进行版本控制
Git是一种流行的工具,它可以帮助您跟踪代码的更改,从而更容易地更正错误、进行实验以及与他人协作。

步骤4:在学习Python时构建数据科学组合

对于有抱负的数据科学家来说,作品集(portfolio)是必须的。

这些项目应该包括使用几个不同的数据集,并且应该给读者留下您收集到的有趣的见解。需要考虑的一些项目类型:

  • 数据清理项目:任何涉及脏数据或“非结构化”数据的项目,您都需要清理和分析这些数据,这会给潜在的雇主留下深刻印象,因为大多数真实世界的数据都需要清理。
  • 数据可视化项目:制作有吸引力的、易于阅读的可视化既是编程也是设计挑战,但如果你能做得好,你的分析将更有影响力。在一个项目中拥有漂亮的图表将使你的投资组合脱颖而出。
  • 机器学习项目:如果你渴望成为一名数据科学家,你肯定需要一个展示你的ML技能的项目(你可能需要几个不同的机器学习项目,每个项目都专注于使用不同的流行算法)。

你的分析应该清晰直观地呈现出来;理想情况下,采用Jupyter笔记本这样的格式,以便技术人员可以阅读您的代码,但非技术人员也可以跟随您的图表和书面解释。

你的作品集不一定需要特定的主题。找到您感兴趣的数据集,然后想出一种将它们组合在一起的方法。然而,如果你渴望在某个特定的公司或行业工作,在你的投资组合中展示与该行业相关的项目是一个好主意。

展示这样的项目可以让数据科学家同事有机会与您进行潜在的合作,并向未来的雇主表明您确实花了时间学习Python和其他重要的编程技能。

数据科学的一个好处是,你的作品集可以作为简历翻倍,同时突出你学到的技能,比如Python编程。

通过以下方式启动您的学习:沟通、协作和专注于技术能力

在这段时间里,你需要确保你正在培养与他人合作所需的软技能,确保你真正理解你所使用的工具的内部工作原理。

相关技能:学习初级和中级统计

在学习用于数据科学的Python时,您还需要具备坚实的统计背景。了解统计数据将使您具备专注于正确事物所需的心态,因此您将发现有价值的见解(和真正的解决方案),而不仅仅是执行代码。

步骤5:应用先进的数据科学技术

最后,提高你的技能。您的数据科学之旅将充满不断的学习,但您可以完成一些高级课程,以确保您已涵盖所有基础知识。

您需要熟悉回归、分类和k-means聚类模型。您还可以进入机器学习–使用scikit学习引导模型和创建神经网络。

此时,编程项目可以包括使用实时数据源创建模型。这种机器学习模型会随着时间的推移调整其预测。

记住:继续保持学习!

数据科学是一个不断发展的领域,跨越许多行业。
在需求增长的速度下,学习的机会呈指数级增长。继续阅读、合作和与他人交谈,你一定会保持兴趣和竞争优势。

学习Python需要多长时间?

阅读这些步骤后,人们问我们的最常见问题是:“这一切需要多长时间?”
对于学习Python所需的时间有很多估计。具体地说,对于数据科学而言,持续实践的时间从三个月到一年不等。

我们看到人们以闪电般的速度通过我们的课程,而其他人则走得慢得多。

实际上,这完全取决于您想要的时间线、您可以用来学习Python编程的空闲时间以及学习的速度。

Dataquest的课程是为你自己的速度而创建的。每一条路径都充满了课程、实践学习和提问机会,让您能够深入掌握数据科学基础知识。

免费开始。通过我们的数据科学家之路学习Python,今天就开始掌握一项新技能!

在哪里可以学习数据科学的Python?

有很多Python学习资源,但是如果你想学习数据科学,最好选择专门教授数据科学的地方。

这是因为Python也被用于从游戏开发到移动应用程序的各种其他编程规程中。一般的“学习Python”资源尝试教授一些东西,但这意味着您将学习很多与数据科学工作无关的东西。

此外,做一些与你的目标没有联系的事情会让你觉得很没动力。如果你想做数据分析,而你正在努力学习一门教你用Python构建游戏的课程,那么你很容易会感到沮丧并放弃。

有很多免费的Python数据科学教程。如果你不想花钱学习Python,这是一个很好的选择——上一句中的链接包括几十个,按难度和重点区域分开。

不过,如果你是认真的,那么最好找到一个互动式教学平台,其中包含一个课程,可以指导你完成数据科学学习之旅。Dataquest就是这样一个平台,我们提供了一系列课程,可以让您从初学者到合格的Python数据分析师Data Analyst数据科学家Data Scientist

Python在数据科学领域是必要的吗?

作为一名数据科学家,可以使用Python或R。每种语言都有其优缺点,这两种语言都在业界广泛使用。Python总体上更受欢迎,但R在某些行业(特别是学术界和研究界)占据主导地位。

要进行数据科学工作,您肯定需要至少学习这两种语言中的一种。它不必是Python,但它必须是Python或R中的一种。

(当然,无论选择哪种Python或R作为主要编程语言,您都必须学习一些SQL)。

Python在数据科学方面是否优于R?

这是数据科学中经常讨论的话题,但真正的答案是,这取决于你在寻找什么,以及你喜欢什么。

R是在考虑统计和数学的基础上建立起来的,并且有一些惊人的软件包使它易于用于数据科学。它还有一个非常支持的在线社区。

Python是一种更好的全方位工作语言,这意味着您的Python技能将更易于转移到其他学科。它也稍微流行一点,有些人会争辩说这两种方法中比较容易学(尽管很多研究人员不同意)。

与其阅读观点,不如看看这篇关于Python和R如何处理类似数据科学任务的更客观的文章,看看哪一篇看起来更容易理解。

Python是如何用于数据科学的?

像Python这样的编程语言在数据科学过程中的每一步都被使用。例如,数据科学项目工作流可能如下所示:

  1. 使用Python和SQL,您可以编写一个查询,从公司数据库中提取所需的数据。
  2. 使用Python和pandas库,可以将数据清理并排序到一个数据框(表)中,以便进行分析。
  3. 使用Python以及pandas和matplotlib库,您可以开始分析、探索和可视化数据。
  4. 通过您的探索了解更多关于数据的信息后,您可以使用Python和scikit学习库构建一个预测模型,该模型基于您获取的数据预测公司未来的结果。
  5. 您将最终分析和模型结果安排为与同事沟通的适当格式。

Python几乎在这一过程中的每一步都在使用!

后续会做这个文章涉及的其他文章的搬运。如有兴趣请点订阅/关注。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

极速learner

非常感谢!继续努力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值