前言
如果你一直在自学 Python,那么你可能看过无数教程并遵循许多指南来获得这项技能,但是你怎么知道自己走在正确的道路上来掌握这项数据科学的基本技能? (文末送读者福利)
Python 是一种实用的编程语言,它在与数据科学关系不大的领域(如 Web 和游戏开发)中具有应用。
在本文中,我们将了解你是否正在学习数据科学所需的 Python 内容,并了解你处于哪个阶段。
用于数据科学的 Python有4 个阶段,我将描述它们并为你提供有关如何掌握每个阶段的提示,以便你可以进入下一个阶段。
第1阶段:Python基础
这个阶段适合任何正在学习 Python 基础知识的人。这些基本内容不仅涵盖了数据科学家应该知道的内容,而且涵盖了任何想要开始了解Python 的人。
在这个层面上,你至少应该知道数据类型和变量等基本概念。了解最流行的数据存储选项(列表、字典和元组)是这一级别的必要条件。
此外,你应该能够使用条件语句和控制流工具。这包括 if/else 语句、布尔运算和不同类型的循环(for、while 和嵌套)。
条件语句、控制流和循环为你可以使用 Python 完成的各种事情打开了大门,因此请使用它们并保持好奇心,为下一阶段奠定坚实的基础。
对于这个级别的有抱负的数据科学家来说,最后一件重要的事情是开始熟悉Jupyter Notebook。
Jupyter 是数据科学家首选的计算笔记本,因为它不仅允许用户创建代码,还允许用户创建方程式、可视化和文本。这使其成为数据科学家简化端到端数据科学工作流程的完美工具。
如何掌握这个水平?
正如我之前提到的,解决涉及条件语句、控制流和循环的问题将帮助你掌握第 1 阶段,此列表中的前 3 个项目涉及这些内容。
此外,解决简单的游戏,如 Tic Tac Toe、Hangman、Guessing Number、Quiz Game 和 Snake 也会有所帮助。
第 2 阶段:用于数据分析的 Python
这就是我所说的“数据科学所需的基本 Python 东西”。这意味着至少对用于数据分析的库有基本的了解,例如 Pandas、NumPy、Matplotlib 和 Seaborn。
使用这些库来解决常见的数据科学任务,例如数据清理、通过可视化进行的探索性数据分析 (EDA) 和特征工程在这个层面上很重要。
这个数据清理项目和这个EDA 项目涵盖了大部分这些主题。如果你能够理解代码,那么你就处于这个阶段。
除此之外,请确保你熟悉 Pandas 和 Numpy 中使用的大多数方法/函数。如果你了解本Pandas 指南和Numpy 指南中涵盖的所有内容,那么你就处于这个阶段。
关于你在第一阶段已经知道的东西,仍然有改进的空间——尤其是对于你作为数据科学家经常使用的东西,其中一些是列表推导:ambda、zip()、f-string 和with语句。
最后但并非最不重要的一点是,获得数据收集所需的技能(如网络抓取)将帮助你成为一名数据科学家。
这是一个完整的网络抓取指南,其中包括掌握 Python 中的这项技能所需的一切。比如:Pandas、NumPy、Matplotlib、Seaborn 和网络抓取库(Selenium 和 Scrapy)中使用的大多数方法/函数。
列表推导式、lambda、zip()、f-string、with语句以及任何其他可以帮助你编写更好代码的东西。
如何掌握这个水平?
解决 Python 项目。在这个阶段,项目通常会涉及到之前提到的所有数据分析库。确保你开始的项目有你感兴趣的主题。
例如,我喜欢体育分析,所以我解决了这个和这个涉及使用大量 Pandas、Numpy 和 Selenium 方法的Python 项目。
第 3 阶段:用于统计和数学的 Python
第 3 阶段是数据科学的不同领域聚集在一起,因此你的 Python 项目将成为数据科学项目。你已经知道如何从第 2 阶段开始清理数据和执行 EDA,但是你还需要了解数据科学背后的所有基本统计和数学知识。
统计数据对于确保用于训练模型的数据没有偏差至关重要。例如,使用 Matplotlib 和 Seaborn 绘制直方图和箱线图将帮助你识别异常值。
除此之外,你应该知道如何将大多数统计概念应用到 Python 中的数据科学项目中。例如,如何处理不平衡数据,分割训练/测试数据,以及制定问题和假设。
你应该了解的一些数学主题是函数和矩阵。这些东西是通过 Numpy 在 Python 中实现的。该库支持大型、多维数组和矩阵,以及大量用于对这些数组进行运算的高级数学函数集合。
你应该了解的另一件重要事情是机器学习算法的工作原理,这些算法背后有很多数学和统计知识。
因此在学习可以构建它们的 Python 代码之前,请确保你了解它们。比如:不平衡数据、分段训练/测试数据、机器学习算法、数组/矩阵 (Numpy)、数据可视化 (Matplotlib/Seaborn)。
最重要的是,知道如何将统计和数学主题应用到 Python 中的数据科学项目中。
如何掌握这个水平?
用 Python 解决数据科学项目。其中一些是情绪分析、信用卡欺诈检测和客户流失预测。
第 4 阶段:用于机器学习的 Python
最后一个阶段是开发机器学习模型。scikit-learn 库是一个良好的开端。你应该能够使用此库执行的一些基本操作比如(BOW、Count Vectorizer、TF-IDF)、模型选择、评估和参数调整。
该项目涵盖了所有这些主题。如果你能够理解代码,那么你就处于这个阶段。
这一级别的数据科学家的其他重要库是 Keras 和 TensorFlow。Keras 具有创建神经网络所需的多个构建块和工具,例如神经层、激活和成本函数、目标等。
TensorFlow 是可用于在 Python 上使用机器学习的最佳库之一。它使初学者和专业人士都可以轻松构建机器学习模型。
如何掌握这个层次及以上?
这取决于你感兴趣的领域。找到你喜欢的领域并专注于它,学习你需要的重点。
例如,如果你喜欢 NLP,学习 NLTK 并解决诸如构建电影推荐系统或聊天机器人之类的项目将有助于你在该领域入门。
现在你了解了为数据科学学习 Python 的 4 个阶段,那么你在哪个阶段?
读者福利:知道你对Python感兴趣,便准备了这套python学习资料,
对于0基础小白入门:
如果你是零基础小白,想快速入门Python是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包括:Python web开发,Python爬虫,Python数据分析,人工智能等学习教程。带你从零基础系统性的学好Python!
零基础Python学习资源介绍
👉Python学习路线汇总👈
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(学习教程文末领取哈)
👉Python必备开发工具👈
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
👉Python学习视频600合集👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉实战案例👈
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉100道Python练习题👈
检查学习结果。
👉面试刷题👈
资料领取
这份完整版的Python全套学习资料已为大家备好,朋友们如果需要可以微信扫描下方二维码添加,输入"领取资料" 可免费领取全套资料【有什么需要协作的还可以随时联系我】朋友圈也会不定时的更新最前言python知识。
好文推荐
了解python的前景: https://blog.csdn.net/weixin_49892805/article/details/127196159
python有什么用: https://blog.csdn.net/weixin_49892805/article/details/127214402