玩转Python数据分析
文章平均质量分 77
搭搭里满是糖
这个作者很懒,什么都没留下…
展开
-
数据分析9 -- 数据清洗:表格数据缺失值与异常值的处理
当我们从 CSV 文件或者其他数据源加载到 DataFrame 中时,往往会遇到某些单元格的数据是缺失的。当我们打印出 DataFrame 时,缺失的部分会显示为 NaN, 或者 None,或者 NaT(取决于单元格的数据类型),这样的值我们就称之为缺失值。假设阿普闪购举办了一次全员英语能力考试,每个员工最后都有听力、阅读、写作、口试四个成绩。这里我们抽样了三个同事的分数数据,打算对其做一些简单的分析。如下所示执行上述代码,接下来我们需要将分数数据导入到 DataFrame 中。原创 2022-09-26 09:21:30 · 2444 阅读 · 0 评论 -
数据分析8 -- 高级索引:过滤与查看表格中的局部数据
上一篇中,我们学习了 pandas 中两个核心的数据结构:Series 和 DataFrame,之后还学习了 DataFrame 的常见操作,比如对列、行的增删查改。但 DataFrame 的能力远不止于此,今天我们会围绕数据分析中各种各样的查询需求,来系统性介绍 DataFrame 强大的数据查询与过滤能力。原创 2022-09-24 23:26:22 · 186 阅读 · 0 评论 -
数据分析7 -- 以表格的形式查看和操作数据
在上一篇中,我们学习了如何使用 pandas 的函数来从多种数据源:csv、excel 和 html 网页读取数据。其中不管是哪一种数据读取的方式,最终返回的都是一个 DataFrame 对象。对于 DataFrame 对象,上一篇我们只是简单将其打印出来,这一篇我们来学习围绕 DataFrame 的基本操作(添加行、列,删除行、列,排序等),除了 DataFrame,我们也会学习另外一个重要的 pandas 数据结构: Series。原创 2022-09-23 21:24:45 · 348 阅读 · 0 评论 -
数据分析6 -- 使用pandas对多种文件类型进行处理
在有了数据集之后,接下来我们就开始学习怎么把数据集的内容加载到 Python 中。虽然我们在上一个模块学过简单的读取 csv 的文件内容。但是存在两个问题:只能读取 csv 文件,但数据分析的数据除了可能来自 csv,也可能来自 Excel,甚至可以来自 html 的表格。读取到的结果一般是字典列表,并不利于分析,比如虽然我们每个字典就代表一行记录,但一旦我们想拿某一列的数据的时候就会非常复杂。Python 作为数据分析领域的头号种子选手,自然不会只有 csv 模块这样的初级工具。原创 2022-09-23 11:35:59 · 1047 阅读 · 0 评论 -
数据分析4 -- 将爬取的数据保存成CSV格式
CSV(Comma-Separated Values) 是一种使用逗号分隔来实现存储表格数据的文本文件。我们都知道表格有多种形式的存储,比如 Excel 的格式或者数据库的格式。CSV 文件也可以存储表格数据,并且能够被多种软件兼容,比如 Excel 就能直接打开 CSV 文件的表格,很多数据库软件也支持导入 CSV 文件。除了兼容性好之外,CSV 格式还是所有能存储表格的格式中最简单的一种。下面,我们以一个例子来讲解 CSV 存储表格的原理。假设有如下员工信息的表格。原创 2022-09-22 17:52:01 · 9189 阅读 · 1 评论 -
数据分析3 -- 从网页中提取数据内容
从打印的内容来看,想必你已经猜到了,doc 对象的 title 属性,就对应了网页的 title 标签。目前,我们已经实现了从第一个标签对象中提取新闻标题,但我们的列表中有 4 个标签对象。通过观察截图中的标签内容,很容易发现似乎每个新闻标题,都有一个对应的 div 标签,并且它的 class 是 indexs。那要怎么过滤出第二行的 a 标签呢?执行上述代码之后,BeautifulSoup 对象就被创建并存在变量 doc 中,为了测试是否创建成功,我们打印了 doc 对象的 title 属性,输出如下。原创 2022-09-22 16:33:03 · 1403 阅读 · 0 评论 -
数据分析2 -- 模拟请求下载真实网页
上一篇介绍了爬虫的原理以及要实现爬虫的三个主要步骤:下载网页-分析网页-保存数据。本篇从第一步开始实操如何使用 Python 下载网页。原创 2022-09-21 20:02:31 · 159 阅读 · 0 评论 -
数据分析1 -- 数据集的获取
数据分析之数据集的获取和构建简要说明原创 2022-09-21 18:59:38 · 3883 阅读 · 0 评论 -
数据分析--为什么是Python
以往的数据分析,当数据源发生变化后,往往需要分析师手动读取最新数据,然后用相应工具对新的数据重复之前的分析过程,再将最新的分析数据替换进数据分析报告中。而对于 Python 来说,整个数据分析的过程,包括取数、清洗、标准化、分析、建模以及报告的生成,模型的交付都是通过 Python 代码实现。很多数据分析从业者选用 Python 做数据分析的一个关键点,就是 Python 语言具备一套技术栈就能搞定整个数据闭环的巨大潜力。数据分析行业的前辈们就是看到了这一点,将 Python 作为了数据分析的主力工具。原创 2022-09-21 16:48:52 · 515 阅读 · 0 评论