![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 70
mreturn0
这个作者很懒,什么都没留下…
展开
-
第7章 数据清洗和准备
这章重点了在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些⼯作会占到分析师时间的80%或更多。本章讨论处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具。7.1 处理缺失数据在许多数据分析工作中,缺失数据是经常发生的。pandas的目标之一就是尽量轻松地处理缺失数据。下表列出了⼀些关于缺失数据处理的函数。1.滤除缺失数据过滤掉缺失数据的办法有很多种。你可以通过pandas.isnull或布尔索引的手工⽅法,但dropna可能会更实用⼀些。对于⼀个原创 2022-05-13 17:35:28 · 173 阅读 · 0 评论 -
第8章 数据规整:聚合、合并和重塑
本章重点数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。总结8.1 层次化索引对于数据分散的情况常使用层次化索引,层次化索引是pandas的⼀项重要功能,它使你能在⼀个轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低维度形式处理高维度数据。...原创 2022-05-12 16:47:18 · 554 阅读 · 0 评论 -
常用的数据分析模型
以下数据模型多是业务数据分析模型,而我接触的多是一些产品数据,后续试着总结。对以下模型后续试着找案例介绍下对应的知识。原创 2022-05-11 14:59:02 · 92 阅读 · 0 评论 -
第7章 数据清洗和准备
这章重点了在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些⼯作会占到分析师时间的80%或更多。本章讨论处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具。7.1 处理缺失数据...原创 2022-05-05 17:18:07 · 275 阅读 · 0 评论 -
第6章 数据加载、存储与文件格式
访问数据是使用本书所介绍的这些⼯具的第⼀步。输⼊输出通常可以划分为⼏个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。6.1 读写文本格式的数据pandas提供了⼀些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结,其中read_csv和read_table可能会是你今后⽤得最多的。可以使用skiprows跳过文件的第一行、第三行和第四行。example.csv文件内容如下#skiprows的作用import pand原创 2022-05-05 16:09:40 · 1724 阅读 · 0 评论 -
第5章 pandas入门
整述:pandas是有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具⼀同使⽤,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使⽤for循环的数据处理。pandas和NumPy区别:pandas是专门为处理表格和混杂数据设计的。NumPy更适合处理统⼀的数值数组数据。5.1 pandas的数据结构介绍两个主要数据结构:S原创 2022-04-28 17:10:06 · 1982 阅读 · 0 评论 -
Python的一些高阶用法
一、lambda匿名函数lambda匿名函数在一些工程项目中经常出现,匿名函数就是没有定义函数的名称,用来实现简单的功能,语法是#param_list是函数的参数,expression是函数体,用一行表示lambda param_list: expression#实例,运行结果是3func=lambda x, y: x+yfunc(1,2)1. 函数式编程Python中的函数是对象,可以赋值给变量,Python提供了很多函数式编程特性,如map, reduce, filter, sorte原创 2022-04-28 10:03:49 · 761 阅读 · 0 评论 -
第4章 NumPy基础:数组和矢量计算
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。⼤多数提供科学计算的包都是⽤NumPy的数组作为构建基础。NumPy的部分功能如下:ndarray,⼀个具有矢量算术运算和复杂⼴播能力的快速且节省空间的多维数组。⽤于对整组数据进⾏快速运算的标准数学函数(⽆需编写循环)。⽤于读写磁盘数据的⼯具以及⽤于操作内存映射文件的⼯具。线性代数、随机数⽣成以及傅⾥叶变换功能。⽤于集成由C、C++、Fortran等语⾔编写的代码的A C API。4.1 NumPy的原创 2022-04-08 16:21:13 · 1261 阅读 · 0 评论 -
第3章 Python的数据结构、函数和文件
3.1 数据结构和序列元组元组是⼀个固定⻓度,不可改变的Python序列对象。创建元组的最简单⽅式,是⽤逗号分隔⼀列值:如下运行结果(1, 2, 3) (1, 2, (3, 4), 5)3.1 数据结构和序列元组元组是⼀个固定⻓度,不可改变的Python序列对象。创建元组的最简单⽅式,是⽤逗号分隔⼀列值:如下运行结果(1, 2, 3) (1, 2, (3, 4), 5)tup = 1,2,3tuptup1 = 1,2,(3,4),5tu原创 2022-04-06 15:01:13 · 1267 阅读 · 0 评论 -
第3章 Python的数据结构、函数和⽂件
3.1 数据结构和序列元组元组是⼀个固定⻓度,不可改变的Python序列对象。创建元组的最简单⽅式,是⽤逗号分隔⼀列值:如下运行结果(1, 2, 3) (1, 2, (3, 4), 5)tup = 1,2,3tuptup1 = 1,2,(3,4),5tup1当⽤复杂的表达式定义元组,最好将值放到圆括号内,如上第二个所示.⽤tuple可以将任意序列或迭代器转换成元组,运行结果:(4,0,2)tuple([4,0,2])元组中存储的对象可能是可变对象。⼀旦创建了...原创 2022-03-31 15:01:04 · 1378 阅读 · 0 评论 -
第2章 Python语法基础,IPython和JupyterNotebooks
控制流if、elif和else循环。for循环:for循环是在⼀个集合(列表或元组)中进⾏迭代,或者就是⼀个 迭代器。for循环的标准语法是:for value in collection: #do something with valuecontinue:你可以用continue使for循环提前,跳过当前语句剩下的部分。以下代码运行结果10.array=[1,2,3,None,4]num = 0for a in array: if a is None :原创 2022-03-25 16:48:34 · 1016 阅读 · 0 评论 -
第1章 准备工作
第1章 准备工作原创 2022-03-22 17:00:24 · 2181 阅读 · 0 评论 -
python与数据分析
记录下我的python学习原创 2022-02-17 09:53:18 · 458 阅读 · 0 评论 -
前言--写在前面
数据分析的整体思路原创 2022-02-23 16:41:53 · 294 阅读 · 1 评论