![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas数据处理与分析
文章平均质量分 95
本专栏转载自:https://github.com/datawhalechina/joyful-pandas
绿洲213
springboot3只支持jdk17
展开
-
章节练习参考答案
中可以用逐元素的乘法后求和实现,因此问题转化为了如何构造。对应行的行平方和,第二个部分是相同大小的全。的列平方和,第三项是两倍的内积。矩阵可以写为三个部分,第一个部分是。从上式可以看出,第一第二项分别为。对应列的列平方和,第三个部分恰为。以及,纸质版中提到的另一种方法。,这个方法性能更好些。原创 2023-01-19 17:15:09 · 591 阅读 · 0 评论 -
第十章 时序数据
第四,会出现日期偏置(Date offsets)的概念,假设你只知道9月的第一个周一早上8点要去上课,但不知道具体的日期,那么就需要一个类型来处理此类需求。第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-7 10:00:00’这两个时间点分别代表了上课和下课的时刻,在。日期偏置是一种和日历相关的特殊时间差,例如回到第一节中的两个问题:如何求2020年9月第一个周一的日期,以及如何求2020年9月7日后的第30个工作日是哪一天。原创 2023-01-18 22:04:35 · 134 阅读 · 0 评论 -
第九章 分类数据
互相转化,需要注意的是后者传入的参数必须是由当前序列的无序类别构成的列表,不能够增加新的类别,也不能缺少原来的类别,并且必须指定参数。一个等差的区间序列由起点、终点、区间个数和区间长度决定,其中三个量确定的情况下,剩下一个量就确定了,在第二章中,曾提到了字符串和数值类型序列的排序,此时就要说明分类变量的排序:只需把列的类型修改为。方法进行构造的,这两个函数能够把原序列的数值特征进行装箱,即用区间位置来代替原来的具体数值。四类大小关系的比较,比较的对象和第一种类似,但是所有参与比较的元素必须属于原序列的。原创 2023-01-18 22:04:31 · 80 阅读 · 0 评论 -
第八章 文本数据
对象先把整个元素转为字面意义的字符串,例如对于列表而言,第一个元素即 “{”,而对于最后一个字符串元素而言,恰好转化前后的表示方法一致,因此结果和。索引,因此对于字典而言,返回temp_1字符串,对于列表则返回第二个值,而第三个为不可迭代对象,返回缺失值,第四个是对字符串进行。上的属性,专门用于处理每个元素的文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其。其中,第一类函数一共有三种,它们分别是。对象而言,可理解为其对字符串进行了序列化的操作,例如在一般的字符串中,通过。原创 2023-01-18 22:04:18 · 148 阅读 · 0 评论 -
第七章 缺失数据
按照特征缺失的正例、特征缺失的负例、特征不缺失的正例、特征不缺失的负例,可以分为四种情况,设它们分别对应的样例数为。而不是普通的样条插值。这一部分的文档描述比较混乱,而且这种参数的设计也是不合理的,当使用这两类插值方法时,用户一定要小心谨慎地根据自己的实际需求选取恰当的插值方法。对一个序列以如下规则填充缺失值:如果单独出现的缺失值,就用前后均值填充,如果连续出现的缺失值就不填充,即序列。的本身是一种浮点类型,而如果浮点和时间类型混合存储,如果不设计新的内置缺失类型来处理,就会变成含糊不清的。原创 2023-01-16 15:04:45 · 75 阅读 · 0 评论 -
第六章 连接
其中左连接和右连接是等价的,由于它们的结果中的键是被一侧的表确定的,因此常常用于有方向性地添加到目标表。内外连接两侧的表,经常是地位类似的(左右表位置的交换不引起结果的变化),想取出键的交集或者并集,具体的操作还需要根据业务的需求来判断。从图中可以看到,所谓左连接即以左表的键为准,如果右表中的键于左表存在,那么就添加到左表,否则则处理为缺失值,右连接类似处理。在上面示意图中的例子中,两张表根据某一列的值来连接,事实上还可以通过几列值的组合进行连接,这种基于值的连接在。纵向拼接会根据列索引对其,默认状态下。原创 2023-01-16 15:04:30 · 69 阅读 · 0 评论 -
第五章 变形
在上一章讨论的分组聚合操作,由于生成了新的行列索引,因此必然也属于某种特殊的变形操作,但由于聚合之后把原来的多个值变为了一个值,因此。在上面的边际汇总例子中,行或列的汇总为新表中行元素或者列元素的平均值,而总体的汇总为新表中四个元素的平均值。对于一个基本的长变宽操作而言,最重要的有三个要素,分别是变形后的行索引、需要转到列索引的列,以及这些列和行索引对应的数值,它们分别对应了。是一种典型的长表变宽表的函数,首先来看一个例子:下表存储了张三和李四的语文和数学分数,现在想要把语文和数学分数作为列来展示。原创 2023-01-16 15:03:56 · 62 阅读 · 0 评论 -
第四章 分组
过滤在分组中是对于组的过滤,而索引是对于行的过滤,在第二章中的返回值,无论是布尔列表还是元素列表或者位置列表,本质上都是对于行的筛选,即如果符合筛选条件的则选入结果表,否则不选入。由此可以看出,之前传入列名只是一种简便的记号,事实上等价于传入的是一个或多个列,最后分组的依据来自于数据来源组合的unique值,通过。从结果看,此时的列索引为多级索引,第一层为数据源,第二层为使用的聚合方法,分别逐一对列使用聚合,因此结果为6列。,但它们产生的数据框维数和多级索引的层数应当如何变化?原创 2023-01-10 18:58:25 · 74 阅读 · 0 评论 -
第三章 索引
如果不想陷入麻烦,那么请不要把纯浮点以及任何混合类型(字符串、整数、浮点类型等的混合)作为索引,否则可能会在具体的操作时报错或者返回非预期的结果,并且在实际的数据分析中也不存在这样做的动机。方法中层的函数式用法是类似的,只不过它传入的不是层的标量值,而是直接传入索引的元组,这为用户进行跨层的修改提供了遍历。熟悉了结构后,现在回到原表,将学校和年级设为索引,此时的行为多级索引,列为单级索引,由于默认状态的列索引不含名字,因此对应于刚刚图中。,其功能是仿照传入的表索引来进行被调用表索引的变形。原创 2023-01-10 18:58:14 · 95 阅读 · 0 评论 -
第二章 pandas基础
扩张窗口又称累计窗口,可以理解为一个动态长度的窗口,其窗口的大小就是从序列开始处到具体操作的对应位置,其使用的聚合函数会作用于这些逐步扩张的窗口上。在扩张窗口中,用户可以使用各类函数进行历史的累计指标统计,但这些内置的统计函数往往把窗口中的所有元素赋予了同样的权重。函数返回的是一个序列中偏离该序列均值的绝对值大小的均值,例如序列1,3,7,10中,均值为5.25,每一个元素偏离的绝对值为4.25,2.25,1.75,4.75,这个偏离序列的均值为3.25。中最重要的概念之一,它将在第三章中被详细地讨论。原创 2023-01-10 18:57:46 · 153 阅读 · 0 评论 -
第一章 预备知识
例如,输入[1,2,5,6,7],[5,6,7]为具有最大长度的连续整数子数组,因此输出3;输入[3,2,1,2,3,4,6],[1,2,3,4]为具有最大长度的连续整数子数组,因此输出4。一维数组和二维数组进行合并时,应当把其视作列向量,在长度匹配的情况下只能够使用左右合并的。当两个数组维度完全一致时,使用对应元素的操作,否则会报错,除非其中的某个数组的维度是。但是对于含有缺失值的数组,它们返回的结果也是缺失值,如果需要略过缺失值,必须使用。但是,需要注意的是,如果第一个数组的维度是。原创 2023-01-07 09:48:26 · 78 阅读 · 0 评论 -
全书简介和作者寄语
基于Joyful Pandas教程编写的纸质版书籍已在各大网络平台上线,欢迎选购。本书使用新版的1.4.0,对网页版教程(基于1.2.0)内容作了大量修订,包括内容增改以及习题更新,同时增加了数据可视化、特征工程和性能优化三个章节的内容。本书设计练一练共计121题,章后习题共计41题,各章节分布与目录见后文。有关本书籍和pandas的任何问题可以在本仓库提issue,或者加最后的二维码进讨论群提问。在写作期间,本书作者积极参与pandas的开发工作和社区建设,点击查看开源贡献。原创 2023-01-07 09:47:31 · 63 阅读 · 0 评论