pandas入门
小橙子喜欢吃果冻
马铃薯于零
展开
-
pandas—D9时序数据
目录一、时序的创建二、时序的索引及属性三、重采样四、窗口函数五、问题与练习 一、时序的创建 1.四类时间变量 名称 描述 元素 创建方式 ① Date times(时间点/时刻) 描述特定日期或时间点 Timestamp to_datetime或date_range ② Time spans(时间段/时期) 由时间点定义的一段时期 Period Period或period_range ③ Date offsets(相对时间差) 一段时间的相对大小(与夏/冬令时无关) DateOffs原创 2020-12-23 12:00:20 · 205 阅读 · 0 评论 -
pandas-D8分类数据
目录一、category的创建及其性质二、分类变量的排序三、分类变量的比较操作四、问题 一、category的创建及其性质 1.分类变量的创建 a)用Series创建 p1 = pd.Series(["a","b","c","a"],dtype="category") print(p1) b)对DataFrame指定类型创建 temp_df = pd.DataFrame({'A':pd.Series(["a","b","c","a"],dtype="category"),'B':list('abcd')}原创 2020-12-20 16:22:26 · 173 阅读 · 2 评论 -
Pandas-D7文本数据
一、文本数据知识框架 知识框架 二、问题与练习 1.问题 【问题一】 str对象方法和df/Series对象方法有什么区别? str.replace针对的是object类型或string类型,默认是以正则表达式为操作,目前暂时不支持DataFrame上使用; replace针对的是任意类型的序列或数据框,如果要以正则表达式替换,需要设置regex=True,该方法通过字典可支持多列替换。 DataFrame与Series中可以采取apply方法对Series中的每个元素进行处理。 【问题二】 给出一列s原创 2020-12-16 10:56:20 · 526 阅读 · 0 评论 -
pandas-D6缺失数据
目录一、文章结构脑图二、问题与练习 一、文章结构脑图 文章脑图 二、问题与练习 【问题一】 如何删除缺失值占比超过25%的列? percent = df.isna().sum()*100/len(df) df.drop(columns=df.columns[percent>=25], inplace=True) df.head() 【问题二】 什么是Nullable类型?请谈谈为什么要引入这个设计? Nullable类型从字面上理解,就是允许其中的一些数据为空值,之所以引入这个设计,主要原因在于在原创 2020-12-14 20:52:25 · 83 阅读 · 0 评论 -
Pandas-D5合并
目录一、append与assign1.append方法2.assign方法二、combine与updata1.combine方法2.updata方法三、contact方法四、merge与join1.merge函数 import numpy as np import pandas as pd df = pd.read_csv('data/table.csv') df.head() 一、append与assign 1.append方法 a)利用序列添加行(必须制定name) df_append = df.lo原创 2020-12-02 19:47:07 · 420 阅读 · 0 评论 -
Pandas-D4变形
目录一、 整体框架二、问题与练习1.问题2.练习 一、 整体框架 点击获取高清图链接. 二、问题与练习 1.问题 【问题一】 上面提到了许多变形函数,如melt/crosstab/pivot/pivot_table/stack/unstack函数,请总结它们各自的使用特点。 函数 使用特点 melt 相当于pivot的逆操作 crosstab 支持分组,但不支持多级分组,可以通过normalize参数进行数据归一化,也可以汇总边际状态 pivot 不能分组,index和column原创 2020-12-02 09:04:02 · 64 阅读 · 0 评论 -
Pandas-D3分组
目录一、整体构架二、问题与练习1. 问题2. 练习 一、整体构架 二、问题与练习 1. 问题 【问题一】 什么是fillna的前向/后向填充,如何实现? #向前填充 fillna(method='ffill') #向后填充 fillna(method='bfill') 【问题二】 下面的代码实现了什么功能?请仿照设计一个它的groupby版本。 s = pd.Series ([0, 1, 1, 0, 1, 1, 1, 0]) s1 = s.cumsum() result = s.mul(s1).diff原创 2020-11-24 20:09:12 · 178 阅读 · 0 评论 -
pandas-索引
目录一、单级索引1.loc方法、iloc方法、[]操作符 import pandas as pd import numpy as np df = pd.read_csv('F:\python入门\joyful-pandas-master\data/table.csv', index_col='ID') #index_col的作用是将某一列作为行索引 print(df.head()) ''' School Class Gender Address Heig原创 2020-11-21 23:22:41 · 222 阅读 · 0 评论 -
Pandas基础还没入门
目录运行环境一、文件读取与写入二、基本数据结构 运行环境 基于pycharm这个IDE学习pandas 解释器选择Anaconda,因为anaconda使用方便,包含了大量的库(pandas,numpy等) Let we go~~~ 进入正题pa 新建好我们的项目后,不管三七二十一,必不可少先import我们需要的库,才能顺利进行我们的操作 import pandas as pd import numpy as np 一、文件读取与写入 1.读取 格式 方法 csv格式 pd.rea原创 2020-11-17 21:51:31 · 187 阅读 · 2 评论