![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python——Pandas
常用pandas函数
MAR-Sky
这个作者很懒,什么都没留下…
展开
-
excel的特殊函数使用,得到地址的函数INDIRECT
=MIN(INDIRECT(“d”&INDIRECT(“c13”)):INDIRECT(“g”&INDIRECT(“f13”)))INDIRECT(“c13”)将c13中的内容提出为引用内容“d”&INDIRECT(“c13”)表示d1字符串,INDIRECT将字符串转换为单元格引用值,原创 2021-04-22 09:11:06 · 844 阅读 · 0 评论 -
pandas——数据离散pd.cut()和pd.qcut
数据离散pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’)需要注意的是,当cut()函数未给定labels的参数时,下面的value_counts()会显示分组的范围。x必须是一维数组import pandas as pd...原创 2020-03-20 20:17:32 · 711 阅读 · 0 评论 -
pandas——数据清洗之异常处理
异常处理函数先对数据计算出一个上限和下限,判断数据是否在这个范围内,可以进行替换等操作常用计算函数:分位数:df.身高.quantile(0.5) #一半分位数,也就是中位数中位数:df.身高.median()平均数:df.身高.mean()标准差:df.身高.std()描述函数:df.身高.describe()判断是否有异常值any()import pandas as pdi...原创 2020-03-20 11:42:49 · 888 阅读 · 0 评论 -
pandas——数据清洗之缺失
数据缺失处理函数使用**df.isnull()**确定缺失的数据,缺失时返回trueimport pandas as pdimport numpy as np df=pd.read_csv('my_csv_date.csv',encoding='gb2312',\ na_values=['null','None'],\ dtype={'电话':str,})print (df[['数...原创 2020-03-20 07:54:31 · 167 阅读 · 0 评论 -
pandas——数据清洗之重复
数据清洗df.duplicated(subset= ,keep=)df指的是DataFrame类型的数据变量,而这个函数的作用是判断每行数据是否重复,参数:subset设置比较的范围,默认是全部的列按照行比较keep当keep=‘first’:从上到下,第一次出现的数据为false;以后重复的数据都返回true;当keep=‘last’:从上到下,最后一次出现的数据为false;以后前...原创 2020-03-19 16:19:29 · 375 阅读 · 0 评论 -
pandas——其他函数
pandas的其他函数修改日期为统一格式:pd.to_datetime(YY-MM-DD)to_datetime(arg, errors=‘raise’, dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=False, or...原创 2020-03-19 14:56:24 · 234 阅读 · 0 评论 -
pandas——透视图和交叉表
透视图函数df.pivot_table()格式: pivot_table(data, values=None, index=None, columns=None, aggfunc=‘mean’, fill_value=None, margins=False, dropna=True, margins_name=‘All’, observed=False)主要参数:index:行分组键col...原创 2020-03-14 16:21:36 · 393 阅读 · 0 评论 -
pandas——apply,transform统计使用
apply()的使用**格式:DataFrame.apply(np.sum,axis=0),**表示每一列的和,也可以理解为按照行的方向加和,从结果上看,字符串是串联起来import pandas as pdimport numpy as np def doub_out(data): return(data.sum()*2)df=pd.read_csv('my_csv.csv',...原创 2020-03-13 20:31:54 · 277 阅读 · 0 评论 -
pandas——分组聚合2,groupby(by=),agg(),
数据分析使用pd读取,再使用np处理,np.min(数据,axis=)其中min,max,median;最小,最大,中位数;aixs=0表示每列运算import pandas as pdimport numpy as np df=pd.read_csv('my_csv.csv',header=0,\ encoding='gbk',dtype={'年龄':float})sele_at...原创 2020-03-08 20:18:59 · 1055 阅读 · 0 评论 -
pandas——分组聚合1,sort_values()和reset_index()
数据排序函数:sort_values(‘索引’,ascending=,na_position=’ ',inplace=)这个函数不会改变索引ascending:表示按照索引升序排列,False,Truena_position:缺失值的索引数据放置的位置,first,lastinplce:是否改变原数据表的值True,Falseimport pandas as pdimport num...原创 2020-03-08 19:11:05 · 2039 阅读 · 0 评论 -
pandas——层次索引read_csv的index_col,和loc()查询
多个索引原创 2020-03-08 17:07:54 · 1373 阅读 · 0 评论 -
pandas——数据整合concat,merge
合并pd.concat([数表名1,数表名2…],axis=,join=)这个函数横向合并时,将表的所有数据通过索引相同合并,而merge函数可以选择键值合并参数功能:aixs: 设置合并方式,0为纵向;1为横向jion: 设置是交集还是并集,’‘inner’‘是交集;’‘outer’'是并集import pandas as pdimport numpy as np df1=pd....原创 2020-03-06 09:56:44 · 252 阅读 · 0 评论 -
pandas——数据库数据读取和保存pymysql、sqlalchemy
数据库数据读取和保存数据库环境的库pymysql、sqlalchemy参考:https://www.cnblogs.com/zhming26/p/5627207.html原创 2020-03-06 08:16:11 · 763 阅读 · 0 评论 -
pandas——条件查询与增删
数据的条件查询逻辑符号:与(&)、或( | )、非( ~ ),a[[‘名字’,‘age’,‘sex’]]选出要满足条件的列,[(a.名字==‘狗子’)&(a.age==35)]的中括号中是选择出满足条件的行=pd.read_excel(r'my_excel.xlsx',encoding='gbk')b=pd.read_excel(r'my_excel.xlsx',encod...原创 2020-03-02 21:53:23 · 553 阅读 · 0 评论 -
pandas——数据筛选
读取数据的处理访问某一列,使用dataframe数据的每一列的表头名 作为属性,obj.表头名中文作为属性也可以a=pd.read_excel(r'my_excel.xlsx',encoding='gbk')print(a)print(a.columns)print('这是使用 =属性名称=访问一列===')print(a.名字)print('这是使用 =索引名称=访问一列==='...原创 2020-03-02 15:33:45 · 877 阅读 · 0 评论 -
pandas——数据获取保存
pandas读取函数pandas内置10多种数据源读取函数,常见的csv和excel直接读取返回的就是数据框可以保存为csv和exel格式读取csv注意编码,常用编码utf-8和gbk2312使用DataFrame的函数(下面对象简写为df)df.head(),参数为整数,查看表格前几行df.tail(),查看表格末尾几行df.dtypes,返回每一列的数据类型但是在读取文件规定...原创 2020-03-02 10:26:30 · 1829 阅读 · 0 评论 -
Pandas——常用数据结构DataFrame
DataFrame数据结构是pandas的基本数据,类似于excel表格形式的数据DataFrame数据创建使用pandas.DataFrame(data,index,dtype,columns)data:可以是列表,数组或字典(np.array())index:行索引,columns代表列索引使用列表创建和数组创建方式一样:a=[['张三',12,'男'],['小五',17,'男'...原创 2020-03-02 08:43:32 · 384 阅读 · 0 评论 -
Pandas——常用数据结构Series
pandas是创建在numpy之上的,在导入库的时候,平常都是同时导入这两个库下面的程序都默认先导入和这两个库Pandas的两种常用数据结构DataFrame数据结构Series和DataFrameseries数据结构由一组数据和一组对应的数据标签(索引)组成可看成dataframe中的一列是pandas的基本数据,类似于excel表格形式的数据它既有行索引又有列索引serie...原创 2020-03-01 11:55:45 · 412 阅读 · 0 评论