![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据分析
RyanZhengrp
这个作者很懒,什么都没留下…
展开
-
【pandas】[9] pandas loc、iloc
创建一个dataframeimport numpy as npimport pandas as pd#创建一个Dataframedata=pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('ABCD'))data一、loc的使用1、利用loc获取a行的数据data.loc['a'] #获取a行的数据2、利用loc获取所有行,A列的数据data.loc[:,'A'] #获原创 2020-07-05 22:22:58 · 356 阅读 · 0 评论 -
【pandas】[8] pandas逐行(iterrows())或逐列(iteritems())处理
1、构建dataframedf = pd.DataFrame([('E146', 100.92, '[-inf ~ -999998.0]'),('E138', 107.92, '[-999998.0 ~ 2]'),('E095', 116.92, '[1.5 ~ 3.5]')],columns = ['name', 'score', 'value'])Out[11]: name score value0 E146 100.92 [-inf ~ -999原创 2020-05-13 14:39:20 · 23021 阅读 · 0 评论 -
【pandas】[7] Series 判断每个元素是否为空
有时候需要对Series中的每个元素进行判断,然后做下一步逻辑处理1、Series是数值类型的时候;里面有空值(np.nan);value_counts()不会统计到空值。判断时需要使用np.isnan(x)ab = pd.Series([1, np.nan, 2])abOut[55]: 0 1.01 NaN2 2.0dtype: float64ab...原创 2020-04-21 11:03:52 · 9227 阅读 · 0 评论 -
【pandas】[6] DataFrame批量修改columns name
需求:使用pandas从hive读取数据后。每一列都会被添加上hive表名。example:hive_table_name.column_name。故此时需要将列名中的"hive_table_name."给去除掉两种方式:方式1:df.columns = [i.split('.', 1)[1] for i in df.columns]方式2:df.columns = ...原创 2020-04-07 14:55:03 · 2586 阅读 · 0 评论 -
【pandas】[5] DataFrame通过drop_duplicates()函数找出重复的行
1、构建测试数据import pandas as pddf = pd.DataFrame({'k1' : ['a1','a2','a1','b1','b2'], 'k2' : ['c1','d1','c1','c2','d2'], 'data' : [10,100,20,30,300]})print(df) k1 k2 data0 a1 c1 1...原创 2020-04-06 22:21:12 · 1038 阅读 · 0 评论 -
【pandas】[4] DataFrame实现sql中row_number() over(partition by column_1 order by column_2)
需求:pandas中能不能实现如sql中一样的分组排序取值1、构建测试数据import pandas as pddf = pd.DataFrame({'k1' : ['a1','a2','a1','b1','b2'], 'k2' : ['c1','d1','c1','c2','d2'], 'data' : [10,100,20,30,300]})print(df...原创 2020-04-06 22:08:28 · 3143 阅读 · 0 评论 -
【pandas】[1] DataFrame 数据合并,连接(merge,join,concat)
merge 通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来语法如下 merge(left, right, how='inner', on=None, left_on=None, right_on=None, ...转载 2018-08-31 08:41:39 · 322 阅读 · 0 评论 -
【pandas】[2] 移动窗口rolling的理解
概念:为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。移动窗口就是窗口向一端滑行,默认是从右往左,每次滑行并不是区间整块的滑行,而是一个单位一个单位的滑行。给个例子好理解一点:import pandas as pds = [1,2,3,5,6,10,12,14,12,30]pd.Series(s).rolling(window=...转载 2018-09-02 21:00:22 · 2647 阅读 · 0 评论 -
【pandas】[3] DataFrame通过数据类型选择子数据框
DataFrame.select_dtypes(include=None, exclude=None)Return a subset of the DataFrame’s columns based on the column dtypes.Parameters: include, exclude : scalar or list-like A selecti...原创 2018-11-04 15:29:32 · 1387 阅读 · 1 评论