概率论之pandas

最新推荐文章于 2023-05-14 10:58:00 发布

林淮荣

最新推荐文章于 2023-05-14 10:58:00 发布

阅读量506

点赞数

本文链接：https://blog.csdn.net/weixin_43663780/article/details/105411478

版权

这篇博客介绍了Pandas的基础操作，包括Series和DataFrame的创建、特性、数据处理、时间序列分析以及数据可视化。内容涵盖快速入门、处理丢失数据、数据合并分组、数据整形、电影评分数据分析，强调了数据对齐、运算、映射函数和重新索引等核心概念。

摘要由CSDN通过智能技术生成

快速入门

1

import numpy as np

s=pd.series([1,3,5,np.nan,8,4])

Series

s=pd.Series([1,3,5,np.nan,8,4])

s

Out[6]: 

0    1.0

1    3.0

2    5.0

3    NaN

4    8.0

5    4.0

dtype: float64

date_range

dates=pd.date_range('20190301',periods=6)

dates

Out[10]: 

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',

               '2019-03-05', '2019-03-06'],

              dtype='datetime64[ns]', freq='D')

二维数组索引

data=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))

data

Out[14]: 

                   A         B         C         D

2019-03-01  1.866219 -1.003057  2.526899 -0.563343

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

2019-03-05 -1.854786  0.980092  0.797543 -0.432381

data.shape

Out[15]: (6, 4)

data.values

Out[16]: 

array([[ 1.86621859, -1.0030566 ,  2.52689932, -0.56334339],

       [-1.41362647,  1.11672695, -0.47005354, -0.56793016],

       [ 0.11220208, -0.62181257, -0.65821206, -0.53731156],

       [-0.5678393 ,  2.17593279,  1.12604991, -0.412436  ],

       [-1.85478576,  0.98009218,  0.79754332, -0.43238061],

       [-0.28618627,  0.7689724 ,  0.75578607,  0.15118955]])

字典时间戳

d={
   'A':1,'B':pd.Timestamp('20130301'),'C':range(4),'D':np.arange(4)}

d

Out[19]: 

{
   'A': 1,

 'B': Timestamp('2013-03-01 00:00:00'),

 'C': range(0, 4),

 'D': array([0, 1, 2, 3])}

构造二维形式

df=pd.DataFrame(d)

df

Out[21]: 

   A          B  C  D

0  1 2013-03-01  0  0

1  1 2013-03-01  1  1

2  1 2013-03-01  2  2

查看数据和排序修改

data.head(2)

Out[22]: 

                   A         B         C         D

2019-03-01  1.866219 -1.003057  2.526899 -0.563343

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930

data.tail()

Out[23]: 

                   A         B         C         D

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

2019-03-05 -1.854786  0.980092  0.797543 -0.432381

2019-03-06 -0.286186  0.768972  0.755786  0.151190

data.index

Out[24]: 

DatetimeIndex(['2019-03-01', '2019-03-02', '2019-03-03', '2019-03-04',

               '2019-03-05', '2019-03-06'],

              dtype='datetime64[ns]', freq='D')

data.columns

Out[25]: Index(['A', 'B', 'C', 'D'], dtype='object')

data.describe()

Out[26]: 

              A         B         C         D

count  6.000000  6.000000  6.000000  6.000000

mean  -0.357336  0.569476  0.679669 -0.393702

std    1.309362  1.181577  1.161292  0.275140

min   -1.854786 -1.003057 -0.658212 -0.567930

25%   -1.202180 -0.274116 -0.163594 -0.556835

50%   -0.427013  0.874532  0.776665 -0.484846

75%    0.012605  1.082568  1.043923 -0.417422

max    1.866219  2.175933  2.526899  0.151190

data.T

Out[27]: 

   2019-03-01  2019-03-02  2019-03-03  2019-03-04  2019-03-05  2019-03-06

A    1.866219   -1.413626    0.112202   -0.567839   -1.854786   -0.286186

B   -1.003057    1.116727   -0.621813    2.175933    0.980092    0.768972

C    2.526899   -0.470054   -0.658212    1.126050    0.797543    0.755786

D   -0.563343   -0.567930   -0.537312   -0.412436   -0.432381    0.151190

安列排序

data.sort_index(axis=1)

Out[28]: 

                   A         B         C         D

2019-03-01  1.866219 -1.003057  2.526899 -0.563343

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

2019-03-05 -1.854786  0.980092  0.797543 -0.432381

2019-03-06 -0.286186  0.768972  0.755786  0.151190

data.sort_index(axis=1,ascending=False)

Out[29]: 

                   D         C         B         A

2019-03-01 -0.563343  2.526899 -1.003057  1.866219

2019-03-02 -0.567930 -0.470054  1.116727 -1.413626

2019-03-03 -0.537312 -0.658212 -0.621813  0.112202

2019-03-04 -0.412436  1.126050  2.175933 -0.567839

2019-03-05 -0.432381  0.797543  0.980092 -1.854786

2019-03-06  0.151190  0.755786  0.768972 -0.286186

data.sort_index(axis=1,ascending=True)

Out[30]: 

                   A         B         C         D

2019-03-01  1.866219 -1.003057  2.526899 -0.563343

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

2019-03-05 -1.854786  0.980092  0.797543 -0.432381

2019-03-06 -0.286186  0.768972  0.755786  0.151190

data.sort_values(by='A')

Out[31]: 

                   A         B         C         D

2019-03-05 -1.854786  0.980092  0.797543 -0.432381

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

2019-03-06 -0.286186  0.768972  0.755786  0.151190

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-01  1.866219 -1.003057  2.526899 -0.563343

data.A

Out[32]: 

2019-03-01    1.866219

2019-03-02   -1.413626

2019-03-03    0.112202

2019-03-04   -0.567839

2019-03-05   -1.854786

2019-03-06   -0.286186

Freq: D, Name: A, dtype: float64

data[2:4]

Out[33]: 

                   A         B         C         D

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

data['20190302':'20190305']

Out[34]: 

                   A         B         C         D

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

loc效率较高

data.loc['20190302':'20190304']

Out[35]: 

                   A         B         C         D

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

data.iloc[2:4]

Out[36]: 

                   A         B         C         D

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

data.loc[:,['B','C']]

Out[37]: 

                   B         C

2019-03-01 -1.003057  2.526899

2019-03-02  1.116727 -0.470054

2019-03-03 -0.621813 -0.658212

2019-03-04  2.175933  1.126050

2019-03-05  0.980092  0.797543

2019-03-06  0.768972  0.755786

at效率更高访问特定值

data.at[pd.Timestamp('20190302'),'B']

Out[38]: 1.116726953479249

data.iat[1,1]

Out[39]: 1.116726953479249

布尔索引

data[data.A>0]

Out[40]: 

                   A         B         C         D

2019-03-01  1.866219 -1.003057  2.526899 -0.563343

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

data[data>0]

Out[41]: 

                   A         B         C        D

2019-03-01  1.866219       NaN  2.526899      NaN

2019-03-02       NaN  1.116727       NaN      NaN

2019-03-03  0.112202       NaN       NaN      NaN

2019-03-04       NaN  2.175933  1.126050      NaN

2019-03-05       NaN  0.980092  0.797543      NaN

2019-03-06       NaN  0.768972  0.755786  0.15119

data2=data.copy()

data2

Out[43]: 

                   A         B         C         D

2019-03-01  1.866219 -1.003057  2.526899 -0.563343

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312

2019-03-04 -0.567839  2.175933  1.126050 -0.412436

2019-03-05 -1.854786  0.980092  0.797543 -0.432381

2019-03-06 -0.286186  0.768972  0.755786  0.151190

tag=['a']*2+['b']*2+['c']*2

data2['TAG']=tag

data2

Out[46]: 

                   A         B         C         D TAG

2019-03-01  1.866219 -1.003057  2.526899 -0.563343   a

2019-03-02 -1.413626  1.116727 -0.470054 -0.567930   a

2019-03-03  0.112202 -0.621813 -0.658212 -0.537312   b

2019-03-04 -0.567839  2.175933  1.126050 -0.412436   b

2019-03-05 -1.854786  0.980092  0.797543 -0.432381   c

2019

最低0.47元/天解锁文章

林淮荣

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
概率论之pandas

快速入门1import numpy as nps=pd.series([1,3,5,np.nan,8,4])Seriess=pd.Series([1,3,5,np.nan,8,4])sOut[6]: 0 1.01 3.02 5.03 NaN4 8.05 4.0dtype: float64date_range...
复制链接

扫一扫