Python Pandas库DataFrame数据结构(1)

3 0.673725 0.459024 0.235585 0.157535
4 0.161433 0.851602 0.808815 0.040127
5 0.376283 0.116511 0.647214 0.908117
6 0.472629 0.760263 0.837993 0.436760
7 0.129060 0.365961 0.087162 0.342364
8 0.049868 0.676375 0.698879 0.708751
9 0.581853 0.188657 0.725624 0.229514
10 0.883784 0.604393 0.983455 0.959538
11 0.489604 0.477198 0.528603 0.930902
12 0.804986 0.634862 0.050975 0.593254
13 0.135978 0.442130 0.693620 0.890372
14 0.590731 0.208441 0.691652 0.409585
15 0.610946 0.513197 0.858367 0.630820
16 0.373706 0.403499 0.598159 0.691194
17 0.749585 0.288254 0.457640 0.038209
18 0.916358 0.533546 0.336834 0.595734
19 0.837226 0.744338 0.181082 0.727554
20 0.281210 0.858285 0.167435 0.454401
21 0.964384 0.874239 0.802685 0.553843
22 0.700291 0.796581 0.020454 0.054297
23 0.974867 0.351237 0.167358 0.412370
‘’’


### 数据的预处理



#### 拆分、合并和分组计算


  
 通过切片操作可以实现数据拆分,可用来计算特定范围内数据的分布情况,连接则是相反的操作,可以把多个 DataFrame 对象合并为一个DataFrame对象  
 在进行数据处理和分析时,经常需要按照某一列对原始数据进行分组,而该列数值相同的行中其他列进行求和、求平均等操作这可以通过 groupby()方法、sum()方法和mean()方法等来实现



import pandas as pd
import numpy as np

d = pd.DataFrame(np.random.randint(1, 3, (10, 4)), columns=list(“ABCD”))

randint(1,3,(10,4))生成10行4列矩阵,其中元素为整数,介于【0,3)之间.

print(‘d= \n’, d) # randint(1,3)生成一个介于【0,3)之间的随机整数
d1 = d[:4] # 获取前4行数据
print(‘d1= \n’, d1)
d2 = d[4:] # 获取第5行以后的数据
print(‘d2= \n’, d2)
dd = pd.concat([d1, d2]) # 数据行合并
print(‘dd= \n’, dd)
s1 = d.groupby(‘A’).mean() # 数据按A列分组求均值
print(‘s1= \n’, s1)
s2 = d.groupby(‘A’).apply(sum) # 数据按A列分组求和
print(‘s2= \n’, s2)
‘’’
d=
A B C D
0 1 1 2 2
1 1 1 1 1
2 1 1 1 1
3 1 2 1 2
4 2 1 1 2
5 1 1 1 2
6 1 2 2 1
7 2 2 1 2
8 2 2 2 1
9 1 2 2 2
d1=
A B C D
0 1 1 2 2
1 1 1 1 1
2 1 1 1 1
3 1 2 1 2
d2=
A B C D
4 2 1 1 2
5 1 1 1 2
6 1 2 2 1
7 2 2 1 2
8 2 2 2 1
9 1 2 2 2
dd=
A B C D
0 1 1 2 2
1 1 1 1 1
2 1 1 1 1
3 1 2 1 2
4 2 1 1 2
5 1 1 1 2
6 1 2 2 1
7 2 2 1 2
8 2 2 2 1
9 1 2 2 2
s1=
B C D
A
1 1.428571 1.428571 1.571429
2 1.666667 1.333333 1.666667
s2=
A B C D
A
1 7 10 10 11
2 6 5 4 5
‘’’


#### 数据的选取与清洗


对 DataFrame 进行选取,要从 3 个层次考虑:行列、区域、单元格


1. 选用中括号[ ]选取行列
2. 使用行和列的名称进行标签定位的 df.loc[ ]
3. 使用整型索引(绝对位置索引)的df.iloc[ ]


在数据预处理中,需要对缺失值等进行一些特殊处理



import pandas as pd
import numpy as np

A = pd.DataFrame(np.random.randint(1, 6, (5, 3)), # randint(1,6)随机生成[1,6)区间内的一个整数,生成5行,3列。
index=[‘a’, ‘b’, ‘c’, ‘d’, ‘e’], # 行标签abcde
columns=[‘one’, ‘two’, ‘three’]) # columns列
print(‘A=’, A)
A.loc[‘a’, ‘one’] = np.nan # 修改第1行第1列对应的数改为nan
print(‘A=’, A)
b = A.iloc[1:3, 0:2].values # 提取出第2、3行,第1、2列数据
print(‘b= \n’, b)
A[‘four’] = ‘bar’ # 增加第4列数据
print(‘A= \n’, A)
A2 = A.reindex([‘a’, ‘b’, ‘c’, ‘d’, ‘e’, ‘f’]) # 添了新的f行,reindex,它的作用是创建一个新对象,新对象的数据符合新的索引
print(‘A2= \n’, A2)
A3 = A2.dropna() # 删除有不确定值的行
print(‘A3= \n’, A3)
‘’’
A= one two three
a 2 5 3
b 1 5 3
c 2 3 5
d 3 1 4
e 4 1 4
A= one two three
a NaN 5 3
b 1.0 5 3
c 2.0 3 5
d 3.0 1 4
e 4.0 1 4
b=
[[1. 5.]
[2. 3.]]
A=
one two three four
a NaN 5 3 bar
b 1.0 5 3 bar
c 2.0 3 5 bar
d 3.0 1 4 bar
e 4.0 1 4 bar
A2=
one two three four
a NaN 5.0 3.0 bar
b 1.0 5.0 3.0 bar
c 2.0 3.0 5.0 bar
d 3.0 1.0 4.0 bar
e 4.0 1.0 4.0 bar
f NaN NaN NaN NaN
A3=
one two three four
b 1.0 5.0 3.0 bar
c 2.0 3.0 5.0 bar
d 3.0 1.0 4.0 bar
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

img

img

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)

9.png)

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)

img
  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值