4.1 pandas及其数据结构
4.1.2Series数据结构及其创建
第一种:通过标量创建Series
import pandas as pd
s1= pd. Series( 62 )
s1
0 62
dtype: int64
import pandas as pd
s1= pd. Series( 62 , index= [ "x" , "y" , "z" ] )
s1
x 62
y 62
z 62
dtype: int64
第二种:通过列表创建Series
import pandas as pd
s2= pd. Series( [ 30 , 10 , 60 ] , index= [ "x" , "y" , "z" ] )
s2
x 30
y 10
z 60
dtype: int64
第三种:通过字典创建Series
import pandas as pd
s3= pd. Series( { "匪警" : 110 , "火警" : 119 , "急救中心" : 120 , "交通事故" : 122 } )
s3
匪警 110
火警 119
急救中心 120
交通事故 122
dtype: int64
第四种:通过ndarray创建Series
import pandas as pd
import numpy as np
s4= pd. Series( np. arange( 6 ) , index= [ "a" , "b" , "c" , "d" , "e" , "f" ] )
s4
a 0
b 1
c 2
d 3
e 4
f 5
dtype: int32
values和index
import pandas as pd
s3= pd. Series( { "匪警" : 110 , "火警" : 119 , "急救中心" : 120 , "交通事故" : 122 } )
s3. index
s3. values
array([110, 119, 120, 122], dtype=int64)
索引和切片
import pandas as pd
s2= pd. Series( [ 30 , 10 , 60 ] , index= [ "x" , "y" , "z" ] )
s2[ "x" ]
30
s2[ 0 ]
30
s2[ : 2 ]
x 30
y 10
dtype: int64
4.1.3DataFrame数据结构及其创建
第一种:通过一维列表构成的字典创建DataFrame
import pandas as pd
d1= { "姓名" : [ "张三" , "李四" , "王五" , "赵六" ] , "数学" : [ 87 , 45 , 34 , 98 ] , "语文" : [ 54 , 76 , 55 , 90 ] , "计算机" : [ 34 , 56 , 77 , 87 ] }
df1= pd. DataFrame( d1)
df1
姓名 数学 语文 计算机 0 张三 87 54 34 1 李四 45 76 56 2 王五 34 55 77 3 赵六 98 90 87
import pandas as pd
d1= { "姓名" : [ "张三" , "李四" , "王五" , "赵六" ] , "数学" : [ 87 , 45 , 34 , 98 ] , "语文" : [ 54 , 76 , 55 , 90 ] , "计算机" : [ 34 , 56 , 77 , 87 ] }
df1= pd. DataFrame( d1, index= [ 101 , 102 , 103 , 104 ] )
df1
姓名 数学 语文 计算机 101 张三 87 54 34 102 李四 45 76 56 103 王五 34 55 77 104 赵六 98 90 87
通过二维ndarray创建DataFrame
import pandas as pd
import numpy as np
nd1= np. arange( 12 ) . reshape( 3 , 4 )
nd1
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
df2= pd. DataFrame( nd1)
df2
df2= pd. DataFrame( nd1, index= [ "a" , "b" , "c" ] )
df2
values,index和columns三部分
import pandas as pd
d1= { "姓名" : [ "张三" , "李四" , "王五" , "赵六" ] , "数学" : [ 87 , 45 , 34 , 98 ] , "语文" : [ 54 , 76 , 55 , 90 ] , "计算机" : [ 34 , 56 , 77 , 87 ] }
df1= pd. DataFrame( d1, index= [ 202201 , 202202 , 202203 , 202204 ] )
df1
姓名 数学 语文 计算机 202201 张三 87 54 34 202202 李四 45 76 56 202203 王五 34 55 77 202204 赵六 98 90 87
df1. columns
Index(['姓名', '数学', '语文', '计算机'], dtype='object')
df1. index
Int64Index([202201, 202202, 202203, 202204], dtype='int64')
df1. values
array([['张三', 87, 54, 34],
['李四', 45, 76, 56],
['王五', 34, 55, 77],
['赵六', 98, 90, 87]], dtype=object)
4.2利用pandas导入导出数据
导入外部数据
import pandas as pd
f1= pd. read_csv( "C:\\Users\\wsy\\Desktop\\a.csv" )
f1
a b 0 1 2 1 2 4 2 3 6 3 4 8 4 5 10 5 6 12 6 7 14 7 8 16 8 9 18
import pandas as pd
f1= pd. read_csv( "C:\\Users\\wsy\\Desktop\\b.csv" , encoding= "gbk" )
f1
青海 西宁 0 1 2 1 2 4 2 3 6 3 4 8 4 5 10 5 6 12 6 7 14 7 8 16 8 9 18
导出外部数据
4.3数据概览及预处理
import pandas as pd
pd. set_option( "display.unicode.east_asian_width" , True )
df= pd. read_excel( "C:\\Users\\wsy\\Desktop\\cj.xlsx" )
df
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 5 2020844005 辛禧 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 6 2020844007 王晨 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 7 2020844008 韩天 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 8 2020844009 刘玉 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.00 90.0 73.00 10 2020844011 娄天楠 男 市场营销 58.800000 84.6 60.00 NaN 73.00 11 2020844012 唐喆 男 市场营销 80.233333 87.4 64.00 100.0 77.00 12 2020844013 史昀 男 市场营销 82.733333 82.2 73.32 100.0 86.32 13 2020844014 刘欣语 男 市场营销 48.718333 83.8 86.00 80.0 99.00 14 2020844015 王同 男 市场营销 74.200000 92.2 92.00 100.0 115.00 15 2020844017 武天一 男 市场营销 73.216667 83.2 79.00 95.0 92.00 16 2020844018 张析 女 市场营销 82.750000 92.0 92.00 100.0 105.00 17 2020844019 陈雨涵 男 市场营销 95.200000 95.0 88.00 100.0 101.00 18 2020844020 张家齐 男 市场营销 95.450000 91.0 96.00 100.0 109.00 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.00 87.0 96.00 20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 21 2020844023 刘嘉雯 男 会计学 89.575000 86.0 90.00 100.0 103.00 22 2020844024 刘浩天 男 会计学 85.100000 83.2 85.00 100.0 98.00 23 2020844025 刘宇 男 NaN 75.200000 85.6 76.00 100.0 89.00 24 2020844026 胡童 男 会计学 84.050000 86.0 91.00 100.0 119.00 25 2020844027 丁灿 男 会计学 88.750000 86.2 66.00 100.0 79.00 26 2020844028 郑武田 男 会计学 89.550000 87.4 91.00 NaN 104.00 27 2020844029 金耀 男 会计学 79.450000 87.2 68.00 100.0 81.00 28 2020844030 庞博 男 会计学 89.700000 92.0 92.00 100.0 105.00 29 2020848001 王春杨 女 会计学 88.100000 89.8 84.00 100.0 97.00 30 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 31 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 32 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 33 2020848003 张淳 女 会计学 91.300000 92.2 81.32 100.0 94.32 34 2020848004 王佳琳 男 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 35 2020848005 郑彤 女 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 36 2020848006 张鹤同 男 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 37 2020848007 苏远 女 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 38 2020848008 方雨桃 女 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 39 2020848010 闫宇 男 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 40 2020848011 张田田 女 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 41 2020848013 曹一一 男 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 42 2020848014 贾晶晶 女 NaN 84.450000 93.0 82.66 100.0 95.66 43 2020848015 贾淏文 男 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 44 2020848016 杨帆 男 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 46 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 47 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 48 2020848019 张雨桐 女 金融学 79.150000 92.4 83.00 100.0 96.00 49 2020848020 孟德坤 女 金融学 83.450000 87.4 80.66 100.0 93.66 50 2020848021 王少祖 女 金融学 82.950000 91.6 78.00 90.0 91.00 51 2020848023 黄金雨 女 金融学 79.950000 89.8 86.00 100.0 99.00 52 2020848024 汤佳怡 女 金融学 86.600000 83.4 88.32 100.0 101.32 53 2020848027 热孜耶·买买提 女 金融学 92.700000 93.2 86.32 100.0 99.32 54 2020848028 奴热艾力·雪艾力 女 金融学 15.000000 75.0 63.32 100.0 76.32 55 2020848029 林可新 女 金融学 89.300000 87.4 95.00 100.0 108.00 56 2020848031 任旭 女 金融学 83.425000 85.4 71.66 100.0 84.66
4.3.1数据概览分析
利用基础属性查看数据基本信息
print ( "索引:" , df. index)
索引: RangeIndex(start=0, stop=57, step=1)
print ( "列名:" , df. columns)
列名: Index(['学号', '姓名', '性别', '专业', '英语', '数学', 'Python', '选修',
'管理学'], dtype='object')
print ( "数据元素:" , df. values[ : 10 ] )
数据元素: [[2020802045 '魏天' '男' '信息管理与信息系统' 67.11666666666667 90.80000000000001
93.0 95.0 106.0]
[2020844001 '郭夏' '男' '国际贸易' 91.05 83.4 86.0 100.0 99.0]
[2020844002 '王晓加' '男' nan 54.2 83.4 74.0 nan 90.0]
[2020844003 '黄婷婷' '女' '国际贸易' 87.8 91.4 79.66 95.0 92.66]
[2020844004 '赵小瑜' nan '国际贸易' 61.15 82.2 84.66 100.0 97.66]
[2020844005 '辛禧' '男' '国际贸易' 65.125 88.6 68.0 80.0 81.0]
[2020844007 '王晨' '男' '国际贸易' 62.4 80.0 65.0 90.0 78.0]
[2020844008 '韩天' '男' '国际贸易' 96.25 91.0 85.0 97.0 98.0]
[2020844009 '刘玉' '女' '国际贸易' 89.05 91.4 80.32 100.0 93.32]
[2020844010 '谢亚鹏' '男' '市场营销' 70.5 85.2 60.0 90.0 73.0]]
print ( "数据类型:\n" , df. dtypes)
数据类型:
学号 int64
姓名 object
性别 object
专业 object
英语 float64
数学 float64
Python float64
选修 float64
管理学 float64
dtype: object
利用基础属性查看数据规模
print ( "元素个数:" , df. size)
元素个数: 513
print ( "维度数:" , df. ndim)
维度数: 2
print ( "形状:" , df. shape)
形状: (57, 9)
print ( "行数:" , df. index. size)
行数: 57
print ( "列数" , df. columns. size)
列数 9
利用常用方法查看样本数据
df. head( )
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66
df. head( 2 )
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.0 95.0 106.0 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.0 100.0 99.0
df. tail( )
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 52 2020848024 汤佳怡 女 金融学 86.600 83.4 88.32 100.0 101.32 53 2020848027 热孜耶·买买提 女 金融学 92.700 93.2 86.32 100.0 99.32 54 2020848028 奴热艾力·雪艾力 女 金融学 15.000 75.0 63.32 100.0 76.32 55 2020848029 林可新 女 金融学 89.300 87.4 95.00 100.0 108.00 56 2020848031 任旭 女 金融学 83.425 85.4 71.66 100.0 84.66
df. tail( 3 )
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 54 2020848028 奴热艾力·雪艾力 女 金融学 15.000 75.0 63.32 100.0 76.32 55 2020848029 林可新 女 金融学 89.300 87.4 95.00 100.0 108.00 56 2020848031 任旭 女 金融学 83.425 85.4 71.66 100.0 84.66
利用常用方法查看数据质量
print ( df. notnull( ) )
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 True True True True True True True True True
1 True True True True True True True True True
2 True True True False True True True False True
3 True True True True True True True True True
4 True True False True True True True True True
5 True True True True True True True True True
6 True True True True True True True True True
7 True True True True True True True True True
8 True True True True True True True True True
9 True True True True True True True True True
10 True True True True True True True False True
11 True True True True True True True True True
12 True True True True True True True True True
13 True True True True True True True True True
14 True True True True True True True True True
15 True True True True True True True True True
16 True True True True True True True True True
17 True True True True True True True True True
18 True True True True True True True True True
19 True True True True True True True True True
20 True True False True True True True True True
21 True True True True True True True True True
22 True True True True True True True True True
23 True True True False True True True True True
24 True True True True True True True True True
25 True True True True True True True True True
26 True True True True True True True False True
27 True True True True True True True True True
28 True True True True True True True True True
29 True True True True True True True True True
30 True True True True True True True True True
31 True True True True True True True True True
32 True True True True True True True True True
33 True True True True True True True True True
34 True True True True True True True True True
35 True True True True True True True True True
36 True True True True True True True True True
37 True True True True True True True True True
38 True True True True True True True True True
39 True True True True True True True True True
40 True True True True True True True True True
41 True True True True True True True True True
42 True True True False True True True True True
43 True True True True True True True True True
44 True True True True True True True False True
45 True True False True True True True True True
46 True True True True True True True True True
47 True True True True True True True True True
48 True True True True True True True True True
49 True True True True True True True True True
50 True True True True True True True True True
51 True True True True True True True True True
52 True True True True True True True True True
53 True True True True True True True True True
54 True True True True True True True True True
55 True True True True True True True True True
56 True True True True True True True True True
print ( df. isnull( ) )
学号 姓名 性别 专业 英语 数学 Python 选修 管理学
0 False False False False False False False False False
1 False False False False False False False False False
2 False False False True False False False True False
3 False False False False False False False False False
4 False False True False False False False False False
5 False False False False False False False False False
6 False False False False False False False False False
7 False False False False False False False False False
8 False False False False False False False False False
9 False False False False False False False False False
10 False False False False False False False True False
11 False False False False False False False False False
12 False False False False False False False False False
13 False False False False False False False False False
14 False False False False False False False False False
15 False False False False False False False False False
16 False False False False False False False False False
17 False False False False False False False False False
18 False False False False False False False False False
19 False False False False False False False False False
20 False False True False False False False False False
21 False False False False False False False False False
22 False False False False False False False False False
23 False False False True False False False False False
24 False False False False False False False False False
25 False False False False False False False False False
26 False False False False False False False True False
27 False False False False False False False False False
28 False False False False False False False False False
29 False False False False False False False False False
30 False False False False False False False False False
31 False False False False False False False False False
32 False False False False False False False False False
33 False False False False False False False False False
34 False False False False False False False False False
35 False False False False False False False False False
36 False False False False False False False False False
37 False False False False False False False False False
38 False False False False False False False False False
39 False False False False False False False False False
40 False False False False False False False False False
41 False False False False False False False False False
42 False False False True False False False False False
43 False False False False False False False False False
44 False False False False False False False True False
45 False False True False False False False False False
46 False False False False False False False False False
47 False False False False False False False False False
48 False False False False False False False False False
49 False False False False False False False False False
50 False False False False False False False False False
51 False False False False False False False False False
52 False False False False False False False False False
53 False False False False False False False False False
54 False False False False False False False False False
55 False False False False False False False False False
56 False False False False False False False False False
print ( "df中每个特征的缺失情况:\n" , df. isna( ) . sum ( ) )
df中每个特征的缺失情况:
学号 0
姓名 0
性别 3
专业 3
英语 0
数学 0
Python 0
选修 4
管理学 0
dtype: int64
df. duplicated( )
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
10 False
11 False
12 False
13 False
14 False
15 False
16 False
17 False
18 False
19 False
20 False
21 False
22 False
23 False
24 False
25 False
26 False
27 False
28 False
29 False
30 False
31 True
32 True
33 False
34 False
35 False
36 False
37 False
38 False
39 False
40 False
41 False
42 False
43 False
44 False
45 False
46 False
47 True
48 False
49 False
50 False
51 False
52 False
53 False
54 False
55 False
56 False
dtype: bool
df. duplicated( "姓名" )
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
10 False
11 False
12 False
13 False
14 False
15 False
16 False
17 False
18 False
19 False
20 False
21 False
22 False
23 False
24 False
25 False
26 False
27 False
28 False
29 False
30 False
31 True
32 True
33 False
34 False
35 False
36 False
37 False
38 False
39 False
40 False
41 False
42 False
43 False
44 False
45 False
46 False
47 True
48 False
49 False
50 False
51 False
52 False
53 False
54 False
55 False
56 False
dtype: bool
df. info( )
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57 entries, 0 to 56
Data columns (total 9 columns):
学号 57 non-null int64
姓名 57 non-null object
性别 54 non-null object
专业 54 non-null object
英语 57 non-null float64
数学 57 non-null float64
Python 57 non-null float64
选修 53 non-null float64
管理学 57 non-null float64
dtypes: float64(5), int64(1), object(3)
memory usage: 4.1+ KB
4.3.2数据清洗
import pandas as pd
pd. set_option( "display.unicode.east_asian_width" , True )
df= pd. read_excel( "C:\\Users\\wsy\\Desktop\\cj.xlsx" )
df
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 5 2020844005 辛禧 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 6 2020844007 王晨 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 7 2020844008 韩天 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 8 2020844009 刘玉 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.00 90.0 73.00 10 2020844011 娄天楠 男 市场营销 58.800000 84.6 60.00 NaN 73.00 11 2020844012 唐喆 男 市场营销 80.233333 87.4 64.00 100.0 77.00 12 2020844013 史昀 男 市场营销 82.733333 82.2 73.32 100.0 86.32 13 2020844014 刘欣语 男 市场营销 48.718333 83.8 86.00 80.0 99.00 14 2020844015 王同 男 市场营销 74.200000 92.2 92.00 100.0 115.00 15 2020844017 武天一 男 市场营销 73.216667 83.2 79.00 95.0 92.00 16 2020844018 张析 女 市场营销 82.750000 92.0 92.00 100.0 105.00 17 2020844019 陈雨涵 男 市场营销 95.200000 95.0 88.00 100.0 101.00 18 2020844020 张家齐 男 市场营销 95.450000 91.0 96.00 100.0 109.00 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.00 87.0 96.00 20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 21 2020844023 刘嘉雯 男 会计学 89.575000 86.0 90.00 100.0 103.00 22 2020844024 刘浩天 男 会计学 85.100000 83.2 85.00 100.0 98.00 23 2020844025 刘宇 男 NaN 75.200000 85.6 76.00 100.0 89.00 24 2020844026 胡童 男 会计学 84.050000 86.0 91.00 100.0 119.00 25 2020844027 丁灿 男 会计学 88.750000 86.2 66.00 100.0 79.00 26 2020844028 郑武田 男 会计学 89.550000 87.4 91.00 NaN 104.00 27 2020844029 金耀 男 会计学 79.450000 87.2 68.00 100.0 81.00 28 2020844030 庞博 男 会计学 89.700000 92.0 92.00 100.0 105.00 29 2020848001 王春杨 女 会计学 88.100000 89.8 84.00 100.0 97.00 30 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 31 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 32 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 33 2020848003 张淳 女 会计学 91.300000 92.2 81.32 100.0 94.32 34 2020848004 王佳琳 男 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 35 2020848005 郑彤 女 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 36 2020848006 张鹤同 男 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 37 2020848007 苏远 女 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 38 2020848008 方雨桃 女 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 39 2020848010 闫宇 男 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 40 2020848011 张田田 女 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 41 2020848013 曹一一 男 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 42 2020848014 贾晶晶 女 NaN 84.450000 93.0 82.66 100.0 95.66 43 2020848015 贾淏文 男 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 44 2020848016 杨帆 男 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 46 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 47 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 48 2020848019 张雨桐 女 金融学 79.150000 92.4 83.00 100.0 96.00 49 2020848020 孟德坤 女 金融学 83.450000 87.4 80.66 100.0 93.66 50 2020848021 王少祖 女 金融学 82.950000 91.6 78.00 90.0 91.00 51 2020848023 黄金雨 女 金融学 79.950000 89.8 86.00 100.0 99.00 52 2020848024 汤佳怡 女 金融学 86.600000 83.4 88.32 100.0 101.32 53 2020848027 热孜耶·买买提 女 金融学 92.700000 93.2 86.32 100.0 99.32 54 2020848028 奴热艾力·雪艾力 女 金融学 15.000000 75.0 63.32 100.0 76.32 55 2020848029 林可新 女 金融学 89.300000 87.4 95.00 100.0 108.00 56 2020848031 任旭 女 金融学 83.425000 85.4 71.66 100.0 84.66
缺失值处理
df1= df. dropna( )
print ( "删出前" , df. shape)
print ( "删出后" , df1. shape)
删出前 (57, 9)
删出后 (48, 9)
df1= df. dropna( how= "all" )
print ( "删出前" , df. shape)
print ( "删出后" , df1. shape)
删出前 (57, 9)
删出后 (57, 9)
df1= df. dropna( how= "all" , subset= [ "专业" , "选修" ] )
print ( "删出前" , df. shape)
print ( "删出后" , df1. shape)
删出前 (57, 9)
删出后 (56, 9)
df1= df[ df[ "性别" ] . notnull( ) ]
print ( "删出前" , df. shape)
print ( "删出后" , df1. shape)
df1
删出前 (57, 9)
删出后 (54, 9)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 5 2020844005 辛禧 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 6 2020844007 王晨 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 7 2020844008 韩天 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 8 2020844009 刘玉 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.00 90.0 73.00 10 2020844011 娄天楠 男 市场营销 58.800000 84.6 60.00 NaN 73.00 11 2020844012 唐喆 男 市场营销 80.233333 87.4 64.00 100.0 77.00 12 2020844013 史昀 男 市场营销 82.733333 82.2 73.32 100.0 86.32 13 2020844014 刘欣语 男 市场营销 48.718333 83.8 86.00 80.0 99.00 14 2020844015 王同 男 市场营销 74.200000 92.2 92.00 100.0 115.00 15 2020844017 武天一 男 市场营销 73.216667 83.2 79.00 95.0 92.00 16 2020844018 张析 女 市场营销 82.750000 92.0 92.00 100.0 105.00 17 2020844019 陈雨涵 男 市场营销 95.200000 95.0 88.00 100.0 101.00 18 2020844020 张家齐 男 市场营销 95.450000 91.0 96.00 100.0 109.00 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.00 87.0 96.00 21 2020844023 刘嘉雯 男 会计学 89.575000 86.0 90.00 100.0 103.00 22 2020844024 刘浩天 男 会计学 85.100000 83.2 85.00 100.0 98.00 23 2020844025 刘宇 男 NaN 75.200000 85.6 76.00 100.0 89.00 24 2020844026 胡童 男 会计学 84.050000 86.0 91.00 100.0 119.00 25 2020844027 丁灿 男 会计学 88.750000 86.2 66.00 100.0 79.00 26 2020844028 郑武田 男 会计学 89.550000 87.4 91.00 NaN 104.00 27 2020844029 金耀 男 会计学 79.450000 87.2 68.00 100.0 81.00 28 2020844030 庞博 男 会计学 89.700000 92.0 92.00 100.0 105.00 29 2020848001 王春杨 女 会计学 88.100000 89.8 84.00 100.0 97.00 30 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 31 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 32 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 33 2020848003 张淳 女 会计学 91.300000 92.2 81.32 100.0 94.32 34 2020848004 王佳琳 男 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 35 2020848005 郑彤 女 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 36 2020848006 张鹤同 男 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 37 2020848007 苏远 女 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 38 2020848008 方雨桃 女 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 39 2020848010 闫宇 男 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 40 2020848011 张田田 女 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 41 2020848013 曹一一 男 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 42 2020848014 贾晶晶 女 NaN 84.450000 93.0 82.66 100.0 95.66 43 2020848015 贾淏文 男 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 44 2020848016 杨帆 男 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 46 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 47 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 48 2020848019 张雨桐 女 金融学 79.150000 92.4 83.00 100.0 96.00 49 2020848020 孟德坤 女 金融学 83.450000 87.4 80.66 100.0 93.66 50 2020848021 王少祖 女 金融学 82.950000 91.6 78.00 90.0 91.00 51 2020848023 黄金雨 女 金融学 79.950000 89.8 86.00 100.0 99.00 52 2020848024 汤佳怡 女 金融学 86.600000 83.4 88.32 100.0 101.32 53 2020848027 热孜耶·买买提 女 金融学 92.700000 93.2 86.32 100.0 99.32 54 2020848028 奴热艾力·雪艾力 女 金融学 15.000000 75.0 63.32 100.0 76.32 55 2020848029 林可新 女 金融学 89.300000 87.4 95.00 100.0 108.00 56 2020848031 任旭 女 金融学 83.425000 85.4 71.66 100.0 84.66
df[ "选修" ] . fillna( 0 )
0 95.0
1 100.0
2 0.0
3 95.0
4 100.0
5 80.0
6 90.0
7 97.0
8 100.0
9 90.0
10 0.0
11 100.0
12 100.0
13 80.0
14 100.0
15 95.0
16 100.0
17 100.0
18 100.0
19 87.0
20 100.0
21 100.0
22 100.0
23 100.0
24 100.0
25 100.0
26 0.0
27 100.0
28 100.0
29 100.0
30 100.0
31 100.0
32 100.0
33 100.0
34 100.0
35 100.0
36 100.0
37 68.0
38 100.0
39 100.0
40 77.0
41 100.0
42 100.0
43 100.0
44 0.0
45 100.0
46 90.0
47 90.0
48 100.0
49 100.0
50 90.0
51 100.0
52 100.0
53 100.0
54 100.0
55 100.0
56 100.0
Name: 选修, dtype: float64
df[ "选修" ] . fillna( method= "ffill" )
0 95.0
1 100.0
2 95.0
3 95.0
4 100.0
5 80.0
6 90.0
7 97.0
8 100.0
9 90.0
10 100.0
11 100.0
12 100.0
13 80.0
14 100.0
15 95.0
16 100.0
17 100.0
18 100.0
19 87.0
20 100.0
21 100.0
22 100.0
23 100.0
24 100.0
25 100.0
26 100.0
27 100.0
28 100.0
29 100.0
30 100.0
31 100.0
32 100.0
33 100.0
34 100.0
35 100.0
36 100.0
37 68.0
38 100.0
39 100.0
40 77.0
41 100.0
42 100.0
43 100.0
44 100.0
45 100.0
46 90.0
47 90.0
48 100.0
49 100.0
50 90.0
51 100.0
52 100.0
53 100.0
54 100.0
55 100.0
56 100.0
Name: 选修, dtype: float64
import numpy as np
df[ "选修" ] . fillna( np. mean( df[ "选修" ] ) )
0 95.000000
1 100.000000
2 96.679245
3 95.000000
4 100.000000
5 80.000000
6 90.000000
7 97.000000
8 100.000000
9 90.000000
10 96.679245
11 100.000000
12 100.000000
13 80.000000
14 100.000000
15 95.000000
16 100.000000
17 100.000000
18 100.000000
19 87.000000
20 100.000000
21 100.000000
22 100.000000
23 100.000000
24 100.000000
25 100.000000
26 96.679245
27 100.000000
28 100.000000
29 100.000000
30 100.000000
31 100.000000
32 100.000000
33 100.000000
34 100.000000
35 100.000000
36 100.000000
37 68.000000
38 100.000000
39 100.000000
40 77.000000
41 100.000000
42 100.000000
43 100.000000
44 96.679245
45 100.000000
46 90.000000
47 90.000000
48 100.000000
49 100.000000
50 90.000000
51 100.000000
52 100.000000
53 100.000000
54 100.000000
55 100.000000
56 100.000000
Name: 选修, dtype: float64
重复值处理
df1= df. drop_duplicates( )
print ( "去重前:" , df. shape)
print ( "去重后:" , df1. shape)
去重前: (57, 9)
去重后: (54, 9)
df1= df. drop_duplicates( [ "专业" ] )
print ( "去重前:" , df. shape)
print ( "去重后:" , df1. shape)
df1
去重前: (57, 9)
去重后: (6, 9)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.0 95.0 106.0 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.0 100.0 99.0 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.0 NaN 90.0 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.0 90.0 73.0 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.0 87.0 96.0 48 2020848019 张雨桐 女 金融学 79.150000 92.4 83.0 100.0 96.0
df1= df. drop_duplicates( [ "专业" ] , keep= "last" )
print ( "去重前:" , df. shape)
print ( "去重后:" , df1. shape)
df1
去重前: (57, 9)
去重后: (6, 9)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 8 2020844009 刘玉 女 国际贸易 89.050 91.4 80.32 100.0 93.32 18 2020844020 张家齐 男 市场营销 95.450 91.0 96.00 100.0 109.00 33 2020848003 张淳 女 会计学 91.300 92.2 81.32 100.0 94.32 42 2020848014 贾晶晶 女 NaN 84.450 93.0 82.66 100.0 95.66 47 2020848018 郭晓舒 男 信息管理与信息系统 82.500 83.8 73.00 90.0 86.00 56 2020848031 任旭 女 金融学 83.425 85.4 71.66 100.0 84.66
df1= df. drop_duplicates( [ "学号" , "姓名" ] )
print ( "去重前:" , df. shape)
print ( "去重后:" , df1. shape)
df1
去重前: (57, 9)
去重后: (54, 9)
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 5 2020844005 辛禧 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 6 2020844007 王晨 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 7 2020844008 韩天 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 8 2020844009 刘玉 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.00 90.0 73.00 10 2020844011 娄天楠 男 市场营销 58.800000 84.6 60.00 NaN 73.00 11 2020844012 唐喆 男 市场营销 80.233333 87.4 64.00 100.0 77.00 12 2020844013 史昀 男 市场营销 82.733333 82.2 73.32 100.0 86.32 13 2020844014 刘欣语 男 市场营销 48.718333 83.8 86.00 80.0 99.00 14 2020844015 王同 男 市场营销 74.200000 92.2 92.00 100.0 115.00 15 2020844017 武天一 男 市场营销 73.216667 83.2 79.00 95.0 92.00 16 2020844018 张析 女 市场营销 82.750000 92.0 92.00 100.0 105.00 17 2020844019 陈雨涵 男 市场营销 95.200000 95.0 88.00 100.0 101.00 18 2020844020 张家齐 男 市场营销 95.450000 91.0 96.00 100.0 109.00 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.00 87.0 96.00 20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 21 2020844023 刘嘉雯 男 会计学 89.575000 86.0 90.00 100.0 103.00 22 2020844024 刘浩天 男 会计学 85.100000 83.2 85.00 100.0 98.00 23 2020844025 刘宇 男 NaN 75.200000 85.6 76.00 100.0 89.00 24 2020844026 胡童 男 会计学 84.050000 86.0 91.00 100.0 119.00 25 2020844027 丁灿 男 会计学 88.750000 86.2 66.00 100.0 79.00 26 2020844028 郑武田 男 会计学 89.550000 87.4 91.00 NaN 104.00 27 2020844029 金耀 男 会计学 79.450000 87.2 68.00 100.0 81.00 28 2020844030 庞博 男 会计学 89.700000 92.0 92.00 100.0 105.00 29 2020848001 王春杨 女 会计学 88.100000 89.8 84.00 100.0 97.00 30 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 33 2020848003 张淳 女 会计学 91.300000 92.2 81.32 100.0 94.32 34 2020848004 王佳琳 男 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 35 2020848005 郑彤 女 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 36 2020848006 张鹤同 男 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 37 2020848007 苏远 女 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 38 2020848008 方雨桃 女 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 39 2020848010 闫宇 男 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 40 2020848011 张田田 女 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 41 2020848013 曹一一 男 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 42 2020848014 贾晶晶 女 NaN 84.450000 93.0 82.66 100.0 95.66 43 2020848015 贾淏文 男 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 44 2020848016 杨帆 男 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 46 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 48 2020848019 张雨桐 女 金融学 79.150000 92.4 83.00 100.0 96.00 49 2020848020 孟德坤 女 金融学 83.450000 87.4 80.66 100.0 93.66 50 2020848021 王少祖 女 金融学 82.950000 91.6 78.00 90.0 91.00 51 2020848023 黄金雨 女 金融学 79.950000 89.8 86.00 100.0 99.00 52 2020848024 汤佳怡 女 金融学 86.600000 83.4 88.32 100.0 101.32 53 2020848027 热孜耶·买买提 女 金融学 92.700000 93.2 86.32 100.0 99.32 54 2020848028 奴热艾力·雪艾力 女 金融学 15.000000 75.0 63.32 100.0 76.32 55 2020848029 林可新 女 金融学 89.300000 87.4 95.00 100.0 108.00 56 2020848031 任旭 女 金融学 83.425000 85.4 71.66 100.0 84.66
4.3.3数据的抽取和合并
import pandas as pd
pd. set_option( "display.unicode.east_asian_width" , True )
df= pd. read_excel( "C:\\Users\\wsy\\Desktop\\cj.xlsx" )
数据抽取
1、抽取列
df. 学号
0 2020802045
1 2020844001
2 2020844002
3 2020844003
4 2020844004
5 2020844005
6 2020844007
7 2020844008
8 2020844009
9 2020844010
10 2020844011
11 2020844012
12 2020844013
13 2020844014
14 2020844015
15 2020844017
16 2020844018
17 2020844019
18 2020844020
19 2020844021
20 2020844022
21 2020844023
22 2020844024
23 2020844025
24 2020844026
25 2020844027
26 2020844028
27 2020844029
28 2020844030
29 2020848001
30 2020848002
31 2020848002
32 2020848002
33 2020848003
34 2020848004
35 2020848005
36 2020848006
37 2020848007
38 2020848008
39 2020848010
40 2020848011
41 2020848013
42 2020848014
43 2020848015
44 2020848016
45 2020848017
46 2020848018
47 2020848018
48 2020848019
49 2020848020
50 2020848021
51 2020848023
52 2020848024
53 2020848027
54 2020848028
55 2020848029
56 2020848031
Name: 学号, dtype: int64
df[ "学号" ]
type ( df[ "学号" ] )
pandas.core.series.Series
df[ [ "学号" ] ]
type ( df[ [ "学号" ] ] )
pandas.core.frame.DataFrame
df[ [ "学号" , "姓名" , "专业" ] ]
学号 姓名 专业 0 2020802045 魏天 信息管理与信息系统 1 2020844001 郭夏 国际贸易 2 2020844002 王晓加 NaN 3 2020844003 黄婷婷 国际贸易 4 2020844004 赵小瑜 国际贸易 5 2020844005 辛禧 国际贸易 6 2020844007 王晨 国际贸易 7 2020844008 韩天 国际贸易 8 2020844009 刘玉 国际贸易 9 2020844010 谢亚鹏 市场营销 10 2020844011 娄天楠 市场营销 11 2020844012 唐喆 市场营销 12 2020844013 史昀 市场营销 13 2020844014 刘欣语 市场营销 14 2020844015 王同 市场营销 15 2020844017 武天一 市场营销 16 2020844018 张析 市场营销 17 2020844019 陈雨涵 市场营销 18 2020844020 张家齐 市场营销 19 2020844021 李赫桐 会计学 20 2020844022 关帅 会计学 21 2020844023 刘嘉雯 会计学 22 2020844024 刘浩天 会计学 23 2020844025 刘宇 NaN 24 2020844026 胡童 会计学 25 2020844027 丁灿 会计学 26 2020844028 郑武田 会计学 27 2020844029 金耀 会计学 28 2020844030 庞博 会计学 29 2020848001 王春杨 会计学 30 2020848002 陈小恬 会计学 31 2020848002 陈小恬 会计学 32 2020848002 陈小恬 会计学 33 2020848003 张淳 会计学 34 2020848004 王佳琳 信息管理与信息系统 35 2020848005 郑彤 信息管理与信息系统 36 2020848006 张鹤同 信息管理与信息系统 37 2020848007 苏远 信息管理与信息系统 38 2020848008 方雨桃 信息管理与信息系统 39 2020848010 闫宇 信息管理与信息系统 40 2020848011 张田田 信息管理与信息系统 41 2020848013 曹一一 信息管理与信息系统 42 2020848014 贾晶晶 NaN 43 2020848015 贾淏文 信息管理与信息系统 44 2020848016 杨帆 信息管理与信息系统 45 2020848017 赵迎辰 信息管理与信息系统 46 2020848018 郭晓舒 信息管理与信息系统 47 2020848018 郭晓舒 信息管理与信息系统 48 2020848019 张雨桐 金融学 49 2020848020 孟德坤 金融学 50 2020848021 王少祖 金融学 51 2020848023 黄金雨 金融学 52 2020848024 汤佳怡 金融学 53 2020848027 热孜耶·买买提 金融学 54 2020848028 奴热艾力·雪艾力 金融学 55 2020848029 林可新 金融学 56 2020848031 任旭 金融学
df. loc[ : , [ "学号" ] ]
学号 0 2020802045 1 2020844001 2 2020844002 3 2020844003 4 2020844004 5 2020844005 6 2020844007 7 2020844008 8 2020844009 9 2020844010 10 2020844011 11 2020844012 12 2020844013 13 2020844014 14 2020844015 15 2020844017 16 2020844018 17 2020844019 18 2020844020 19 2020844021 20 2020844022 21 2020844023 22 2020844024 23 2020844025 24 2020844026 25 2020844027 26 2020844028 27 2020844029 28 2020844030 29 2020848001 30 2020848002 31 2020848002 32 2020848002 33 2020848003 34 2020848004 35 2020848005 36 2020848006 37 2020848007 38 2020848008 39 2020848010 40 2020848011 41 2020848013 42 2020848014 43 2020848015 44 2020848016 45 2020848017 46 2020848018 47 2020848018 48 2020848019 49 2020848020 50 2020848021 51 2020848023 52 2020848024 53 2020848027 54 2020848028 55 2020848029 56 2020848031
df. loc[ : , [ "学号" , "姓名" , "专业" ] ]
学号 姓名 专业 0 2020802045 魏天 信息管理与信息系统 1 2020844001 郭夏 国际贸易 2 2020844002 王晓加 NaN 3 2020844003 黄婷婷 国际贸易 4 2020844004 赵小瑜 国际贸易 5 2020844005 辛禧 国际贸易 6 2020844007 王晨 国际贸易 7 2020844008 韩天 国际贸易 8 2020844009 刘玉 国际贸易 9 2020844010 谢亚鹏 市场营销 10 2020844011 娄天楠 市场营销 11 2020844012 唐喆 市场营销 12 2020844013 史昀 市场营销 13 2020844014 刘欣语 市场营销 14 2020844015 王同 市场营销 15 2020844017 武天一 市场营销 16 2020844018 张析 市场营销 17 2020844019 陈雨涵 市场营销 18 2020844020 张家齐 市场营销 19 2020844021 李赫桐 会计学 20 2020844022 关帅 会计学 21 2020844023 刘嘉雯 会计学 22 2020844024 刘浩天 会计学 23 2020844025 刘宇 NaN 24 2020844026 胡童 会计学 25 2020844027 丁灿 会计学 26 2020844028 郑武田 会计学 27 2020844029 金耀 会计学 28 2020844030 庞博 会计学 29 2020848001 王春杨 会计学 30 2020848002 陈小恬 会计学 31 2020848002 陈小恬 会计学 32 2020848002 陈小恬 会计学 33 2020848003 张淳 会计学 34 2020848004 王佳琳 信息管理与信息系统 35 2020848005 郑彤 信息管理与信息系统 36 2020848006 张鹤同 信息管理与信息系统 37 2020848007 苏远 信息管理与信息系统 38 2020848008 方雨桃 信息管理与信息系统 39 2020848010 闫宇 信息管理与信息系统 40 2020848011 张田田 信息管理与信息系统 41 2020848013 曹一一 信息管理与信息系统 42 2020848014 贾晶晶 NaN 43 2020848015 贾淏文 信息管理与信息系统 44 2020848016 杨帆 信息管理与信息系统 45 2020848017 赵迎辰 信息管理与信息系统 46 2020848018 郭晓舒 信息管理与信息系统 47 2020848018 郭晓舒 信息管理与信息系统 48 2020848019 张雨桐 金融学 49 2020848020 孟德坤 金融学 50 2020848021 王少祖 金融学 51 2020848023 黄金雨 金融学 52 2020848024 汤佳怡 金融学 53 2020848027 热孜耶·买买提 金融学 54 2020848028 奴热艾力·雪艾力 金融学 55 2020848029 林可新 金融学 56 2020848031 任旭 金融学
df. iloc[ : , [ 0 , 1 , 3 ] ]
学号 姓名 专业 0 2020802045 魏天 信息管理与信息系统 1 2020844001 郭夏 国际贸易 2 2020844002 王晓加 NaN 3 2020844003 黄婷婷 国际贸易 4 2020844004 赵小瑜 国际贸易 5 2020844005 辛禧 国际贸易 6 2020844007 王晨 国际贸易 7 2020844008 韩天 国际贸易 8 2020844009 刘玉 国际贸易 9 2020844010 谢亚鹏 市场营销 10 2020844011 娄天楠 市场营销 11 2020844012 唐喆 市场营销 12 2020844013 史昀 市场营销 13 2020844014 刘欣语 市场营销 14 2020844015 王同 市场营销 15 2020844017 武天一 市场营销 16 2020844018 张析 市场营销 17 2020844019 陈雨涵 市场营销 18 2020844020 张家齐 市场营销 19 2020844021 李赫桐 会计学 20 2020844022 关帅 会计学 21 2020844023 刘嘉雯 会计学 22 2020844024 刘浩天 会计学 23 2020844025 刘宇 NaN 24 2020844026 胡童 会计学 25 2020844027 丁灿 会计学 26 2020844028 郑武田 会计学 27 2020844029 金耀 会计学 28 2020844030 庞博 会计学 29 2020848001 王春杨 会计学 30 2020848002 陈小恬 会计学 31 2020848002 陈小恬 会计学 32 2020848002 陈小恬 会计学 33 2020848003 张淳 会计学 34 2020848004 王佳琳 信息管理与信息系统 35 2020848005 郑彤 信息管理与信息系统 36 2020848006 张鹤同 信息管理与信息系统 37 2020848007 苏远 信息管理与信息系统 38 2020848008 方雨桃 信息管理与信息系统 39 2020848010 闫宇 信息管理与信息系统 40 2020848011 张田田 信息管理与信息系统 41 2020848013 曹一一 信息管理与信息系统 42 2020848014 贾晶晶 NaN 43 2020848015 贾淏文 信息管理与信息系统 44 2020848016 杨帆 信息管理与信息系统 45 2020848017 赵迎辰 信息管理与信息系统 46 2020848018 郭晓舒 信息管理与信息系统 47 2020848018 郭晓舒 信息管理与信息系统 48 2020848019 张雨桐 金融学 49 2020848020 孟德坤 金融学 50 2020848021 王少祖 金融学 51 2020848023 黄金雨 金融学 52 2020848024 汤佳怡 金融学 53 2020848027 热孜耶·买买提 金融学 54 2020848028 奴热艾力·雪艾力 金融学 55 2020848029 林可新 金融学 56 2020848031 任旭 金融学
2、抽取行
df. loc[ 1 : 20 , ]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 5 2020844005 辛禧 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 6 2020844007 王晨 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 7 2020844008 韩天 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 8 2020844009 刘玉 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.00 90.0 73.00 10 2020844011 娄天楠 男 市场营销 58.800000 84.6 60.00 NaN 73.00 11 2020844012 唐喆 男 市场营销 80.233333 87.4 64.00 100.0 77.00 12 2020844013 史昀 男 市场营销 82.733333 82.2 73.32 100.0 86.32 13 2020844014 刘欣语 男 市场营销 48.718333 83.8 86.00 80.0 99.00 14 2020844015 王同 男 市场营销 74.200000 92.2 92.00 100.0 115.00 15 2020844017 武天一 男 市场营销 73.216667 83.2 79.00 95.0 92.00 16 2020844018 张析 女 市场营销 82.750000 92.0 92.00 100.0 105.00 17 2020844019 陈雨涵 男 市场营销 95.200000 95.0 88.00 100.0 101.00 18 2020844020 张家齐 男 市场营销 95.450000 91.0 96.00 100.0 109.00 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.00 87.0 96.00 20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00
df. iloc[ 1 : 20 , ]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 5 2020844005 辛禧 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 6 2020844007 王晨 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 7 2020844008 韩天 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 8 2020844009 刘玉 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.00 90.0 73.00 10 2020844011 娄天楠 男 市场营销 58.800000 84.6 60.00 NaN 73.00 11 2020844012 唐喆 男 市场营销 80.233333 87.4 64.00 100.0 77.00 12 2020844013 史昀 男 市场营销 82.733333 82.2 73.32 100.0 86.32 13 2020844014 刘欣语 男 市场营销 48.718333 83.8 86.00 80.0 99.00 14 2020844015 王同 男 市场营销 74.200000 92.2 92.00 100.0 115.00 15 2020844017 武天一 男 市场营销 73.216667 83.2 79.00 95.0 92.00 16 2020844018 张析 女 市场营销 82.750000 92.0 92.00 100.0 105.00 17 2020844019 陈雨涵 男 市场营销 95.200000 95.0 88.00 100.0 101.00 18 2020844020 张家齐 男 市场营销 95.450000 91.0 96.00 100.0 109.00 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.00 87.0 96.00
df. loc[ [ 1 , 2 , 3 , 6 , 7 ] , ]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 1 2020844001 郭夏 男 国际贸易 91.05 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.20 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.80 91.4 79.66 95.0 92.66 6 2020844007 王晨 男 国际贸易 62.40 80.0 65.00 90.0 78.00 7 2020844008 韩天 男 国际贸易 96.25 91.0 85.00 97.0 98.00
df. iloc[ [ 1 , 2 , 3 , 16 , 7 ] , ]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 1 2020844001 郭夏 男 国际贸易 91.05 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.20 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.80 91.4 79.66 95.0 92.66 6 2020844007 王晨 男 国际贸易 62.40 80.0 65.00 90.0 78.00 7 2020844008 韩天 男 国际贸易 96.25 91.0 85.00 97.0 98.00
df. loc[ df. 英语> 90 , ]
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 1 2020844001 郭夏 男 国际贸易 91.05 83.4 86.00 100.0 99.00 7 2020844008 韩天 男 国际贸易 96.25 91.0 85.00 97.0 98.00 17 2020844019 陈雨涵 男 市场营销 95.20 95.0 88.00 100.0 101.00 18 2020844020 张家齐 男 市场营销 95.45 91.0 96.00 100.0 109.00 33 2020848003 张淳 女 会计学 91.30 92.2 81.32 100.0 94.32 37 2020848007 苏远 女 信息管理与信息系统 90.25 89.2 79.32 68.0 92.32 38 2020848008 方雨桃 女 信息管理与信息系统 93.10 86.2 83.00 100.0 96.00 40 2020848011 张田田 女 信息管理与信息系统 91.20 89.6 96.32 77.0 109.32 44 2020848016 杨帆 男 信息管理与信息系统 98.70 87.6 95.00 NaN 108.00 53 2020848027 热孜耶·买买提 女 金融学 92.70 93.2 86.32 100.0 99.32
4、抽取行列
df[ [ "学号" , "姓名" , "专业" ] ] [ : 10 ]
学号 姓名 专业 0 2020802045 魏天 信息管理与信息系统 1 2020844001 郭夏 国际贸易 2 2020844002 王晓加 NaN 3 2020844003 黄婷婷 国际贸易 4 2020844004 赵小瑜 国际贸易 5 2020844005 辛禧 国际贸易 6 2020844007 王晨 国际贸易 7 2020844008 韩天 国际贸易 8 2020844009 刘玉 国际贸易 9 2020844010 谢亚鹏 市场营销
df[ [ "学号" , "姓名" , "专业" ] ] [ df. 数学> 90 ]
学号 姓名 专业 0 2020802045 魏天 信息管理与信息系统 3 2020844003 黄婷婷 国际贸易 7 2020844008 韩天 国际贸易 8 2020844009 刘玉 国际贸易 14 2020844015 王同 市场营销 16 2020844018 张析 市场营销 17 2020844019 陈雨涵 市场营销 18 2020844020 张家齐 市场营销 20 2020844022 关帅 会计学 28 2020844030 庞博 会计学 30 2020848002 陈小恬 会计学 31 2020848002 陈小恬 会计学 32 2020848002 陈小恬 会计学 33 2020848003 张淳 会计学 34 2020848004 王佳琳 信息管理与信息系统 42 2020848014 贾晶晶 NaN 48 2020848019 张雨桐 金融学 50 2020848021 王少祖 金融学 53 2020848027 热孜耶·买买提 金融学
df. loc[ 1 : 10 , [ "学号" , "姓名" , "专业" ] ]
学号 姓名 专业 1 2020844001 郭夏 国际贸易 2 2020844002 王晓加 NaN 3 2020844003 黄婷婷 国际贸易 4 2020844004 赵小瑜 国际贸易 5 2020844005 辛禧 国际贸易 6 2020844007 王晨 国际贸易 7 2020844008 韩天 国际贸易 8 2020844009 刘玉 国际贸易 9 2020844010 谢亚鹏 市场营销 10 2020844011 娄天楠 市场营销
df. iloc[ 1 : 10 , 2 : 5 ]
性别 专业 英语 1 男 国际贸易 91.050 2 男 NaN 54.200 3 女 国际贸易 87.800 4 NaN 国际贸易 61.150 5 男 国际贸易 65.125 6 男 国际贸易 62.400 7 男 国际贸易 96.250 8 女 国际贸易 89.050 9 男 市场营销 70.500
数据合并
df1= df[ [ "学号" , "姓名" , "专业" ] ] [ : 10 ]
df2= df[ [ "学号" , "Python" ] ] [ : 10 ]
df3= df[ [ "数学" , "选修" ] ] [ : 10 ]
df4= df. loc[ 20 : 25 , [ "学号" , "姓名" , "专业" ] ]
df1
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.0 95.0 106.0 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.0 100.0 99.0 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.0 NaN 90.0 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.0 90.0 73.0 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.0 87.0 96.0 48 2020848019 张雨桐 女 金融学 79.150000 92.4 83.0 100.0 96.0
df2
学号 Python 0 2020802045 93.00 1 2020844001 86.00 2 2020844002 74.00 3 2020844003 79.66 4 2020844004 84.66 5 2020844005 68.00 6 2020844007 65.00 7 2020844008 85.00 8 2020844009 80.32 9 2020844010 60.00
1、按列合并
df1. join( df2)
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-237-92ca22d0224c> in <module>()
----> 1 df1.join(df2)#有同名列,无法区分,报错
D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py in join(self, other, on, how, lsuffix, rsuffix, sort)
6334 # For SparseDataFrame's benefit
6335 return self._join_compat(other, on=on, how=how, lsuffix=lsuffix,
-> 6336 rsuffix=rsuffix, sort=sort)
6337
6338 def _join_compat(self, other, on=None, how='left', lsuffix='', rsuffix='',
D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py in _join_compat(self, other, on, how, lsuffix, rsuffix, sort)
6349 return merge(self, other, left_on=on, how=how,
6350 left_index=on is None, right_index=True,
-> 6351 suffixes=(lsuffix, rsuffix), sort=sort)
6352 else:
6353 if on is not None:
D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
60 copy=copy, indicator=indicator,
61 validate=validate)
---> 62 return op.get_result()
63
64
D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in get_result(self)
572
573 llabels, rlabels = items_overlap_with_suffix(ldata.items, lsuf,
--> 574 rdata.items, rsuf)
575
576 lindexers = {1: left_indexer} if left_indexer is not None else {}
D:\anacoda\anzhuang\lib\site-packages\pandas\core\internals.py in items_overlap_with_suffix(left, lsuffix, right, rsuffix)
5242 if not lsuffix and not rsuffix:
5243 raise ValueError('columns overlap but no suffix specified: '
-> 5244 '{rename}'.format(rename=to_rename))
5245
5246 def lrenamer(x):
ValueError: columns overlap but no suffix specified: Index(['学号', 'Python'], dtype='object')
df1. join( df3)
学号 姓名 专业 数学 选修 0 2020802045 魏天 信息管理与信息系统 90.8 95.0 1 2020844001 郭夏 国际贸易 83.4 100.0 2 2020844002 王晓加 NaN 83.4 NaN 3 2020844003 黄婷婷 国际贸易 91.4 95.0 4 2020844004 赵小瑜 国际贸易 82.2 100.0 5 2020844005 辛禧 国际贸易 88.6 80.0 6 2020844007 王晨 国际贸易 80.0 90.0 7 2020844008 韩天 国际贸易 91.0 97.0 8 2020844009 刘玉 国际贸易 91.4 100.0 9 2020844010 谢亚鹏 市场营销 85.2 90.0
df1. join( df2, lsuffix= "x" )
学号x 姓名 专业 学号 Python 0 2020802045 魏天 信息管理与信息系统 2020802045 93.00 1 2020844001 郭夏 国际贸易 2020844001 86.00 2 2020844002 王晓加 NaN 2020844002 74.00 3 2020844003 黄婷婷 国际贸易 2020844003 79.66 4 2020844004 赵小瑜 国际贸易 2020844004 84.66 5 2020844005 辛禧 国际贸易 2020844005 68.00 6 2020844007 王晨 国际贸易 2020844007 65.00 7 2020844008 韩天 国际贸易 2020844008 85.00 8 2020844009 刘玉 国际贸易 2020844009 80.32 9 2020844010 谢亚鹏 市场营销 2020844010 60.00
df1. merge( df3)
---------------------------------------------------------------------------
MergeError Traceback (most recent call last)
<ipython-input-242-036768b080a3> in <module>()
----> 1 df1.merge(df3)#必须有同名列
D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py in merge(self, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
6387 right_on=right_on, left_index=left_index,
6388 right_index=right_index, sort=sort, suffixes=suffixes,
-> 6389 copy=copy, indicator=indicator, validate=validate)
6390
6391 def round(self, decimals=0, *args, **kwargs):
D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
59 right_index=right_index, sort=sort, suffixes=suffixes,
60 copy=copy, indicator=indicator,
---> 61 validate=validate)
62 return op.get_result()
63
D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in __init__(self, left, right, how, on, left_on, right_on, axis, left_index, right_index, sort, suffixes, copy, indicator, validate)
544 warnings.warn(msg, UserWarning)
545
--> 546 self._validate_specification()
547
548 # note this function has side effects
D:\anacoda\anzhuang\lib\site-packages\pandas\core\reshape\merge.py in _validate_specification(self)
1033 'left_index={lidx}, right_index={ridx}'
1034 .format(lon=self.left_on, ron=self.right_on,
-> 1035 lidx=self.left_index, ridx=self.right_index))
1036 if not common_cols.is_unique:
1037 raise MergeError("Data columns not unique: {common!r}"
MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False
df1. merge( df2)
学号 姓名 专业 Python 0 2020802045 魏天 信息管理与信息系统 93.00 1 2020844001 郭夏 国际贸易 86.00 2 2020844002 王晓加 NaN 74.00 3 2020844003 黄婷婷 国际贸易 79.66 4 2020844004 赵小瑜 国际贸易 84.66 5 2020844005 辛禧 国际贸易 68.00 6 2020844007 王晨 国际贸易 65.00 7 2020844008 韩天 国际贸易 85.00 8 2020844009 刘玉 国际贸易 80.32 9 2020844010 谢亚鹏 市场营销 60.00
ddf= pd. merge( df1, df2)
ddf
学号 姓名 专业 Python 0 2020802045 魏天 信息管理与信息系统 93.00 1 2020844001 郭夏 国际贸易 86.00 2 2020844002 王晓加 NaN 74.00 3 2020844003 黄婷婷 国际贸易 79.66 4 2020844004 赵小瑜 国际贸易 84.66 5 2020844005 辛禧 国际贸易 68.00 6 2020844007 王晨 国际贸易 65.00 7 2020844008 韩天 国际贸易 85.00 8 2020844009 刘玉 国际贸易 80.32 9 2020844010 谢亚鹏 市场营销 60.00
ddf= pd. concat( [ df1, df2] , axis= 1 )
ddf
学号 姓名 专业 学号 Python 0 2020802045 魏天 信息管理与信息系统 2020802045 93.00 1 2020844001 郭夏 国际贸易 2020844001 86.00 2 2020844002 王晓加 NaN 2020844002 74.00 3 2020844003 黄婷婷 国际贸易 2020844003 79.66 4 2020844004 赵小瑜 国际贸易 2020844004 84.66 5 2020844005 辛禧 国际贸易 2020844005 68.00 6 2020844007 王晨 国际贸易 2020844007 65.00 7 2020844008 韩天 国际贸易 2020844008 85.00 8 2020844009 刘玉 国际贸易 2020844009 80.32 9 2020844010 谢亚鹏 市场营销 2020844010 60.00
2、按行合并
df1. append( df4)
学号 姓名 专业 0 2020802045 魏天 信息管理与信息系统 1 2020844001 郭夏 国际贸易 2 2020844002 王晓加 NaN 3 2020844003 黄婷婷 国际贸易 4 2020844004 赵小瑜 国际贸易 5 2020844005 辛禧 国际贸易 6 2020844007 王晨 国际贸易 7 2020844008 韩天 国际贸易 8 2020844009 刘玉 国际贸易 9 2020844010 谢亚鹏 市场营销 20 2020844022 关帅 会计学 21 2020844023 刘嘉雯 会计学 22 2020844024 刘浩天 会计学 23 2020844025 刘宇 NaN 24 2020844026 胡童 会计学 25 2020844027 丁灿 会计学
df1. append( df3)
D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py:6211: FutureWarning: Sorting because non-concatenation axis is not aligned. A future version
of pandas will change to not sort by default.
To accept the future behavior, pass 'sort=False'.
To retain the current behavior and silence the warning, pass 'sort=True'.
sort=sort)
专业 姓名 学号 数学 选修 0 信息管理与信息系统 魏天 2.020802e+09 NaN NaN 1 国际贸易 郭夏 2.020844e+09 NaN NaN 2 NaN 王晓加 2.020844e+09 NaN NaN 3 国际贸易 黄婷婷 2.020844e+09 NaN NaN 4 国际贸易 赵小瑜 2.020844e+09 NaN NaN 5 国际贸易 辛禧 2.020844e+09 NaN NaN 6 国际贸易 王晨 2.020844e+09 NaN NaN 7 国际贸易 韩天 2.020844e+09 NaN NaN 8 国际贸易 刘玉 2.020844e+09 NaN NaN 9 市场营销 谢亚鹏 2.020844e+09 NaN NaN 0 NaN NaN NaN 90.8 95.0 1 NaN NaN NaN 83.4 100.0 2 NaN NaN NaN 83.4 NaN 3 NaN NaN NaN 91.4 95.0 4 NaN NaN NaN 82.2 100.0 5 NaN NaN NaN 88.6 80.0 6 NaN NaN NaN 80.0 90.0 7 NaN NaN NaN 91.0 97.0 8 NaN NaN NaN 91.4 100.0 9 NaN NaN NaN 85.2 90.0
pd. concat( [ df1, df2, df3] , axis= 0 , join= "outer" )
D:\anacoda\anzhuang\lib\site-packages\ipykernel_launcher.py:1: FutureWarning: Sorting because non-concatenation axis is not aligned. A future version
of pandas will change to not sort by default.
To accept the future behavior, pass 'sort=False'.
To retain the current behavior and silence the warning, pass 'sort=True'.
"""Entry point for launching an IPython kernel.
Python 专业 姓名 学号 数学 选修 0 NaN 信息管理与信息系统 魏天 2.020802e+09 NaN NaN 1 NaN 国际贸易 郭夏 2.020844e+09 NaN NaN 2 NaN NaN 王晓加 2.020844e+09 NaN NaN 3 NaN 国际贸易 黄婷婷 2.020844e+09 NaN NaN 4 NaN 国际贸易 赵小瑜 2.020844e+09 NaN NaN 5 NaN 国际贸易 辛禧 2.020844e+09 NaN NaN 6 NaN 国际贸易 王晨 2.020844e+09 NaN NaN 7 NaN 国际贸易 韩天 2.020844e+09 NaN NaN 8 NaN 国际贸易 刘玉 2.020844e+09 NaN NaN 9 NaN 市场营销 谢亚鹏 2.020844e+09 NaN NaN 0 93.00 NaN NaN 2.020802e+09 NaN NaN 1 86.00 NaN NaN 2.020844e+09 NaN NaN 2 74.00 NaN NaN 2.020844e+09 NaN NaN 3 79.66 NaN NaN 2.020844e+09 NaN NaN 4 84.66 NaN NaN 2.020844e+09 NaN NaN 5 68.00 NaN NaN 2.020844e+09 NaN NaN 6 65.00 NaN NaN 2.020844e+09 NaN NaN 7 85.00 NaN NaN 2.020844e+09 NaN NaN 8 80.32 NaN NaN 2.020844e+09 NaN NaN 9 60.00 NaN NaN 2.020844e+09 NaN NaN 0 NaN NaN NaN NaN 90.8 95.0 1 NaN NaN NaN NaN 83.4 100.0 2 NaN NaN NaN NaN 83.4 NaN 3 NaN NaN NaN NaN 91.4 95.0 4 NaN NaN NaN NaN 82.2 100.0 5 NaN NaN NaN NaN 88.6 80.0 6 NaN NaN NaN NaN 80.0 90.0 7 NaN NaN NaN NaN 91.0 97.0 8 NaN NaN NaN NaN 91.4 100.0 9 NaN NaN NaN NaN 85.2 90.0
4.3.4数据的增删改
import pandas as pd
pd. set_option( "display.unicode.east_asian_width" , True )
df= pd. read_excel( "C:\\Users\\wsy\\Desktop\\cj.xlsx" )
df
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.00 NaN 90.00 3 2020844003 黄婷婷 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 5 2020844005 辛禧 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 6 2020844007 王晨 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 7 2020844008 韩天 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 8 2020844009 刘玉 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.00 90.0 73.00 10 2020844011 娄天楠 男 市场营销 58.800000 84.6 60.00 NaN 73.00 11 2020844012 唐喆 男 市场营销 80.233333 87.4 64.00 100.0 77.00 12 2020844013 史昀 男 市场营销 82.733333 82.2 73.32 100.0 86.32 13 2020844014 刘欣语 男 市场营销 48.718333 83.8 86.00 80.0 99.00 14 2020844015 王同 男 市场营销 74.200000 92.2 92.00 100.0 115.00 15 2020844017 武天一 男 市场营销 73.216667 83.2 79.00 95.0 92.00 16 2020844018 张析 女 市场营销 82.750000 92.0 92.00 100.0 105.00 17 2020844019 陈雨涵 男 市场营销 95.200000 95.0 88.00 100.0 101.00 18 2020844020 张家齐 男 市场营销 95.450000 91.0 96.00 100.0 109.00 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.00 87.0 96.00 20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 21 2020844023 刘嘉雯 男 会计学 89.575000 86.0 90.00 100.0 103.00 22 2020844024 刘浩天 男 会计学 85.100000 83.2 85.00 100.0 98.00 23 2020844025 刘宇 男 NaN 75.200000 85.6 76.00 100.0 89.00 24 2020844026 胡童 男 会计学 84.050000 86.0 91.00 100.0 119.00 25 2020844027 丁灿 男 会计学 88.750000 86.2 66.00 100.0 79.00 26 2020844028 郑武田 男 会计学 89.550000 87.4 91.00 NaN 104.00 27 2020844029 金耀 男 会计学 79.450000 87.2 68.00 100.0 81.00 28 2020844030 庞博 男 会计学 89.700000 92.0 92.00 100.0 105.00 29 2020848001 王春杨 女 会计学 88.100000 89.8 84.00 100.0 97.00 30 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 31 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 32 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 33 2020848003 张淳 女 会计学 91.300000 92.2 81.32 100.0 94.32 34 2020848004 王佳琳 男 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 35 2020848005 郑彤 女 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 36 2020848006 张鹤同 男 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 37 2020848007 苏远 女 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 38 2020848008 方雨桃 女 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 39 2020848010 闫宇 男 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 40 2020848011 张田田 女 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 41 2020848013 曹一一 男 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 42 2020848014 贾晶晶 女 NaN 84.450000 93.0 82.66 100.0 95.66 43 2020848015 贾淏文 男 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 44 2020848016 杨帆 男 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 46 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 47 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 48 2020848019 张雨桐 女 金融学 79.150000 92.4 83.00 100.0 96.00 49 2020848020 孟德坤 女 金融学 83.450000 87.4 80.66 100.0 93.66 50 2020848021 王少祖 女 金融学 82.950000 91.6 78.00 90.0 91.00 51 2020848023 黄金雨 女 金融学 79.950000 89.8 86.00 100.0 99.00 52 2020848024 汤佳怡 女 金融学 86.600000 83.4 88.32 100.0 101.32 53 2020848027 热孜耶·买买提 女 金融学 92.700000 93.2 86.32 100.0 99.32 54 2020848028 奴热艾力·雪艾力 女 金融学 15.000000 75.0 63.32 100.0 76.32 55 2020848029 林可新 女 金融学 89.300000 87.4 95.00 100.0 108.00 56 2020848031 任旭 女 金融学 83.425000 85.4 71.66 100.0 84.66
数据增加
df[ "团员否" ] = True
df
学号 姓名 性别 专业 英语 数学 Python 选修 管理学 团员否 0 2020802045 魏天 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 True 1 2020844001 郭夏 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 True 2 2020844002 王晓加 男 NaN 54.200000 83.4 74.00 NaN 90.00 True 3 2020844003 黄婷婷 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 True 4 2020844004 赵小瑜 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 True 5 2020844005 辛禧 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 True 6 2020844007 王晨 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 True 7 2020844008 韩天 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 True 8 2020844009 刘玉 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 True 9 2020844010 谢亚鹏 男 市场营销 70.500000 85.2 60.00 90.0 73.00 True 10 2020844011 娄天楠 男 市场营销 58.800000 84.6 60.00 NaN 73.00 True 11 2020844012 唐喆 男 市场营销 80.233333 87.4 64.00 100.0 77.00 True 12 2020844013 史昀 男 市场营销 82.733333 82.2 73.32 100.0 86.32 True 13 2020844014 刘欣语 男 市场营销 48.718333 83.8 86.00 80.0 99.00 True 14 2020844015 王同 男 市场营销 74.200000 92.2 92.00 100.0 115.00 True 15 2020844017 武天一 男 市场营销 73.216667 83.2 79.00 95.0 92.00 True 16 2020844018 张析 女 市场营销 82.750000 92.0 92.00 100.0 105.00 True 17 2020844019 陈雨涵 男 市场营销 95.200000 95.0 88.00 100.0 101.00 True 18 2020844020 张家齐 男 市场营销 95.450000 91.0 96.00 100.0 109.00 True 19 2020844021 李赫桐 男 会计学 88.276667 86.8 83.00 87.0 96.00 True 20 2020844022 关帅 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 True 21 2020844023 刘嘉雯 男 会计学 89.575000 86.0 90.00 100.0 103.00 True 22 2020844024 刘浩天 男 会计学 85.100000 83.2 85.00 100.0 98.00 True 23 2020844025 刘宇 男 NaN 75.200000 85.6 76.00 100.0 89.00 True 24 2020844026 胡童 男 会计学 84.050000 86.0 91.00 100.0 119.00 True 25 2020844027 丁灿 男 会计学 88.750000 86.2 66.00 100.0 79.00 True 26 2020844028 郑武田 男 会计学 89.550000 87.4 91.00 NaN 104.00 True 27 2020844029 金耀 男 会计学 79.450000 87.2 68.00 100.0 81.00 True 28 2020844030 庞博 男 会计学 89.700000 92.0 92.00 100.0 105.00 True 29 2020848001 王春杨 女 会计学 88.100000 89.8 84.00 100.0 97.00 True 30 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 True 31 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 True 32 2020848002 陈小恬 女 会计学 83.750000 94.8 89.00 100.0 102.00 True 33 2020848003 张淳 女 会计学 91.300000 92.2 81.32 100.0 94.32 True 34 2020848004 王佳琳 男 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 True 35 2020848005 郑彤 女 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 True 36 2020848006 张鹤同 男 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 True 37 2020848007 苏远 女 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 True 38 2020848008 方雨桃 女 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 True 39 2020848010 闫宇 男 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 True 40 2020848011 张田田 女 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 True 41 2020848013 曹一一 男 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 True 42 2020848014 贾晶晶 女 NaN 84.450000 93.0 82.66 100.0 95.66 True 43 2020848015 贾淏文 男 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 True 44 2020848016 杨帆 男 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 True 45 2020848017 赵迎辰 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 True 46 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True 47 2020848018 郭晓舒 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True 48 2020848019 张雨桐 女 金融学 79.150000 92.4 83.00 100.0 96.00 True 49 2020848020 孟德坤 女 金融学 83.450000 87.4 80.66 100.0 93.66 True 50 2020848021 王少祖 女 金融学 82.950000 91.6 78.00 90.0 91.00 True 51 2020848023 黄金雨 女 金融学 79.950000 89.8 86.00 100.0 99.00 True 52 2020848024 汤佳怡 女 金融学 86.600000 83.4 88.32 100.0 101.32 True 53 2020848027 热孜耶·买买提 女 金融学 92.700000 93.2 86.32 100.0 99.32 True 54 2020848028 奴热艾力·雪艾力 女 金融学 15.000000 75.0 63.32 100.0 76.32 True 55 2020848029 林可新 女 金融学 89.300000 87.4 95.00 100.0 108.00 True 56 2020848031 任旭 女 金融学 83.425000 85.4 71.66 100.0 84.66 True
df. insert( 2 , "年龄" , 18 )
df
学号 姓名 年龄 性别 专业 英语 数学 Python 选修 管理学 团员否 0 2020802045 魏天 18 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 True 1 2020844001 郭夏 18 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 True 2 2020844002 王晓加 18 男 NaN 54.200000 83.4 74.00 NaN 90.00 True 3 2020844003 黄婷婷 18 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 True 4 2020844004 赵小瑜 18 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 True 5 2020844005 辛禧 18 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 True 6 2020844007 王晨 18 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 True 7 2020844008 韩天 18 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 True 8 2020844009 刘玉 18 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 True 9 2020844010 谢亚鹏 18 男 市场营销 70.500000 85.2 60.00 90.0 73.00 True 10 2020844011 娄天楠 18 男 市场营销 58.800000 84.6 60.00 NaN 73.00 True 11 2020844012 唐喆 18 男 市场营销 80.233333 87.4 64.00 100.0 77.00 True 12 2020844013 史昀 18 男 市场营销 82.733333 82.2 73.32 100.0 86.32 True 13 2020844014 刘欣语 18 男 市场营销 48.718333 83.8 86.00 80.0 99.00 True 14 2020844015 王同 18 男 市场营销 74.200000 92.2 92.00 100.0 115.00 True 15 2020844017 武天一 18 男 市场营销 73.216667 83.2 79.00 95.0 92.00 True 16 2020844018 张析 18 女 市场营销 82.750000 92.0 92.00 100.0 105.00 True 17 2020844019 陈雨涵 18 男 市场营销 95.200000 95.0 88.00 100.0 101.00 True 18 2020844020 张家齐 18 男 市场营销 95.450000 91.0 96.00 100.0 109.00 True 19 2020844021 李赫桐 18 男 会计学 88.276667 86.8 83.00 87.0 96.00 True 20 2020844022 关帅 18 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 True 21 2020844023 刘嘉雯 18 男 会计学 89.575000 86.0 90.00 100.0 103.00 True 22 2020844024 刘浩天 18 男 会计学 85.100000 83.2 85.00 100.0 98.00 True 23 2020844025 刘宇 18 男 NaN 75.200000 85.6 76.00 100.0 89.00 True 24 2020844026 胡童 18 男 会计学 84.050000 86.0 91.00 100.0 119.00 True 25 2020844027 丁灿 18 男 会计学 88.750000 86.2 66.00 100.0 79.00 True 26 2020844028 郑武田 18 男 会计学 89.550000 87.4 91.00 NaN 104.00 True 27 2020844029 金耀 18 男 会计学 79.450000 87.2 68.00 100.0 81.00 True 28 2020844030 庞博 18 男 会计学 89.700000 92.0 92.00 100.0 105.00 True 29 2020848001 王春杨 18 女 会计学 88.100000 89.8 84.00 100.0 97.00 True 30 2020848002 陈小恬 18 女 会计学 83.750000 94.8 89.00 100.0 102.00 True 31 2020848002 陈小恬 18 女 会计学 83.750000 94.8 89.00 100.0 102.00 True 32 2020848002 陈小恬 18 女 会计学 83.750000 94.8 89.00 100.0 102.00 True 33 2020848003 张淳 18 女 会计学 91.300000 92.2 81.32 100.0 94.32 True 34 2020848004 王佳琳 18 男 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 True 35 2020848005 郑彤 18 女 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 True 36 2020848006 张鹤同 18 男 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 True 37 2020848007 苏远 18 女 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 True 38 2020848008 方雨桃 18 女 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 True 39 2020848010 闫宇 18 男 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 True 40 2020848011 张田田 18 女 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 True 41 2020848013 曹一一 18 男 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 True 42 2020848014 贾晶晶 18 女 NaN 84.450000 93.0 82.66 100.0 95.66 True 43 2020848015 贾淏文 18 男 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 True 44 2020848016 杨帆 18 男 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 True 45 2020848017 赵迎辰 18 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 True 46 2020848018 郭晓舒 18 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True 47 2020848018 郭晓舒 18 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True 48 2020848019 张雨桐 18 女 金融学 79.150000 92.4 83.00 100.0 96.00 True 49 2020848020 孟德坤 18 女 金融学 83.450000 87.4 80.66 100.0 93.66 True 50 2020848021 王少祖 18 女 金融学 82.950000 91.6 78.00 90.0 91.00 True 51 2020848023 黄金雨 18 女 金融学 79.950000 89.8 86.00 100.0 99.00 True 52 2020848024 汤佳怡 18 女 金融学 86.600000 83.4 88.32 100.0 101.32 True 53 2020848027 热孜耶·买买提 18 女 金融学 92.700000 93.2 86.32 100.0 99.32 True 54 2020848028 奴热艾力·雪艾力 18 女 金融学 15.000000 75.0 63.32 100.0 76.32 True 55 2020848029 林可新 18 女 金融学 89.300000 87.4 95.00 100.0 108.00 True 56 2020848031 任旭 18 女 金融学 83.425000 85.4 71.66 100.0 84.66 True
df. loc[ 57 ] = [ "20200848045" , "王芳" , 10 , "女" , "金融学" , 55 , 66 , 77 , 90 , 67 , True ]
df
学号 姓名 年龄 性别 专业 英语 数学 Python 选修 管理学 团员否 0 2020802045 魏天 18 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 True 1 2020844001 郭夏 18 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 True 2 2020844002 王晓加 18 男 NaN 54.200000 83.4 74.00 NaN 90.00 True 3 2020844003 黄婷婷 18 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 True 4 2020844004 赵小瑜 18 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 True 5 2020844005 辛禧 18 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 True 6 2020844007 王晨 18 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 True 7 2020844008 韩天 18 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 True 8 2020844009 刘玉 18 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 True 9 2020844010 谢亚鹏 18 男 市场营销 70.500000 85.2 60.00 90.0 73.00 True 10 2020844011 娄天楠 18 男 市场营销 58.800000 84.6 60.00 NaN 73.00 True 11 2020844012 唐喆 18 男 市场营销 80.233333 87.4 64.00 100.0 77.00 True 12 2020844013 史昀 18 男 市场营销 82.733333 82.2 73.32 100.0 86.32 True 13 2020844014 刘欣语 18 男 市场营销 48.718333 83.8 86.00 80.0 99.00 True 14 2020844015 王同 18 男 市场营销 74.200000 92.2 92.00 100.0 115.00 True 15 2020844017 武天一 18 男 市场营销 73.216667 83.2 79.00 95.0 92.00 True 16 2020844018 张析 18 女 市场营销 82.750000 92.0 92.00 100.0 105.00 True 17 2020844019 陈雨涵 18 男 市场营销 95.200000 95.0 88.00 100.0 101.00 True 18 2020844020 张家齐 18 男 市场营销 95.450000 91.0 96.00 100.0 109.00 True 19 2020844021 李赫桐 18 男 会计学 88.276667 86.8 83.00 87.0 96.00 True 20 2020844022 关帅 18 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 True 21 2020844023 刘嘉雯 18 男 会计学 89.575000 86.0 90.00 100.0 103.00 True 22 2020844024 刘浩天 18 男 会计学 85.100000 83.2 85.00 100.0 98.00 True 23 2020844025 刘宇 18 男 NaN 75.200000 85.6 76.00 100.0 89.00 True 24 2020844026 胡童 18 男 会计学 84.050000 86.0 91.00 100.0 119.00 True 25 2020844027 丁灿 18 男 会计学 88.750000 86.2 66.00 100.0 79.00 True 26 2020844028 郑武田 18 男 会计学 89.550000 87.4 91.00 NaN 104.00 True 27 2020844029 金耀 18 男 会计学 79.450000 87.2 68.00 100.0 81.00 True 28 2020844030 庞博 18 男 会计学 89.700000 92.0 92.00 100.0 105.00 True 29 2020848001 王春杨 18 女 会计学 88.100000 89.8 84.00 100.0 97.00 True 30 2020848002 陈小恬 18 女 会计学 83.750000 94.8 89.00 100.0 102.00 True 31 2020848002 陈小恬 18 女 会计学 83.750000 94.8 89.00 100.0 102.00 True 32 2020848002 陈小恬 18 女 会计学 83.750000 94.8 89.00 100.0 102.00 True 33 2020848003 张淳 18 女 会计学 91.300000 92.2 81.32 100.0 94.32 True 34 2020848004 王佳琳 18 男 信息管理与信息系统 75.625000 91.0 93.00 100.0 106.00 True 35 2020848005 郑彤 18 女 信息管理与信息系统 88.900000 90.0 78.00 100.0 91.00 True 36 2020848006 张鹤同 18 男 信息管理与信息系统 89.750000 88.8 82.50 100.0 95.50 True 37 2020848007 苏远 18 女 信息管理与信息系统 90.250000 89.2 79.32 68.0 92.32 True 38 2020848008 方雨桃 18 女 信息管理与信息系统 93.100000 86.2 83.00 100.0 96.00 True 39 2020848010 闫宇 18 男 信息管理与信息系统 86.033333 85.4 85.00 100.0 98.00 True 40 2020848011 张田田 18 女 信息管理与信息系统 91.200000 89.6 96.32 77.0 109.32 True 41 2020848013 曹一一 18 男 信息管理与信息系统 74.426667 86.8 83.32 100.0 96.32 True 42 2020848014 贾晶晶 18 女 NaN 84.450000 93.0 82.66 100.0 95.66 True 43 2020848015 贾淏文 18 男 信息管理与信息系统 46.675000 80.8 87.00 100.0 100.00 True 44 2020848016 杨帆 18 男 信息管理与信息系统 98.700000 87.6 95.00 NaN 108.00 True 45 2020848017 赵迎辰 18 NaN 信息管理与信息系统 82.250000 87.4 74.00 100.0 87.00 True 46 2020848018 郭晓舒 18 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True 47 2020848018 郭晓舒 18 男 信息管理与信息系统 82.500000 83.8 73.00 90.0 86.00 True 48 2020848019 张雨桐 18 女 金融学 79.150000 92.4 83.00 100.0 96.00 True 49 2020848020 孟德坤 18 女 金融学 83.450000 87.4 80.66 100.0 93.66 True 50 2020848021 王少祖 18 女 金融学 82.950000 91.6 78.00 90.0 91.00 True 51 2020848023 黄金雨 18 女 金融学 79.950000 89.8 86.00 100.0 99.00 True 52 2020848024 汤佳怡 18 女 金融学 86.600000 83.4 88.32 100.0 101.32 True 53 2020848027 热孜耶·买买提 18 女 金融学 92.700000 93.2 86.32 100.0 99.32 True 54 2020848028 奴热艾力·雪艾力 18 女 金融学 15.000000 75.0 63.32 100.0 76.32 True 55 2020848029 林可新 18 女 金融学 89.300000 87.4 95.00 100.0 108.00 True 56 2020848031 任旭 18 女 金融学 83.425000 85.4 71.66 100.0 84.66 True 57 20200848045 王芳 10 女 金融学 55.000000 66.0 77.00 90.0 67.00 True
df1= df[ [ "学号" , "姓名" , "专业" ] ] [ : 10 ]
df. append( df1. iloc[ : 10 , ] )
D:\anacoda\anzhuang\lib\site-packages\pandas\core\frame.py:6211: FutureWarning: Sorting because non-concatenation axis is not aligned. A future version
of pandas will change to not sort by default.
To accept the future behavior, pass 'sort=False'.
To retain the current behavior and silence the warning, pass 'sort=True'.
sort=sort)
Python 专业 团员否 姓名 学号 年龄 性别 数学 管理学 英语 选修 0 93.00 信息管理与信息系统 True 魏天 2020802045 18.0 男 90.8 106.00 67.116667 95.0 1 86.00 国际贸易 True 郭夏 2020844001 18.0 男 83.4 99.00 91.050000 100.0 2 74.00 NaN True 王晓加 2020844002 18.0 男 83.4 90.00 54.200000 NaN 3 79.66 国际贸易 True 黄婷婷 2020844003 18.0 女 91.4 92.66 87.800000 95.0 4 84.66 国际贸易 True 赵小瑜 2020844004 18.0 NaN 82.2 97.66 61.150000 100.0 5 68.00 国际贸易 True 辛禧 2020844005 18.0 男 88.6 81.00 65.125000 80.0 6 65.00 国际贸易 True 王晨 2020844007 18.0 男 80.0 78.00 62.400000 90.0 7 85.00 国际贸易 True 韩天 2020844008 18.0 男 91.0 98.00 96.250000 97.0 8 80.32 国际贸易 True 刘玉 2020844009 18.0 女 91.4 93.32 89.050000 100.0 9 60.00 市场营销 True 谢亚鹏 2020844010 18.0 男 85.2 73.00 70.500000 90.0 10 60.00 市场营销 True 娄天楠 2020844011 18.0 男 84.6 73.00 58.800000 NaN 11 64.00 市场营销 True 唐喆 2020844012 18.0 男 87.4 77.00 80.233333 100.0 12 73.32 市场营销 True 史昀 2020844013 18.0 男 82.2 86.32 82.733333 100.0 13 86.00 市场营销 True 刘欣语 2020844014 18.0 男 83.8 99.00 48.718333 80.0 14 92.00 市场营销 True 王同 2020844015 18.0 男 92.2 115.00 74.200000 100.0 15 79.00 市场营销 True 武天一 2020844017 18.0 男 83.2 92.00 73.216667 95.0 16 92.00 市场营销 True 张析 2020844018 18.0 女 92.0 105.00 82.750000 100.0 17 88.00 市场营销 True 陈雨涵 2020844019 18.0 男 95.0 101.00 95.200000 100.0 18 96.00 市场营销 True 张家齐 2020844020 18.0 男 91.0 109.00 95.450000 100.0 19 83.00 会计学 True 李赫桐 2020844021 18.0 男 86.8 96.00 88.276667 87.0 20 75.00 会计学 True 关帅 2020844022 18.0 NaN 92.6 88.00 90.000000 100.0 21 90.00 会计学 True 刘嘉雯 2020844023 18.0 男 86.0 103.00 89.575000 100.0 22 85.00 会计学 True 刘浩天 2020844024 18.0 男 83.2 98.00 85.100000 100.0 23 76.00 NaN True 刘宇 2020844025 18.0 男 85.6 89.00 75.200000 100.0 24 91.00 会计学 True 胡童 2020844026 18.0 男 86.0 119.00 84.050000 100.0 25 66.00 会计学 True 丁灿 2020844027 18.0 男 86.2 79.00 88.750000 100.0 26 91.00 会计学 True 郑武田 2020844028 18.0 男 87.4 104.00 89.550000 NaN 27 68.00 会计学 True 金耀 2020844029 18.0 男 87.2 81.00 79.450000 100.0 28 92.00 会计学 True 庞博 2020844030 18.0 男 92.0 105.00 89.700000 100.0 29 84.00 会计学 True 王春杨 2020848001 18.0 女 89.8 97.00 88.100000 100.0 ... ... ... ... ... ... ... ... ... ... ... ... 38 83.00 信息管理与信息系统 True 方雨桃 2020848008 18.0 女 86.2 96.00 93.100000 100.0 39 85.00 信息管理与信息系统 True 闫宇 2020848010 18.0 男 85.4 98.00 86.033333 100.0 40 96.32 信息管理与信息系统 True 张田田 2020848011 18.0 女 89.6 109.32 91.200000 77.0 41 83.32 信息管理与信息系统 True 曹一一 2020848013 18.0 男 86.8 96.32 74.426667 100.0 42 82.66 NaN True 贾晶晶 2020848014 18.0 女 93.0 95.66 84.450000 100.0 43 87.00 信息管理与信息系统 True 贾淏文 2020848015 18.0 男 80.8 100.00 46.675000 100.0 44 95.00 信息管理与信息系统 True 杨帆 2020848016 18.0 男 87.6 108.00 98.700000 NaN 45 74.00 信息管理与信息系统 True 赵迎辰 2020848017 18.0 NaN 87.4 87.00 82.250000 100.0 46 73.00 信息管理与信息系统 True 郭晓舒 2020848018 18.0 男 83.8 86.00 82.500000 90.0 47 73.00 信息管理与信息系统 True 郭晓舒 2020848018 18.0 男 83.8 86.00 82.500000 90.0 48 83.00 金融学 True 张雨桐 2020848019 18.0 女 92.4 96.00 79.150000 100.0 49 80.66 金融学 True 孟德坤 2020848020 18.0 女 87.4 93.66 83.450000 100.0 50 78.00 金融学 True 王少祖 2020848021 18.0 女 91.6 91.00 82.950000 90.0 51 86.00 金融学 True 黄金雨 2020848023 18.0 女 89.8 99.00 79.950000 100.0 52 88.32 金融学 True 汤佳怡 2020848024 18.0 女 83.4 101.32 86.600000 100.0 53 86.32 金融学 True 热孜耶·买买提 2020848027 18.0 女 93.2 99.32 92.700000 100.0 54 63.32 金融学 True 奴热艾力·雪艾力 2020848028 18.0 女 75.0 76.32 15.000000 100.0 55 95.00 金融学 True 林可新 2020848029 18.0 女 87.4 108.00 89.300000 100.0 56 71.66 金融学 True 任旭 2020848031 18.0 女 85.4 84.66 83.425000 100.0 57 77.00 金融学 True 王芳 20200848045 10.0 女 66.0 67.00 55.000000 90.0 0 NaN 信息管理与信息系统 NaN 魏天 2020802045 NaN NaN NaN NaN NaN NaN 1 NaN 国际贸易 NaN 郭夏 2020844001 NaN NaN NaN NaN NaN NaN 2 NaN NaN NaN 王晓加 2020844002 NaN NaN NaN NaN NaN NaN 3 NaN 国际贸易 NaN 黄婷婷 2020844003 NaN NaN NaN NaN NaN NaN 4 NaN 国际贸易 NaN 赵小瑜 2020844004 NaN NaN NaN NaN NaN NaN 5 NaN 国际贸易 NaN 辛禧 2020844005 NaN NaN NaN NaN NaN NaN 6 NaN 国际贸易 NaN 王晨 2020844007 NaN NaN NaN NaN NaN NaN 7 NaN 国际贸易 NaN 韩天 2020844008 NaN NaN NaN NaN NaN NaN 8 NaN 国际贸易 NaN 刘玉 2020844009 NaN NaN NaN NaN NaN NaN 9 NaN 市场营销 NaN 谢亚鹏 2020844010 NaN NaN NaN NaN NaN NaN
68 rows × 11 columns
数据修改
df[ "年龄" ] = 25
df
学号 姓名 年龄 性别 专业 英语 数学 Python 选修 管理学 团员否 0 2020802045 魏天 25 男 信息管理与信息系统 67.116667 90.8 93.00 95.0 106.00 True 1 2020844001 郭夏 25 男 国际贸易 91.050000 83.4 86.00 100.0 99.00 True 2 2020844002 王晓加 25 男 NaN 54.200000 83.4 74.00 NaN 90.00 True 3 2020844003 黄婷婷 25 女 国际贸易 87.800000 91.4 79.66 95.0 92.66 True 4 2020844004 赵小瑜 25 NaN 国际贸易 61.150000 82.2 84.66 100.0 97.66 True 5 2020844005 辛禧 25 男 国际贸易 65.125000 88.6 68.00 80.0 81.00 True 6 2020844007 王晨 25 男 国际贸易 62.400000 80.0 65.00 90.0 78.00 True 7 2020844008 韩天 25 男 国际贸易 96.250000 91.0 85.00 97.0 98.00 True 8 2020844009 刘玉 25 女 国际贸易 89.050000 91.4 80.32 100.0 93.32 True 9 2020844010 谢亚鹏 25 男 市场营销 70.500000 85.2 60.00 90.0 73.00 True 10 2020844011 娄天楠 25 男 市场营销 58.800000 84.6 60.00 NaN 73.00 True 11 2020844012 唐喆 25 男 市场营销 80.233333 87.4 64.00 100.0 77.00 True 12 2020844013 史昀 25 男 市场营销 82.733333 82.2 73.32 100.0 86.32 True 13 2020844014 刘欣语 25 男 市场营销 48.718333 83.8 86.00 80.0 99.00 True 14 2020844015 王同 25 男 市场营销 74.200000 92.2 92.00 100.0 115.00 True 15 2020844017 武天一 25 男 市场营销 73.216667 83.2 79.00 95.0 92.00 True 16 2020844018 张析 25 女 市场营销 82.750000 92.0 92.00 100.0 105.00 True 17 2020844019 陈雨涵 25 男 市场营销 95.200000 95.0 88.00 100.0 101.00 True 18 2020844020 张家齐 25 男 市场营销 95.450000 91.0 96.00 100.0 109.00 True 19 2020844021 李赫桐 25 男 会计学 88.276667 86.8 83.00 87.0 96.00 True 20 2020844022 关帅 25 NaN 会计学 90.000000 92.6 75.00 100.0 88.00 True 21 2020844023 刘嘉雯 25 男 会计学 89.575000 86.0 90.00 100.0 103.00 True 22 2020844024 刘浩天 25 男 会计学 85.100000 83.2 85.00 100.0 98.00 True 23 2020844025 刘宇 25 男