>arange跟列表差不多
>series 带序号
>dataframe 跟excel表格差不多意思
>index索引的价值:自动化对齐,相同索引直接运算
s5 = pd.Series(np.array([10,15,20,30,55,80]),index = ['a','b','c','d','e','f'])
print(s5)
s6 = pd.Series(np.array([12,11,13,15,14,16]),index = ['a','c','g','b','d','f'])
print(s6)
print(s5 + s6)
print(s5/s6)
>pandas用loc索引
>创建dataframe典型语句,先创建字典,然后用dataframe方法
import pandas as pd
stu_dic = {'Age':[14,13,13,14,14,12,12,15,13,12,11,14,12,15,16,12,15,11,15],
'Height':[69,56.5,65.3,62.8,63.5,57.3,59.8,62.5,62.5,59,51.3,64.3,56.3,66.5,72,64.8,67,57.5,66.5],
'Name':['Alfred','Alice','Barbara','Carol','Henry','James','Jane','Janet','Jeffrey','John','Joyce','Judy','Louise','Marry','Philip','Robert','Ronald','Thomas','Willam'],
'Sex':['M','F','F','F','M','M','F','F','M','M','F','F','F','F','M','M','M','M','M'],
'Weight':[112.5,84,98,102.5,102.5,83,84.5,112.5,84,99.5,50.5,90,77,112,150,128,133,85,112]}
student = pd.DataFrame(stu_dic)
print(student)
>前5行后5行:head与tail
>指定条件查询
print(student[(student['Sex']=='F') & (student['Age']>12)])
>聚合操作,groupby
>实现sql功能
默认情况下,merge函数实现的是两个表之间的内连接,即返回两张表中共同
部分的数据。可以通过how参数设置连接的方式,left为左连接;right为右连
接;outer为外连接
>缺失值处理,drop,fillna,sum&isnull
>pivot_table实现数据透视功能
>层次化索引
>pandas数据处理练习 美国大选
将特朗普和拜登在各州获得的捐赠人数进行对比,如下图,明显拜登比特朗普获得了更多人的支持。
如果捐赠人能多大程度代表投票人的话,是能够预测拜登获胜的机会更大。
代码如下: