1. 如何构建Series与DataFrame
1.1 构造Series
① 通过列表或者元组(因为列表和元组都是一维的),这时候,index是系统默认的,即从0开始。
② 通过字典,这时 候,index为字典的key
③ 通过一维的numpy数组构建
④ 通过DataFrame中的某一列构建
序列和一维数组有极高的相似性。 获取一维数组元素的方法都可以用在序列上,并且数组的数学和统计函数也可以同样应用在序列对象上
若序列是行名称风格,则既可以使用行号索引也可以用标签索引。
如果对序列做数学函数运算,推荐使用numpy,如果对序列做统计运算,则推荐使用pandas库
1.2 构造DataFrame
说明:如果要手工构建数据框,则推荐字典构造
① 通过嵌套的列表或者元组,这时列表或者元组中的每一个元素(也是列表或者元组)是数据框中的每一行观测,行和列的索引都为系统默认。
② 通过二维数组构造,这本质上和①一样
③ 通过字典构造:字典的键构成数据框中的变量名(DataFrame中的列),值构成数据框的每一条观测,所以值必须是列表或者元组的形式。
④ 从外部读取数据构成数据框
2. 常用函数和属性
标注为both
的表示DataFrame与Series都适用
2.1 head()函数——(both)
查看前几行
2.2 shape属性——(both)
df:(样本量,特征数)
series:(样本量,)
2.3 iloc[] & loc[]——(both)
(1)iloc切片方法,索引只能是数字
df:iloc[:,:]
series:iloc[index_value]
(2)loc切片方法,索引只能是数字
df:loc[:,:]
series:loc[index_value]
2.4 describe()函数——(both)
描述性统计,包括df或者series的均值、标准差,最小最大值、分位数值
2.5 isnull()函数——(both)
探索缺失值常用
2.6 count()函数——(both)
查看对于某个特征,有多少样本有这个特征值
2.7 index & values属性——(both)
查看索引(index)和索引对应的值(values)
2.8 value_counts()——Series
不仅能查看有特征有多少个取值,还可以查看每个取值对应有对少样本
2.9 columns属性、rename()函数——DataFrame
columns属性获取所有特征的名字,常用来替换全部特征名字时适用
rename函数用来特换某个特征的名字
2.10 sort_values()——DataFrame
通过某列或者几列将整个df排序