sklearn学习——DataFrame与Series

sklearn中文学习文档

1. 如何构建Series与DataFrame

1.1 构造Series

① 通过列表或者元组(因为列表和元组都是一维的),这时候,index是系统默认的,即从0开始。

② 通过字典,这时 候,index为字典的key

③ 通过一维的numpy数组构建

④ 通过DataFrame中的某一列构建

序列和一维数组有极高的相似性。 获取一维数组元素的方法都可以用在序列上,并且数组的数学和统计函数也可以同样应用在序列对象上
若序列是行名称风格,则既可以使用行号索引也可以用标签索引。
如果对序列做数学函数运算,推荐使用numpy,如果对序列做统计运算,则推荐使用pandas库

1.2 构造DataFrame

说明:如果要手工构建数据框,则推荐字典构造

① 通过嵌套的列表或者元组,这时列表或者元组中的每一个元素(也是列表或者元组)是数据框中的每一行观测,行和列的索引都为系统默认。
② 通过二维数组构造,这本质上和①一样
③ 通过字典构造:字典的键构成数据框中的变量名(DataFrame中的列),值构成数据框的每一条观测,所以值必须是列表或者元组的形式。
④ 从外部读取数据构成数据框

2. 常用函数和属性

标注为both的表示DataFrame与Series都适用

2.1 head()函数——(both)

查看前几行

2.2 shape属性——(both)

df:(样本量,特征数)
series:(样本量,)

2.3 iloc[] & loc[]——(both)

(1)iloc切片方法,索引只能是数字
df:iloc[:,:]

series:iloc[index_value]

(2)loc切片方法,索引只能是数字

df:loc[:,:]

series:loc[index_value]

2.4 describe()函数——(both)

描述性统计,包括df或者series的均值、标准差,最小最大值、分位数值

2.5 isnull()函数——(both)

探索缺失值常用

2.6 count()函数——(both)

查看对于某个特征,有多少样本有这个特征值

2.7 index & values属性——(both)

查看索引(index)和索引对应的值(values)

2.8 value_counts()——Series

不仅能查看有特征有多少个取值,还可以查看每个取值对应有对少样本

2.9 columns属性、rename()函数——DataFrame

columns属性获取所有特征的名字,常用来替换全部特征名字时适用

rename函数用来特换某个特征的名字

2.10 sort_values()——DataFrame

通过某列或者几列将整个df排序

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

InceptionZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值