机器学习-科学数据库day4

1.pandas常用数据类型

(1)Series 一维,带标签数组

(2)DataFrame 二维,Series容器

2.pandasSeries切片和索引

t 的输出:

 

DataFrame对象既有行索引,又有列索引

行索引,表明不同行,横向索引,叫index0轴,axis=0

列索引,表名不同列,纵向索引,叫columns1轴,axis=1

 3    用pandas读取的狗名字统计数据前一百

 

 

 4  pandasloc

(1)df.loc 通过标签引行数据

(2)df.iloc 通过位置取行数据

 

 

 5 缺失数据的处理

对于NaN的数据,在pandas中我们处理起来非常容易

判断数据是否为NaNpd.isnull(df),pd.notnull(df)

处理方式1:删除NaN所在的行列dropna (axis=0, how='any', inplace=False)

处理方式2:填充数据,t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)

处理为0的数据:t[t==0]=np.nan

当然并不是每次为0的数据都需要处理

计算平均值等情况,nan是不参与计算的,但是0

 6  例题:假设现在我们有一组从2006年到20161000部最流行的电影数据,我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取

 

 例题:对于这一组电影数据,如果我们想runtime的分布情况,应该如何呈现数据?

 

 

 例题:对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据

 

 绘出条形图

 7  join:默认情况下他是把行索引相同的数据合并到一起

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值