kaggle上的pandas小技巧

kaggle上有很多大神,对数据处理非常有心得。感觉是时候做一次总结。


这一次主要是介绍kaggle上的titanic数据集的一个notebook。链接为: https://www.kaggle.com/startupsci/titanic-data-science-solutions

这个notebook主要的还是面向入门的python数据处理用户。

Q1:如何获得pandas里面数据框(DataFrame)的列名字,如何提取,如何修改?

对于上面的train这个数据的列名字,可以使用train.columns, train.columns.values来获得,获得的效果是不一样的,但是都是支持切片的,train.columns是index这个对象,train.columns.values是numpy里面的数组。这里是值得注意的。

如果想修改这个数据框里面的列的名字,可以使用rename函数:比如我们想将train里面的Surivived改为ssurvived,使用rename,然后将要修改的东西放到字典里面,传递给新的变量。就可以这样写:

实际上还可以使用想修改的名字对应的位置进行修改。

 

Q2 如何查看描述性统计?

上面的train他有连续型数据和分类型数据,一般都是使用train.describe()就可以查看出连续型数据的一些描述性结果:

上面的没有分类型变量的描述性统计,其实这个describe()函数非常强,里面加个参数,就能看得出来:

注意,include传递的是英文字符、大写的opq的O。不是数字0.

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yuanzhoulvpi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值