kaggle上有很多大神,对数据处理非常有心得。感觉是时候做一次总结。
这一次主要是介绍kaggle上的titanic数据集的一个notebook。链接为: https://www.kaggle.com/startupsci/titanic-data-science-solutions
这个notebook主要的还是面向入门的python数据处理用户。
Q1:如何获得pandas里面数据框(DataFrame)的列名字,如何提取,如何修改?
对于上面的train这个数据的列名字,可以使用train.columns, train.columns.values来获得,获得的效果是不一样的,但是都是支持切片的,train.columns是index这个对象,train.columns.values是numpy里面的数组。这里是值得注意的。
如果想修改这个数据框里面的列的名字,可以使用rename函数:比如我们想将train里面的Surivived改为ssurvived,使用rename,然后将要修改的东西放到字典里面,传递给新的变量。就可以这样写:
实际上还可以使用想修改的名字对应的位置进行修改。
Q2 如何查看描述性统计?
上面的train他有连续型数据和分类型数据,一般都是使用train.describe()就可以查看出连续型数据的一些描述性结果:
上面的没有分类型变量的描述性统计,其实这个describe()函数非常强,里面加个参数,就能看得出来:
注意,include传递的是英文字符、大写的opq的O。不是数字0.