天池数据分析 Task2
- missingno的使用
import missingno as msno
msno.matrix(train,labels=True)
#显示每个特征中存在缺失值,缺失值用白线表示
msno.bar(train,labels=True)
#显示每个特征的确实比例和非空值的数量情况
msno.heatmap(train,labels=True)
#显示特征缺失值之间的相关性
msno.dendrogram(train)
- Dtaframe中的describe( )函数的使用要点
describe函数可以用来查看特征的大概的范围和可能的异常值或者缺失值的特定表现形式
可以通过观察max和min两个参数结合特征的具体含义进行异常值或者缺失值的判断 - Dataframe中的info( )函数的使用要点
info函数可以通过查看每个特征的type来预测特征是否存在nan之外的特殊符号,
例如:notRepairedDama 的type是objects 可以推测这个特征值可能存在其他的nan表示方式,用np.unique查看,存在三种情况0,1,-,其中-就是nan的另外一种表现的方式 - Dataframe中的sample( )函数
DataFrame.sample(n=None,frac=None,replace=False,weights=None,random_state=None
,axis=None)
重要参数解读:
参数名称 | 参数说明 |
---|---|
n | 要抽取的行数 |
frac | 抽取行的比例 |
replace | 是否为有放回抽样 |
- Dataframe中的replace( )函数
DataFrame.replace(to_replace=None,value=None,inplcace=False,limit=None,regex=False
,method=‘pad’)
重要参数解读:
参数名称 | 参数说明 |
---|---|
to_replace | 被替换的值 可以使用正则表达式且令regex=True 也可以是字典,键即为被替换的值,值为替换值 |
value | 想替换的值 |
limit | 限制填充次数 |
- DataFrame中的index和columns都是属性而不是方法,末尾不跟括号
- DataFrame中的corr( )函数
DataFrame.corr(method=‘pearson’, min_periods=1)
重要参数解读:
参数名称 | 参数说明 |
---|---|
method | 可选择的相关系数 可选值为‘person’,‘kendall’,‘spearman’ 也可一个函数,函数的参数为两个一维的数组,返回值是一个float数值 |
min_periods | 观察每对列所需的最小数,以获得有效结果 |