天池数据分析 Task2打卡

天池数据分析 Task2

  1. missingno的使用
import missingno as msno
msno.matrix(train,labels=True)
#显示每个特征中存在缺失值,缺失值用白线表示
msno.bar(train,labels=True)
#显示每个特征的确实比例和非空值的数量情况
msno.heatmap(train,labels=True)
#显示特征缺失值之间的相关性
msno.dendrogram(train)
  1. Dtaframe中的describe( )函数的使用要点
    describe函数可以用来查看特征的大概的范围和可能的异常值或者缺失值的特定表现形式
    可以通过观察max和min两个参数结合特征的具体含义进行异常值或者缺失值的判断
  2. Dataframe中的info( )函数的使用要点
    info函数可以通过查看每个特征的type来预测特征是否存在nan之外的特殊符号,
    例如:notRepairedDama 的type是objects 可以推测这个特征值可能存在其他的nan表示方式,用np.unique查看,存在三种情况0,1,-,其中-就是nan的另外一种表现的方式
  3. Dataframe中的sample( )函数
    DataFrame.sample(n=None,frac=None,replace=False,weights=None,random_state=None
    ,axis=None)
    重要参数解读:
参数名称参数说明
n要抽取的行数
frac抽取行的比例
replace是否为有放回抽样
  1. Dataframe中的replace( )函数
    DataFrame.replace(to_replace=None,value=None,inplcace=False,limit=None,regex=False
    ,method=‘pad’)
    重要参数解读:
参数名称参数说明
to_replace被替换的值
可以使用正则表达式且令regex=True
也可以是字典,键即为被替换的值,值为替换值
value想替换的值
limit限制填充次数
  1. DataFrame中的index和columns都是属性而不是方法,末尾不跟括号
  2. DataFrame中的corr( )函数
    DataFrame.corr(method=‘pearson’, min_periods=1)
    重要参数解读:
参数名称参数说明
method可选择的相关系数
可选值为‘person’,‘kendall’,‘spearman’
也可一个函数,函数的参数为两个一维的数组,返回值是一个float数值
min_periods观察每对列所需的最小数,以获得有效结果
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值