天池比赛TASK3打卡

天池比赛TASK3打卡

  • 异常值的处理

  1. 利用箱线图进行异常值的识别
    利用箱线图进行异常值的识别时,其判断标准是当数据值大于箱线图的上须或下须时,即可认为这样的数据点为异常点。
    在这里插入图片描述
    所以如下表:
判断标准结论
x>Q3+1.5(Q3-Q1)或者 x<Q1-1.5(Q3-Q1)异常点
x>Q3+3(Q3-Q1)或者 x<Q1-3(Q3-Q1)极端异常点
  1. 正态分布法
    根据正态分布的定义可知,数据点落在派能力均值正负1倍标准差内的概率是68.2%;数据点落在偏离均值2倍标准差内的概率是95.4%;数据点落在偏离均值正负3倍标准差内的而概率是99.6%。
    在这里插入图片描述
    根据以上定义,可以得出结论,如果数据点落在偏离均值正负2倍标准差之外的概率是不足5%,它属于小概率事件,即可认为这样的数据点是异常点;同理,如果数据点落在偏离均值正负3倍标准差之外的概率将会更小,可以认为这些数据点为极端异常点。所以有如下的结论:
判断标准结论
x>xbar+2σ或者x<xbar-2σ异常点
x>xbar+3σ或者x<xbar-3σ极端异常点
  • Pandas中文本数据方法slice( )

1.Series. str.slice(start=None, stop=None, step=None)

参数参数解释
start起始索引
stop终止索引
step步长

返回一个Series
2. Series.str.slice_replace(start=None, stop=None, repl=None)

参数参数解释
start起始索引
stop终止索引
repl替换字符

返回一个Series
以上的两个方法均只对返回一个Series生效
3. pd.to_datetime()
将object类型的数据转换成datetime类型
4. datetime.dt.day
将datetime转换成天(也可以转换成年,月等时间)
返回的结果是int

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值