天池比赛TASK3打卡
- 利用箱线图进行异常值的识别
利用箱线图进行异常值的识别时,其判断标准是当数据值大于箱线图的上须或下须时,即可认为这样的数据点为异常点。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200327171237722.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTU4NTQwMw==,size_16,color_FFFFFF,t_70)
所以如下表:
判断标准 | 结论 |
---|
x>Q3+1.5(Q3-Q1)或者 x<Q1-1.5(Q3-Q1) | 异常点 |
x>Q3+3(Q3-Q1)或者 x<Q1-3(Q3-Q1) | 极端异常点 |
- 正态分布法
根据正态分布的定义可知,数据点落在派能力均值正负1倍标准差内的概率是68.2%;数据点落在偏离均值2倍标准差内的概率是95.4%;数据点落在偏离均值正负3倍标准差内的而概率是99.6%。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200327171247703.png)
根据以上定义,可以得出结论,如果数据点落在偏离均值正负2倍标准差之外的概率是不足5%,它属于小概率事件,即可认为这样的数据点是异常点;同理,如果数据点落在偏离均值正负3倍标准差之外的概率将会更小,可以认为这些数据点为极端异常点。所以有如下的结论:
判断标准 | 结论 |
---|
x>xbar+2σ或者x<xbar-2σ | 异常点 |
x>xbar+3σ或者x<xbar-3σ | 极端异常点 |
1.Series. str.slice(start=None, stop=None, step=None)
参数 | 参数解释 |
---|
start | 起始索引 |
stop | 终止索引 |
step | 步长 |
返回一个Series
2. Series.str.slice_replace(start=None, stop=None, repl=None)
参数 | 参数解释 |
---|
start | 起始索引 |
stop | 终止索引 |
repl | 替换字符 |
返回一个Series
以上的两个方法均只对返回一个Series生效
3. pd.to_datetime()
将object类型的数据转换成datetime类型
4. datetime.dt.day
将datetime转换成天(也可以转换成年,月等时间)
返回的结果是int