- 博客(3)
- 收藏
- 关注
原创 正则表达式str.extract后多出1列
想extract匹配的项,结果发现返回了2列train.Ticket.str.extract('(([A-Z]+\.?)+\s*\d*)')返回:标题尝试加入 ?: 后,将(?:[A-Z]+.?)看为一个整体,再运行则只返回1列了。train.Ticket.str.extract('((?:[A-Z]+\.?)+\s*\d*)')返回:如果你的问题解决了,欢迎收藏+点赞+关注哦...
2020-04-06 14:46:39 471
原创 seaborn.kdeplot绘制图像显示异常问题
背景:在验证数据集的分布情况时,用kdeplot绘制可视化查看,但发现存在锯齿状、脉冲状的异常图像,乍一看是非常令人费解的。个人数据探索的真实案例(spark环境):from scipy.stats import kstestimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# 定义函数kde_...
2020-04-04 15:01:57 3146
原创 Pyspark中对训练集、测试集、验证集进行KS检验
KS检验的目的:验证数据分布特征的一致性因训练集、测试集、验证集在经过split之后,可能出现特征分布不一致的情况,导致模型训练产生不必要的误差和错误通过scipy.stats库,进行KS检验:(假设正在检验的2个数据集拥有同样的分布特征,α=0.05)import numpy as npimport pandas as pdimport seaborn as snsfrom sci...
2020-04-03 22:44:20 2442
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人