自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 正则表达式str.extract后多出1列

想extract匹配的项,结果发现返回了2列train.Ticket.str.extract('(([A-Z]+\.?)+\s*\d*)')返回:标题尝试加入 ?: 后,将(?:[A-Z]+.?)看为一个整体,再运行则只返回1列了。train.Ticket.str.extract('((?:[A-Z]+\.?)+\s*\d*)')返回:如果你的问题解决了,欢迎收藏+点赞+关注哦...

2020-04-06 14:46:39 471

原创 seaborn.kdeplot绘制图像显示异常问题

背景:在验证数据集的分布情况时,用kdeplot绘制可视化查看,但发现存在锯齿状、脉冲状的异常图像,乍一看是非常令人费解的。个人数据探索的真实案例(spark环境):from scipy.stats import kstestimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# 定义函数kde_...

2020-04-04 15:01:57 3146

原创 Pyspark中对训练集、测试集、验证集进行KS检验

KS检验的目的:验证数据分布特征的一致性因训练集、测试集、验证集在经过split之后,可能出现特征分布不一致的情况,导致模型训练产生不必要的误差和错误通过scipy.stats库,进行KS检验:(假设正在检验的2个数据集拥有同样的分布特征,α=0.05)import numpy as npimport pandas as pdimport seaborn as snsfrom sci...

2020-04-03 22:44:20 2442

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除