![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
炼丹师666
要学神仙,驾鹤飞天,点石成金,妙不可言!
展开
-
从身份证获取信息
--从身份证获取年龄 select to_char(to_date(sysdate,'yyyy'))-substr(cust_id,10,4) from system.dual; --从身份证获取性别SELECT CASE (substr(cust_id,17,1)%2)WHEN 1 THEN '1'WHEN 0 THEN '2'END AS 's...原创 2020-01-15 16:20:09 · 302 阅读 · 0 评论 -
python_采样_多个散点图在一起
参考:https://www.jianshu.com/p/14e635662fff#sampleBy根据指定字段分层抽样sample_data = df.sampleBy('gender',{1:0.0002,2:0.0002}).select("balance","numTrans","numIntlTrans")sample_data.take(5)To put multiple 2...原创 2020-01-12 16:45:49 · 7512 阅读 · 0 评论 -
sparksql_可视化组分布_histogram
sparksql_可视化组分布_histogram可参考:https://blog.csdn.net/weixin_39599711/article/details/79072691# 如果数据是几百万行,第二种方法显然不可取。因此需要先聚合数据。hists = fraud_df.select('balance').rdd.flatMap(lambda row: row).histogra...原创 2020-01-12 16:36:55 · 511 阅读 · 0 评论 -
sparksql_分析相关性
只要数据是DataFrame格式,在PySpark中计算相关性非常容易。#唯一的困难是.corr(…)方法现在支持Pearson相关系数,而它只能计算成对的相关性# 只要数据是DataFrame格式,在PySpark中计算相关性非常容易。# 唯一的困难是.corr(…)方法现在支持Pearson相关系数,而它只能计算成对的相关性,如下:fraud_df.corr('balance', ...原创 2020-01-12 16:28:18 · 1399 阅读 · 0 评论 -
python_如何观察数据分布_describe
如何观察数据分布_describe从上面的描述性统计可以看出两点:**正偏态离散程度**1)所有的特征都是正倾斜的,最大值是平均数的几倍。 2)离散系数(coefficient of variation,或变异系数)非常高,接近甚至超过1,说明数据的离散程度很大,波动范围很大。备注:正倾斜(positively skewed): 平均数 > 中位数,由于数据中有些很大很大...原创 2020-01-12 15:54:24 · 5259 阅读 · 0 评论 -
训练集,验证集,测试集比例
训练集,验证集,测试集比例当数据量比较小时,可以使用 7 :3 训练数据和测试数据,或者 6:2 : 2 训练数据,验证数据和测试数据。(西瓜书中描述常见的做法是将大约 2/3 ~ 4/5 的样本数据用于训练,剩余样本用于测试)当数据量非常大时,可以使用 98 : 1 : 1 训练数据,验证数据和测试数据参考:https://www.cnblogs.com/tectal/p/111130...原创 2020-01-09 16:48:49 · 3478 阅读 · 0 评论 -
归一化方式_标准化
归一化后有两个好处:(1)归一化后加快了梯度下降求最优解的速度。(2)归一化有可能提高精度(归一化是让不同维度之间的特征在数值上有一定的比较性)常见的数据归一化方法归一化(Min-max标准化)标准化(Z-score标准化)归一化(Min-max标准化)(1)min-max标准化(Min-Max Normalization)(线性函数归一化)定义:也称为离差标准化,是对原始数据的线...原创 2020-01-08 16:23:01 · 288 阅读 · 0 评论 -
pyhton_使用插值法填充缺失值
pyhton_使用插值法填充缺失值# 라이브러리를 임포트합니다.import pandas as pdimport numpy as np# 날짜를 만듭니다.time_index = pd.date_range("01/01/2010", periods=5, freq="M")# 设置索引dataframe = pd.DataFrame(index=time_index...原创 2019-12-30 22:12:33 · 5939 阅读 · 3 评论 -
对一周内的各天进行编码_对星期编码
对一周内的各天进行编码_对星期编码# 加载库import pandas as pd# 创建日期dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))# 查看星期几dates.dt.weekday_name0 Thursday1 Sunday2 Tuesdaydtype: ...原创 2019-12-30 21:39:18 · 533 阅读 · 0 评论 -
映射_replace_处理存在天然顺序的字符串数据
使用replace 映射,处理存在天然顺序的字符串数据5.2 Encoding Ordinal Categorical Features¶import pandas as pd# create featuresdf = pd.DataFrame({"Score": ["Low", "Low", "Medium", "Medium", "High"]})dfScore0 Low...原创 2019-12-18 17:07:55 · 157 阅读 · 0 评论 -
LabelBinarizer进行单分类和多分类one-hot编码
LabelBinarizer进行单分类和多分类one-hot编码5.1 Encoding Nominal Categorical Feature¶feature# 加载库 使用LabelBinarizer 进行one-hot编码import numpy as npfrom sklearn.preprocessing import LabelBinarizer, MultiLabel...原创 2019-12-18 16:50:30 · 1326 阅读 · 0 评论 -
python_通过KNN来填充缺失值
python_通过KNN来填充缺失值# 加载库import numpy as npfrom fancyimpute import KNNfrom sklearn.preprocessing import StandardScalerfrom sklearn.datasets import make_blobs# 创建模拟特征矩阵features, _ = make_blobs(n_...原创 2019-12-18 16:25:16 · 8859 阅读 · 0 评论 -
pyhton_聚类进行分组_分箱_离散化
pyhton_聚类进行分组_分箱_离散化# 使用聚类进行离散化, 分箱import pandas as pdfrom sklearn.datasets import make_blobsfrom sklearn.cluster import KMeansfeatures, _ = make_blobs(n_samples = 50, ...原创 2019-12-17 16:01:12 · 1872 阅读 · 0 评论 -
python_对异常值进行处理_丢弃_转化
python_对异常值进行处理_丢弃_转化# 方法一: 丢弃# 加载库import pandas as pd# 创建数据集houses = pd.DataFrame()houses['Price'] = [534433, 392333, 293222, 4322032]houses['Bathrooms'] = [2, 3.5, 2, 116]houses['Squar...原创 2019-12-17 15:53:00 · 1622 阅读 · 0 评论 -
python_异常值_EllipticEnvelope法和四分位差法
python_异常值_EllipticEnvelope法和四分位差法# 加载库import numpy as npfrom sklearn.covariance import EllipticEnvelopefrom sklearn.datasets import make_blobs# 创建爱模拟数据# sklearn 中 make_blobs模块使用# sklearn.d...原创 2019-12-17 15:38:09 · 2360 阅读 · 0 评论 -
python_特征转化_apply_FunctionTransformer
python_特征转化_apply_FunctionTransformer对特征进行转化# 라이브러리를 임포트합니다.import numpy as npfrom sklearn.preprocessing import FunctionTransformer# 创建矩阵features = np.array([[2, 3], [2, 3...原创 2019-12-17 15:01:58 · 802 阅读 · 0 评论 -
python_归一化
python_归一化最大最小值 MinMaxScaler4.1 Rescaling a feature¶Use scikit-learn's MinMaxScaler to rescale a feature array# 数据缩放 归一化 最大最小值import numpy as npfrom sklearn import preprocessing# create a...原创 2019-12-17 11:05:06 · 574 阅读 · 0 评论