2019年12月_炼丹师666

原创 pyhton_使用插值法填充缺失值

pyhton_使用插值法填充缺失值# 라이브러리를 임포트합니다.import pandas as pdimport numpy as np# 날짜를 만듭니다.time_index = pd.date_range("01/01/2010", periods=5, freq="M")# 设置索引dataframe = pd.DataFrame(index=time_index...

2019-12-30 22:12:33 6006 3

原创 python _滑动时间窗

python _滑动时间窗一种用于时间序列操作的重要用法，是使用滑窗（sliding windown）或呈指数降低的权重（exponentially decaying weights），来对时间序列进行统计值计算和其他一些函数计算。这个对于消除噪声或有缺陷的数据是很有用的做平滑处理，削弱短期波动影响# 滑动时间窗import pandas as pd# 模拟数据time_inde...

2019-12-30 22:02:25 4983

原创 Python_让特征值滞后一行

Python_让特征值滞后一行# 加载库import pandas as pd# 데이터프레임을 만듭니다.dataframe = pd.DataFrame()# 模拟数据dataframe["dates"] = pd.date_range("1/1/2001", periods=5, freq="D")dataframe["stock_price"] = [1.1,2.2,...

2019-12-30 21:43:33 2636

原创对一周内的各天进行编码_对星期编码

对一周内的各天进行编码_对星期编码# 加载库import pandas as pd# 创建日期dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))# 查看星期几dates.dt.weekday_name0 Thursday1 Sunday2 Tuesdaydtype: ...

2019-12-30 21:39:18 550

原创 Zookeeper的选举机制原理

Zookeeper的选举机制原理三个核心选举原则：（1）Zookeeper集群中只有超过半数以上的服务器启动，集群才能正常工作；（2）在集群正常工作之前，myid小的服务器给myid大的服务器投票，直到集群正常工作，选出Leader；（3）选出Leader之后，之前的服务器状态由Looking改变为Following，以后的服务器都是Follower。参考博客：https://blog...

2019-12-30 21:24:33 136

原创使用sql 语句查询当月/当天/当周的数据总和

使用sql 语句查询当月/当天/当周的数据总和select * from `article` where to_days(`add_time`) = to_days(now());查询昨天的信息记录：select to_days(now) from system.dual;select getdate() from system.dual;--根据日期增量判定，求取日期区间sel...

2019-12-30 20:47:06 3564

原创 sqoop迁移oracle数据到TDH

从oracle导出数据为文本格式https://github.com/reader-sword/oracle-transform-TDH#!/bin/bashtouch /mnt/oracle_transport/sqoop.logecho "" > /mnt/oracle_transport/sqoop.log i=0cat table.txt |while read line...

2019-12-30 17:42:44 419

原创偏差和方差

偏差和方差偏差（bias）：偏差衡量了模型的预测值与实际值之间的偏离关系。方差（variance）：方差描述的是训练数据在不同迭代阶段的训练模型中，预测值的变化波动情况参考此博客：https://www.cnblogs.com/hutao722/p/9921788.html...

2019-12-30 14:19:48 85

原创偏差和方差

偏差和方差偏差（bias）：偏差衡量了模型的预测值与实际值之间的偏离关系。方差（variance）：方差描述的是训练数据在不同迭代阶段的训练模型中，预测值的变化波动情况参考此博客：https://www.cnblogs.com/hutao722/p/9921788.html...

2019-12-30 14:19:11 105

原创 python_计算两个日期之间的时间差

python_计算两个日期之间的时间差# 计算两个日期之间的时间差import pandas as pd# dataframe = pd.DataFrame()# 创建两个 datetime 特征dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]dataframe['L...

2019-12-29 22:06:16 2438

原创 python_切分日期特征

python_切分日期特征7.4 날짜 데이터를 여러 특성으로 나누기# 加载库import pandas as pd# 데이터프레임을 만듭니다.dataframe = pd.DataFrame()# 다섯 개의 날짜를 만듭니다.dataframe['date'] = pd.date_range('1/1/2001', periods=150, freq='W')...

2019-12-29 18:04:02 512

原创 python_筛选日期_date_range

python_筛选日期生成日期 date_range7.3 # 라이브러리를 임포트합니다.import pandas as pd# 데이터프레임을 만듭니다.dataframe = pd.DataFrame()# 创建datetimedataframe['date'] = pd.date_range('1/1/2001', periods=100000, freq='H'...

2019-12-29 17:32:23 4991 1

原创 python_把字符串转化为日期

python_把字符串转化为日期import numpy as npimport pandas as pd# 创建字符串date_strings = np.array([ '03-04-2005 11:35 PM', '23-05-2010 12:01 AM', '04-09-2009 09:09 PM'])# 转换为datatime类型的数据# conver...

2019-12-29 17:15:25 1604

原创前向传播和反向传播

前向传播和反向传播前向传播：说的通俗一点就是从输入到得到损失值的过程至于反向传播，说的通俗一点就是通过损失函数的值不断调参的过程参考此博客：https://blog.csdn.net/lhanchao/article/details/51419150...

2019-12-29 16:36:58 189

原创 python_验证曲线_查看不通超参数对模型性能的影响

python_验证曲线_查看不通超参数对模型性能的影响# 可视化超参数值的效果# 了解不通超参数对模型性能的影响import matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import load_digitsfrom sklearn.ensemble import RandomForestClassifi...

2019-12-29 15:52:26 306

原创 python_生成分类器评估指标报告

生成分类器评估指标报告# 生成评估指标报告from sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_...

2019-12-29 15:35:00 1182

原创 python_学习曲线_观察不同规模训练集对指标的影响

学习曲线观察不同规模训练集对指标的影响# 라이브러리를 임포트합니다.import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_digitsfrom sklearn.model...

2019-12-29 15:26:15 280

原创 python_创建自定义评估指标

python_创建自定义评估指标# 创建自定义评估指标函数from sklearn.metrics import make_scorer, r2_scorefrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import Ridgefrom sklearn.datasets imp...

2019-12-29 15:02:14 809

原创评估聚类模型

评估聚类模型轮廓系数聚类评估：轮廓系数(Silhouette Coefficient)：https://www.jianshu.com/p/6352d9d468f8si接近1，则说明样本i聚类合理。si接近-1，则说明样本i更应该分类到另外的簇。若si近似为0，则说明样本i在两个簇的边界上。silhouette_score 返回的是平均轮廓系数# 评估聚类模型import nu...

2019-12-28 20:58:40 486

原创 python_评估回归模型

评估回归模型均方误差越小越好R方越接近一越好# load libraries 加载库from sklearn.datasets import make_regressionfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LinearRegression# ...

2019-12-28 20:46:16 1119

原创使用python绘制混淆矩阵

使用python绘制混淆矩阵# 可视化分类器性能# load librariesimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_sel...

2019-12-28 20:34:14 1849

原创分类模型-auc-roc曲线

分类模型-auc-roc曲线真阳性率：假阳性率：参考博客：https://blog.csdn.net/u011630575/article/details/80250177# load libraries 加载库import matplotlib.pyplot as pltfrom sklearn.datasets import make_classificationfrom...

2019-12-27 17:56:59 193

原创分类评价模型-准确率（Accuracy）、精确率(Precision)、召回率(Recall)、F值(F-Measure)

混淆矩阵模型评价标准：TP: 将正类预测为正类数 40FN: 将正类预测为负类数 20FP: 将负类预测为正类数 10TN: 将负类预测为负类数 30准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%精确率(precision) = TP/(TP+FP) =40）/（40+10）= 80% （40）/（40+1...

2019-12-27 16:03:55 4558

原创创建分类基准模型

创建分类基准模型create dummy classifier 创建仿真分类模型strategy=‘uniform’ 随机筛选样本strategy=‘strategy’ 使预测结果与训练集中数据比例相同# # 创建基准分类模型from sklearn.datasets import load_irisfrom sklearn.dummy import DummyClassifie...

2019-12-27 15:35:54 651

原创回归模型评价指标

回归模型评价指标越接近1，表明方程的变量对y的解释能力越强，这个模型对数据拟合的也较好越接近0，表明模型拟合的越差经验值：>0.4，拟合效果好缺点：数据集的样本越大，R²越大，因此，不同数据集的模型结果比较会有一定的误差参考此博客：https://www.jianshu.com/p/9ee85fdad150...

2019-12-27 15:21:04 9193

原创将数据预处理加入模型选择过程

将数据预处理加入模型选择过程# 将数据预处理加入模型选择过程import numpy as npfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import GridSearchCVfrom sklearn.pipeli...

2019-12-26 17:38:09 425

原创从多种学习算法中选择最佳算法模型

从多种学习算法中选择最佳算法模型#12.3 Selecting Best Models from Multiple Learning Algorithms# 从多种学习算法中选择最佳模型import numpy as npfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom...

2019-12-26 17:12:51 547

原创使用随机搜索选择最佳参数&网格搜索

使用随机搜索选择最佳参数&网格搜索# 라이브러리를 임포트합니다.from scipy.stats import uniformfrom sklearn import linear_model, datasetsfrom sklearn.model_selection import RandomizedSearchCV# 데이터를 로드합니다.iris = datasets....

2019-12-25 22:35:34 906

原创使用穷举法选择最佳参数模型&网格搜索

使用穷举法选择最佳参数模型&网格搜索# 网格搜索，使用穷举法选择最佳参数模型import numpy as npfrom sklearn import linear_model, datasetsfrom sklearn.model_selection import GridSearchCV# load datairis = datasets.load_iris()feat...

2019-12-25 22:15:47 1116

原创保存加载keras模型

保存加载keras模型# load libraries 保存和加载 Keras 模型import numpy as npfrom keras.datasets import imdbfrom keras.preprocessing.text import Tokenizerfrom keras import modelsfrom keras import layersfrom...

2019-12-25 17:03:44 236

原创保存和加载scikit-learn模型

保存和加载scikit-learn模型有时版本不一致，我们保存的时候需要附加上版本21.1 Saving and Loading a scikit-learn Model¶ProblemYou have trained a scikit-learn model and want to save it and load it elsewhere.SolutionSave the mod...

2019-12-25 16:56:33 2175

原创交叉验证模型评估模型性能

交叉验证模型K折交叉验证详解：https://blog.csdn.net/ChenVast/article/details/79257097cv 用于指示使用什么样的交叉验证方法scoring 指定衡量标准calculate mean 计算得分平均值作为总体得分# load librariesfrom sklearn import datasets, metricsfrom s...

2019-12-25 16:48:28 967

原创 # 使用袋外误差评估随机森林模型

在不使用交叉验证的情况下使用袋外误差评估随机森林模型# 使用袋外误差评估随机森林模型使用袋外样本from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsiris = datasets.load_iris()features = iris.datatarget = iris.ta...

2019-12-25 15:55:48 4446 1

原创 adaboost方式进行训练

算法原理：训练一系列弱模型，每轮训练前为前一轮预测错的样本分配更大的权重参数示例base_estimator:基分类器，默认是决策树，在该分类器基础上进行boosting，理论上可以是任意一个分类器，但是如果是其他分类器时需要指明样本权重。n_estimators:基分类器提升（循环）次数，默认是50次，这个值过大，模型容易过拟合；值过小，模型容易欠拟合。learning_rate:学习...

2019-12-25 15:50:57 299

原创控制决策树的深度

控制决策树的深度min_samples_split=2,叶子节点需要的最下样本数min_samples_leaf=1,min_weight_fraction_leaf=0,最大叶子节点数max_leaf_nodes=None,执行分裂所需最小不纯度减少量min_impurity_decrease=0)# 控制决策树的规模树的深度from sklearn.tree impor...

2019-12-25 15:42:43 3908

原创随机森林_处理不均衡数据

随机森林_处理不均衡数据balanced 加上balanced 参数# 处理不均衡的数据from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsfrom sklearn.feature_selection import SelectFromModeliris = datasets....

2019-12-22 22:19:10 5495

原创通过阈值筛选随机森林的重要特征

通过阈值筛选随机森林的重要特征14.7 Selecting Important Features in Random Forests# 筛选重要特征from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsfrom sklearn.feature_selection import Sele...

2019-12-22 17:03:52 3666 1

原创可视化随机森林的特征重要性

可视化随机森林的特征重要性# 查看随机森林的特征重要性import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsiris = datasets.load_iris()features ...

2019-12-22 16:54:28 8903 3

原创训练随机森林回归模型 RandomForestRegressor

训练随机森林回归模型 RandomForestRegressorbootstrap 表示是够有放回抽样，还是不放回抽样# 训练随机森林回归模型 RandomForestRegressorfrom sklearn.ensemble import RandomForestRegressorfrom sklearn import datasetsboston = datasets.load...

2019-12-21 11:53:41 4587 1

原创训练随机森林分类器

训练随机森林分类器随机森林，，每棵树接收的样本是随机的，有放回随机抽样，每个节点分裂时特征随机 # 参数方面，可以设置每个节点的特征数，有放回抽样还是无放回抽样# 训练随机森林分类器from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsiris = datasets.loa...

2019-12-21 11:36:59 1129

oracle-drives.rar

python简明教程

空空如也