- 博客(120)
- 资源 (2)
- 收藏
- 关注
原创 pyhton_使用插值法填充缺失值
pyhton_使用插值法填充缺失值# 라이브러리를 임포트합니다.import pandas as pdimport numpy as np# 날짜를 만듭니다.time_index = pd.date_range("01/01/2010", periods=5, freq="M")# 设置索引dataframe = pd.DataFrame(index=time_index...
2019-12-30 22:12:33 6006 3
原创 python _滑动时间窗
python _滑动时间窗一种用于时间序列操作的重要用法,是使用滑窗(sliding windown)或呈指数降低的权重(exponentially decaying weights),来对时间序列进行统计值计算和其他一些函数计算。 这个对于消除噪声或有缺陷的数据是很有用的做平滑处理,削弱短期波动影响# 滑动时间窗import pandas as pd# 模拟数据time_inde...
2019-12-30 22:02:25 4983
原创 Python_让特征值滞后一行
Python_让特征值滞后一行# 加载库import pandas as pd# 데이터프레임을 만듭니다.dataframe = pd.DataFrame()# 模拟数据dataframe["dates"] = pd.date_range("1/1/2001", periods=5, freq="D")dataframe["stock_price"] = [1.1,2.2,...
2019-12-30 21:43:33 2636
原创 对一周内的各天进行编码_对星期编码
对一周内的各天进行编码_对星期编码# 加载库import pandas as pd# 创建日期dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))# 查看星期几dates.dt.weekday_name0 Thursday1 Sunday2 Tuesdaydtype: ...
2019-12-30 21:39:18 550
原创 Zookeeper的选举机制原理
Zookeeper的选举机制原理三个核心选举原则:(1)Zookeeper集群中只有超过半数以上的服务器启动,集群才能正常工作;(2)在集群正常工作之前,myid小的服务器给myid大的服务器投票,直到集群正常工作,选出Leader;(3)选出Leader之后,之前的服务器状态由Looking改变为Following,以后的服务器都是Follower。参考博客:https://blog...
2019-12-30 21:24:33 136
原创 使用sql 语句查询当月/当天/当周的数据总和
使用sql 语句查询当月/当天/当周的数据总和select * from `article` where to_days(`add_time`) = to_days(now());查询昨天的信息记录:select to_days(now) from system.dual;select getdate() from system.dual;--根据日期增量判定,求取日期区间sel...
2019-12-30 20:47:06 3564
原创 sqoop迁移oracle数据到TDH
从oracle导出数据为文本格式https://github.com/reader-sword/oracle-transform-TDH#!/bin/bashtouch /mnt/oracle_transport/sqoop.logecho "" > /mnt/oracle_transport/sqoop.log i=0cat table.txt |while read line...
2019-12-30 17:42:44 419
原创 偏差和方差
偏差和方差偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。方差(variance):方差描述的是训练数据在不同迭代阶段的训练模型中,预测值的变化波动情况参考此博客:https://www.cnblogs.com/hutao722/p/9921788.html...
2019-12-30 14:19:48 85
原创 偏差和方差
偏差和方差偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。方差(variance):方差描述的是训练数据在不同迭代阶段的训练模型中,预测值的变化波动情况参考此博客:https://www.cnblogs.com/hutao722/p/9921788.html...
2019-12-30 14:19:11 105
原创 python_计算两个日期之间的时间差
python_计算两个日期之间的时间差# 计算两个日期之间的时间差import pandas as pd# dataframe = pd.DataFrame()# 创建两个 datetime 特征dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]dataframe['L...
2019-12-29 22:06:16 2438
原创 python_切分日期特征
python_切分日期特征7.4 날짜 데이터를 여러 특성으로 나누기# 加载库import pandas as pd# 데이터프레임을 만듭니다.dataframe = pd.DataFrame()# 다섯 개의 날짜를 만듭니다.dataframe['date'] = pd.date_range('1/1/2001', periods=150, freq='W')...
2019-12-29 18:04:02 512
原创 python_筛选日期_date_range
python_筛选日期生成日期 date_range7.3 # 라이브러리를 임포트합니다.import pandas as pd# 데이터프레임을 만듭니다.dataframe = pd.DataFrame()# 创建datetimedataframe['date'] = pd.date_range('1/1/2001', periods=100000, freq='H'...
2019-12-29 17:32:23 4991 1
原创 python_把字符串转化为日期
python_把字符串转化为日期import numpy as npimport pandas as pd# 创建字符串date_strings = np.array([ '03-04-2005 11:35 PM', '23-05-2010 12:01 AM', '04-09-2009 09:09 PM'])# 转换为datatime类型的数据# conver...
2019-12-29 17:15:25 1604
原创 前向传播和反向传播
前向传播和反向传播前向传播:说的通俗一点就是从输入到得到损失值的过程至于反向传播,说的通俗一点就是通过损失函数的值不断调参的过程参考此博客:https://blog.csdn.net/lhanchao/article/details/51419150...
2019-12-29 16:36:58 189
原创 python_验证曲线_查看不通超参数对模型性能的影响
python_验证曲线_查看不通超参数对模型性能的影响# 可视化超参数值的效果# 了解不通超参数对模型性能的影响import matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import load_digitsfrom sklearn.ensemble import RandomForestClassifi...
2019-12-29 15:52:26 306
原创 python_生成分类器评估指标报告
生成分类器评估指标报告# 生成评估指标报告from sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_...
2019-12-29 15:35:00 1182
原创 python_学习曲线_观察不同规模训练集对指标的影响
学习曲线观察不同规模训练集对指标的影响# 라이브러리를 임포트합니다.import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_digitsfrom sklearn.model...
2019-12-29 15:26:15 280
原创 python_创建自定义评估指标
python_创建自定义评估指标# 创建自定义评估指标 函数from sklearn.metrics import make_scorer, r2_scorefrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import Ridgefrom sklearn.datasets imp...
2019-12-29 15:02:14 809
原创 评估聚类模型
评估聚类模型轮廓系数聚类评估:轮廓系数(Silhouette Coefficient):https://www.jianshu.com/p/6352d9d468f8si接近1,则说明样本i聚类合理。si接近-1,则说明样本i更应该分类到另外的簇。若si近似为0,则说明样本i在两个簇的边界上。silhouette_score 返回的是平均轮廓系数# 评估聚类模型import nu...
2019-12-28 20:58:40 486
原创 python_评估回归模型
评估回归模型均方误差 越小越好R方越接近一越好# load libraries 加载库from sklearn.datasets import make_regressionfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LinearRegression# ...
2019-12-28 20:46:16 1119
原创 使用python绘制混淆矩阵
使用python绘制混淆矩阵# 可视化分类器性能# load librariesimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_sel...
2019-12-28 20:34:14 1849
原创 分类模型-auc-roc曲线
分类模型-auc-roc曲线真阳性率:假阳性率:参考博客:https://blog.csdn.net/u011630575/article/details/80250177# load libraries 加载库import matplotlib.pyplot as pltfrom sklearn.datasets import make_classificationfrom...
2019-12-27 17:56:59 193
原创 分类评价模型-准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure)
混淆矩阵模型评价标准:TP: 将正类预测为正类数 40FN: 将正类预测为负类数 20FP: 将负类预测为正类数 10TN: 将负类预测为负类数 30准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%精确率(precision) = TP/(TP+FP) =40)/(40+10)= 80% (40)/(40+1...
2019-12-27 16:03:55 4558
原创 创建分类基准模型
创建分类基准模型create dummy classifier 创建仿真 分类模型strategy=‘uniform’ 随机筛选样本strategy=‘strategy’ 使预测结果与训练集中数据比例相同# # 创建基准分类模型from sklearn.datasets import load_irisfrom sklearn.dummy import DummyClassifie...
2019-12-27 15:35:54 651
原创 回归模型评价指标
回归模型评价指标越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好越接近0,表明模型拟合的越差经验值:>0.4, 拟合效果好缺点:数据集的样本越大,R²越大,因此,不同数据集的模型结果比较会有一定的误差参考此博客:https://www.jianshu.com/p/9ee85fdad150...
2019-12-27 15:21:04 9193
原创 将数据预处理加入模型选择过程
将数据预处理加入模型选择过程# 将数据预处理加入模型选择过程import numpy as npfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import GridSearchCVfrom sklearn.pipeli...
2019-12-26 17:38:09 425
原创 从多种学习算法中选择最佳算法模型
从多种学习算法中选择最佳算法模型#12.3 Selecting Best Models from Multiple Learning Algorithms# 从多种学习算法中选择最佳模型import numpy as npfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom...
2019-12-26 17:12:51 547
原创 使用随机搜索选择最佳参数&网格搜索
使用随机搜索选择最佳参数&网格搜索# 라이브러리를 임포트합니다.from scipy.stats import uniformfrom sklearn import linear_model, datasetsfrom sklearn.model_selection import RandomizedSearchCV# 데이터를 로드합니다.iris = datasets....
2019-12-25 22:35:34 906
原创 使用穷举法选择最佳参数模型&网格搜索
使用穷举法选择最佳参数模型&网格搜索# 网格搜索,使用穷举法选择最佳参数模型import numpy as npfrom sklearn import linear_model, datasetsfrom sklearn.model_selection import GridSearchCV# load datairis = datasets.load_iris()feat...
2019-12-25 22:15:47 1116
原创 保存加载keras模型
保存加载keras模型# load libraries 保存和加载 Keras 模型import numpy as npfrom keras.datasets import imdbfrom keras.preprocessing.text import Tokenizerfrom keras import modelsfrom keras import layersfrom...
2019-12-25 17:03:44 236
原创 保存和加载scikit-learn模型
保存和加载scikit-learn模型有时版本不一致,我们保存的时候需要附加上版本21.1 Saving and Loading a scikit-learn Model¶ProblemYou have trained a scikit-learn model and want to save it and load it elsewhere.SolutionSave the mod...
2019-12-25 16:56:33 2175
原创 交叉验证模型评估模型性能
交叉验证模型K折交叉验证详解:https://blog.csdn.net/ChenVast/article/details/79257097cv 用于指示 使用什么样的交叉验证方法scoring 指定衡量标准calculate mean 计算得分平均值 作为总体得分# load librariesfrom sklearn import datasets, metricsfrom s...
2019-12-25 16:48:28 967
原创 # 使用袋外误差评估随机森林模型
在不使用交叉验证的情况下使用袋外误差评估随机森林模型# 使用袋外误差评估随机森林模型 使用袋外样本from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsiris = datasets.load_iris()features = iris.datatarget = iris.ta...
2019-12-25 15:55:48 4446 1
原创 adaboost方式进行训练
算法 原理:训练一系列弱模型,每轮训练前为前一轮预测错的样本分配更大的权重参数示例base_estimator:基分类器,默认是决策树,在该分类器基础上进行boosting,理论上可以是任意一个分类器,但是如果是其他分类器时需要指明样本权重。n_estimators:基分类器提升(循环)次数,默认是50次,这个值过大,模型容易过拟合;值过小,模型容易欠拟合。learning_rate:学习...
2019-12-25 15:50:57 299
原创 控制决策树的深度
控制决策树的深度min_samples_split=2,叶子节点需要的最下样本数min_samples_leaf=1,min_weight_fraction_leaf=0,最大叶子节点数max_leaf_nodes=None,执行分裂所需最小不纯度减少量min_impurity_decrease=0)# 控制决策树的规模 树的深度from sklearn.tree impor...
2019-12-25 15:42:43 3908
原创 随机森林_处理不均衡数据
随机森林_处理不均衡数据balanced 加上balanced 参数# 处理不均衡的数据from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsfrom sklearn.feature_selection import SelectFromModeliris = datasets....
2019-12-22 22:19:10 5495
原创 通过阈值筛选随机森林的重要特征
通过阈值筛选随机森林的重要特征14.7 Selecting Important Features in Random Forests# 筛选重要特征from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsfrom sklearn.feature_selection import Sele...
2019-12-22 17:03:52 3666 1
原创 可视化随机森林的特征重要性
可视化随机森林的特征重要性# 查看随机森林的特征重要性import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsiris = datasets.load_iris()features ...
2019-12-22 16:54:28 8903 3
原创 训练随机森林回归模型 RandomForestRegressor
训练随机森林回归模型 RandomForestRegressorbootstrap 表示是够有放回抽样,还是不放回抽样# 训练随机森林回归模型 RandomForestRegressorfrom sklearn.ensemble import RandomForestRegressorfrom sklearn import datasetsboston = datasets.load...
2019-12-21 11:53:41 4587 1
原创 训练随机森林分类器
训练随机森林分类器随机森林,,每棵树 接收的样本是 随机的,有放回随机抽样,每个节点分裂时特征随机 # 参数方面,可以设置 每个节点的特征数,有放回抽样还是无放回抽样# 训练随机森林分类器from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsiris = datasets.loa...
2019-12-21 11:36:59 1129
oracle-drives.rar
2019-12-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人