自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(120)
  • 资源 (2)
  • 收藏
  • 关注

原创 pyhton_使用插值法填充缺失值

pyhton_使用插值法填充缺失值# 라이브러리를 임포트합니다.import pandas as pdimport numpy as np​# 날짜를 만듭니다.time_index = pd.date_range("01/01/2010", periods=5, freq="M")​# 设置索引dataframe = pd.DataFrame(index=time_index...

2019-12-30 22:12:33 6006 3

原创 python _滑动时间窗

python _滑动时间窗一种用于时间序列操作的重要用法,是使用滑窗(sliding windown)或呈指数降低的权重(exponentially decaying weights),来对时间序列进行统计值计算和其他一些函数计算。 这个对于消除噪声或有缺陷的数据是很有用的做平滑处理,削弱短期波动影响# 滑动时间窗import pandas as pd​# 模拟数据time_inde...

2019-12-30 22:02:25 4983

原创 Python_让特征值滞后一行

Python_让特征值滞后一行# 加载库import pandas as pd​# 데이터프레임을 만듭니다.dataframe = pd.DataFrame()​# 模拟数据dataframe["dates"] = pd.date_range("1/1/2001", periods=5, freq="D")dataframe["stock_price"] = [1.1,2.2,...

2019-12-30 21:43:33 2636

原创 对一周内的各天进行编码_对星期编码

对一周内的各天进行编码_对星期编码# 加载库import pandas as pd​# 创建日期dates = pd.Series(pd.date_range("2/2/2002", periods=3, freq="M"))​# 查看星期几dates.dt.weekday_name0 Thursday1 Sunday2 Tuesdaydtype: ...

2019-12-30 21:39:18 550

原创 Zookeeper的选举机制原理

Zookeeper的选举机制原理三个核心选举原则:(1)Zookeeper集群中只有超过半数以上的服务器启动,集群才能正常工作;(2)在集群正常工作之前,myid小的服务器给myid大的服务器投票,直到集群正常工作,选出Leader;(3)选出Leader之后,之前的服务器状态由Looking改变为Following,以后的服务器都是Follower。参考博客:https://blog...

2019-12-30 21:24:33 136

原创 使用sql 语句查询当月/当天/当周的数据总和

使用sql 语句查询当月/当天/当周的数据总和select * from `article` where to_days(`add_time`) = to_days(now());查询昨天的信息记录:select to_days(now) from system.dual;select getdate() from system.dual;--根据日期增量判定,求取日期区间sel...

2019-12-30 20:47:06 3564

原创 sqoop迁移oracle数据到TDH

从oracle导出数据为文本格式https://github.com/reader-sword/oracle-transform-TDH#!/bin/bashtouch /mnt/oracle_transport/sqoop.logecho "" > /mnt/oracle_transport/sqoop.log i=0cat table.txt |while read line...

2019-12-30 17:42:44 419

原创 偏差和方差

偏差和方差偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。方差(variance):方差描述的是训练数据在不同迭代阶段的训练模型中,预测值的变化波动情况参考此博客:https://www.cnblogs.com/hutao722/p/9921788.html...

2019-12-30 14:19:48 85

原创 偏差和方差

偏差和方差偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。方差(variance):方差描述的是训练数据在不同迭代阶段的训练模型中,预测值的变化波动情况参考此博客:https://www.cnblogs.com/hutao722/p/9921788.html...

2019-12-30 14:19:11 105

原创 python_计算两个日期之间的时间差

python_计算两个日期之间的时间差# 计算两个日期之间的时间差import pandas as pd​# dataframe = pd.DataFrame()​# 创建两个 datetime 特征dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]dataframe['L...

2019-12-29 22:06:16 2438

原创 python_切分日期特征

python_切分日期特征7.4 날짜 데이터를 여러 특성으로 나누기# 加载库import pandas as pd​# 데이터프레임을 만듭니다.dataframe = pd.DataFrame()​# 다섯 개의 날짜를 만듭니다.dataframe['date'] = pd.date_range('1/1/2001', periods=150, freq='W')​...

2019-12-29 18:04:02 512

原创 python_筛选日期_date_range

python_筛选日期生成日期 date_range7.3 # 라이브러리를 임포트합니다.import pandas as pd​# 데이터프레임을 만듭니다.dataframe = pd.DataFrame()​# 创建datetimedataframe['date'] = pd.date_range('1/1/2001', periods=100000, freq='H'...

2019-12-29 17:32:23 4991 1

原创 python_把字符串转化为日期

python_把字符串转化为日期import numpy as npimport pandas as pd# 创建字符串date_strings = np.array([ '03-04-2005 11:35 PM', '23-05-2010 12:01 AM', '04-09-2009 09:09 PM'])# 转换为datatime类型的数据# conver...

2019-12-29 17:15:25 1604

原创 前向传播和反向传播

前向传播和反向传播前向传播:说的通俗一点就是从输入到得到损失值的过程至于反向传播,说的通俗一点就是通过损失函数的值不断调参的过程参考此博客:https://blog.csdn.net/lhanchao/article/details/51419150...

2019-12-29 16:36:58 189

原创 python_验证曲线_查看不通超参数对模型性能的影响

python_验证曲线_查看不通超参数对模型性能的影响# 可视化超参数值的效果# 了解不通超参数对模型性能的影响import matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import load_digitsfrom sklearn.ensemble import RandomForestClassifi...

2019-12-29 15:52:26 306

原创 python_生成分类器评估指标报告

生成分类器评估指标报告# 生成评估指标报告from sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_...

2019-12-29 15:35:00 1182

原创 python_学习曲线_观察不同规模训练集对指标的影响

学习曲线观察不同规模训练集对指标的影响# 라이브러리를 임포트합니다.import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_digitsfrom sklearn.model...

2019-12-29 15:26:15 280

原创 python_创建自定义评估指标

python_创建自定义评估指标# 创建自定义评估指标 函数from sklearn.metrics import make_scorer, r2_scorefrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import Ridgefrom sklearn.datasets imp...

2019-12-29 15:02:14 809

原创 评估聚类模型

评估聚类模型轮廓系数聚类评估:轮廓系数(Silhouette Coefficient):https://www.jianshu.com/p/6352d9d468f8si接近1,则说明样本i聚类合理。si接近-1,则说明样本i更应该分类到另外的簇。若si近似为0,则说明样本i在两个簇的边界上。silhouette_score 返回的是平均轮廓系数# 评估聚类模型import nu...

2019-12-28 20:58:40 486

原创 python_评估回归模型

评估回归模型均方误差 越小越好R方越接近一越好# load libraries 加载库from sklearn.datasets import make_regressionfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LinearRegression​# ...

2019-12-28 20:46:16 1119

原创 使用python绘制混淆矩阵

使用python绘制混淆矩阵# 可视化分类器性能# load librariesimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_sel...

2019-12-28 20:34:14 1849

原创 分类模型-auc-roc曲线

分类模型-auc-roc曲线真阳性率:假阳性率:参考博客:https://blog.csdn.net/u011630575/article/details/80250177# load libraries 加载库import matplotlib.pyplot as pltfrom sklearn.datasets import make_classificationfrom...

2019-12-27 17:56:59 193

原创 分类评价模型-准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure)

混淆矩阵模型评价标准:TP: 将正类预测为正类数 40FN: 将正类预测为负类数 20FP: 将负类预测为正类数 10TN: 将负类预测为负类数 30准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%精确率(precision) = TP/(TP+FP) =40)/(40+10)= 80% (40)/(40+1...

2019-12-27 16:03:55 4558

原创 创建分类基准模型

创建分类基准模型create dummy classifier 创建仿真 分类模型strategy=‘uniform’ 随机筛选样本strategy=‘strategy’ 使预测结果与训练集中数据比例相同# # 创建基准分类模型from sklearn.datasets import load_irisfrom sklearn.dummy import DummyClassifie...

2019-12-27 15:35:54 651

原创 回归模型评价指标

回归模型评价指标越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好越接近0,表明模型拟合的越差经验值:>0.4, 拟合效果好缺点:数据集的样本越大,R²越大,因此,不同数据集的模型结果比较会有一定的误差参考此博客:https://www.jianshu.com/p/9ee85fdad150...

2019-12-27 15:21:04 9193

原创 将数据预处理加入模型选择过程

将数据预处理加入模型选择过程# 将数据预处理加入模型选择过程import numpy as npfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import GridSearchCVfrom sklearn.pipeli...

2019-12-26 17:38:09 425

原创 从多种学习算法中选择最佳算法模型

从多种学习算法中选择最佳算法模型#12.3 Selecting Best Models from Multiple Learning Algorithms# 从多种学习算法中选择最佳模型import numpy as npfrom sklearn import datasetsfrom sklearn.linear_model import LogisticRegressionfrom...

2019-12-26 17:12:51 547

原创 使用随机搜索选择最佳参数&网格搜索

使用随机搜索选择最佳参数&网格搜索# 라이브러리를 임포트합니다.from scipy.stats import uniformfrom sklearn import linear_model, datasetsfrom sklearn.model_selection import RandomizedSearchCV# 데이터를 로드합니다.iris = datasets....

2019-12-25 22:35:34 906

原创 使用穷举法选择最佳参数模型&网格搜索

使用穷举法选择最佳参数模型&网格搜索# 网格搜索,使用穷举法选择最佳参数模型import numpy as npfrom sklearn import linear_model, datasetsfrom sklearn.model_selection import GridSearchCV# load datairis = datasets.load_iris()feat...

2019-12-25 22:15:47 1116

原创 保存加载keras模型

保存加载keras模型# load libraries 保存和加载 Keras 模型import numpy as npfrom keras.datasets import imdbfrom keras.preprocessing.text import Tokenizerfrom keras import modelsfrom keras import layersfrom...

2019-12-25 17:03:44 236

原创 保存和加载scikit-learn模型

保存和加载scikit-learn模型有时版本不一致,我们保存的时候需要附加上版本21.1 Saving and Loading a scikit-learn Model¶ProblemYou have trained a scikit-learn model and want to save it and load it elsewhere.SolutionSave the mod...

2019-12-25 16:56:33 2175

原创 交叉验证模型评估模型性能

交叉验证模型K折交叉验证详解:https://blog.csdn.net/ChenVast/article/details/79257097cv 用于指示 使用什么样的交叉验证方法scoring 指定衡量标准calculate mean 计算得分平均值 作为总体得分# load librariesfrom sklearn import datasets, metricsfrom s...

2019-12-25 16:48:28 967

原创 # 使用袋外误差评估随机森林模型

在不使用交叉验证的情况下使用袋外误差评估随机森林模型# 使用袋外误差评估随机森林模型 使用袋外样本from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasets​iris = datasets.load_iris()features = iris.datatarget = iris.ta...

2019-12-25 15:55:48 4446 1

原创 adaboost方式进行训练

算法 原理:训练一系列弱模型,每轮训练前为前一轮预测错的样本分配更大的权重参数示例base_estimator:基分类器,默认是决策树,在该分类器基础上进行boosting,理论上可以是任意一个分类器,但是如果是其他分类器时需要指明样本权重。n_estimators:基分类器提升(循环)次数,默认是50次,这个值过大,模型容易过拟合;值过小,模型容易欠拟合。learning_rate:学习...

2019-12-25 15:50:57 299

原创 控制决策树的深度

控制决策树的深度min_samples_split=2,叶子节点需要的最下样本数min_samples_leaf=1,min_weight_fraction_leaf=0,最大叶子节点数max_leaf_nodes=None,执行分裂所需最小不纯度减少量min_impurity_decrease=0)# 控制决策树的规模 树的深度from sklearn.tree impor...

2019-12-25 15:42:43 3908

原创 随机森林_处理不均衡数据

随机森林_处理不均衡数据balanced 加上balanced 参数# 处理不均衡的数据from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsfrom sklearn.feature_selection import SelectFromModel​iris = datasets....

2019-12-22 22:19:10 5495

原创 通过阈值筛选随机森林的重要特征

通过阈值筛选随机森林的重要特征14.7 Selecting Important Features in Random Forests# 筛选重要特征from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasetsfrom sklearn.feature_selection import Sele...

2019-12-22 17:03:52 3666 1

原创 可视化随机森林的特征重要性

可视化随机森林的特征重要性# 查看随机森林的特征重要性import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestClassifierfrom sklearn import datasets​iris = datasets.load_iris()features ...

2019-12-22 16:54:28 8903 3

原创 训练随机森林回归模型 RandomForestRegressor

训练随机森林回归模型 RandomForestRegressorbootstrap 表示是够有放回抽样,还是不放回抽样# 训练随机森林回归模型 RandomForestRegressorfrom sklearn.ensemble import RandomForestRegressorfrom sklearn import datasets​boston = datasets.load...

2019-12-21 11:53:41 4587 1

原创 训练随机森林分类器

训练随机森林分类器随机森林,,每棵树 接收的样本是 随机的,有放回随机抽样,每个节点分裂时特征随机 # 参数方面,可以设置 每个节点的特征数,有放回抽样还是无放回抽样# 训练随机森林分类器from sklearn.ensemble import RandomForestClassifierfrom sklearn import datasets​iris = datasets.loa...

2019-12-21 11:36:59 1129

oracle-drives.rar

oracle11g驱动jar包其中包含classes12.jar ojdbc5.jar ojdbc6.jar包,是oracle 11g程序必不可少的驱动程序,给有需要的朋友提供下载!

2019-12-30

python简明教程

python简明教程,沈洁云翻译,版本1.2,有目录

2016-01-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除