- 博客(12)
- 收藏
- 关注
原创 集成学习(中)task7
投票法1.投票法分为回归类投票和分类型投票2.其中分类型又分为硬投票和软投票3.硬投票为直接可以选出来分到哪一类4.软投票为概率加和最大的一类5.回归投票为多个模型的平均值6.投票法要求基模型之间不能差别太大,同时由于同质性,如果两个基模型之间的算法方式相近似,效果可能不大好,比如,如果两个模型分别为决策树和随机森林,均为树模型,可能效果并没有那么好#建立数据集from sklearn.datasets import make_classificationx,y=make_classifi
2021-04-13 23:03:02 82
原创 集成学习task6
评估模型性能的方式方式有多种,包括不限于网格搜索,随机网络搜索,混淆矩阵,ROC曲线,贝叶斯优化,学习曲线,管道,k折交叉验证等1.使用网格搜索进行超参数调优from sklearn.pipeline import make_pipelinefrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimpor
2021-03-29 14:27:06 91
原创 集成学习task5
感谢datawhale和知乎账号:小雨姑娘的开源笔记sklearn构建分类项目分类模型的度量指标准确率:metrics.accuracy_score精度:预测为正且分类正确的样本占预测值为正的比例metrics.precision_score召回率:预测为正且分类正确的样本占类别为正的比例metrics.recall_scoreF1值:综合衡量精度和召回率 metrics.f1_scoreROC曲线:metrics.roc_auc_score分类模型1.逻辑回归逻辑回归是根据线性回归引申
2021-03-27 16:07:37 94
原创 零基础入门数据挖掘-心跳信号分类预测task3
特征工程直接上代码#导包import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfrom tsfresh.utilities.dataframe_functions import impute数据在前面已经导入# 对心电特征进行行转列处理,同时为每个心电信号加入时间步特征timetrain_heartbeat_df = t
2021-03-22 17:59:01 230
原创 零基础入门数据挖掘-心跳信号分类预测task2
导包以及载入数据import warningswarnings.filterwarnings('ignore')import missingno as msnoimport pandas as pdfrom pandas import DataFrameimport matplotlib.pyplot as plt import seaborn as snsimport numpy as nptrain = pd.read_csv(r'C:\Users\Administrator\Des
2021-03-17 15:24:14 153
原创 集成学习task2
2.1.1线性回归的推广1.多项式的回归将标准的线性函数换成一个多项式函数但是阶数d不宜过大,否则容易造成过拟合,一些噪声点也会拟合到,从而让模型的稳定性变差// A code blockvar foo = 'bar';// An highlighted blockfrom sklearn.preprocessing import PolynomialFeaturesx_arr=np.arange(6).reshape(3,2)print('原始矩阵为:',x_arr)poly=Po
2021-03-17 10:36:31 120
原创 集成学习task1
机器学习的分类:有监督学习,无监督学习有监督学习:有因变量,有特征向量,预测结果和未来,即有x和y无监督学习:有x但是没有y,自行探索数据结构1.1回归下面展示一些 内联代码片。// A code blockvar foo = 'bar';// An highlighted blockfrom sklearn import datasetsboston=datasets.load_boston()x=boston.datay=boston.targetfeatures=boston
2021-03-15 22:50:50 62
原创 2021.2.24
基于渔佬和阿水哥的baseline,将bike_fence[‘FENCE_CENTER’]的精度进行改进,precision扩大到12,效果并不是明显,下一步将从FENCE_AREA的计算和bike_fence[‘FENCE_CENTER’]进行改进
2021-02-24 20:37:49 113
原创 DCIC2021--17分
下面展示一些 内联代码片。// A code blockvar foo = 'bar';import os, codecsimport pandas as pdimport numpy as npbike_track = pd.concat([ pd.read_csv(r'C:\Users\Administrator\Desktop\数据竞赛\dcic\gxdc_gj20201221.csv'), pd.read_csv(r'C:\Users\Administrator\De
2021-02-19 21:10:19 188
原创 Power Query for Excel
1. Power Query 功能1.数据获取2.数据转换3.数据处理2. 自定义列功能为可以新增一列,该列的运算可以自行定义,用Excel也可以解决添加列—自定义列—修改名称—公式3. 追加查询可以将多个工作表汇总为一个,或者多个工作簿汇总为一个,VBA也可以做到1.多个工作簿汇总获取数据选取文件夹—选择table数据列,删除其他列—添加自定义列—输入公式—删除原列,展开新列,上载此方法可以用于多个工作簿多个工作表或多个工作簿单个表公式:使用VBA,新建一个空的工作簿—VB—
2020-07-11 15:34:35 1198
原创 Matlab数据挖掘基础笔记
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2019-12-05 20:34:15 605
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人