![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
爱吃文字的鲸鱼
这个作者很懒,什么都没留下…
展开
-
数据挖掘task1
【任务1 - 数据分析(2天)】 要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018 任务1:对数据进行探索和分析。时间:2天 数据类型的分析 无关特征删除 数据类型转换 缺失值处理 ……以及你能想到和借鉴的数据分析处理 读入数据 import pandas as pd data = pd.read_csv("F:/data_mining/dat...原创 2019-03-02 15:32:36 · 154 阅读 · 0 评论 -
task4-模型评估
【模型评估(2天)】 记录5个模型(逻辑回归、SVM、决策树、随机森林、XGBoost)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。 from sklearn.metrics import accuracy_score, recall_score, f1_score, roc_auc_score, roc_curve f...转载 2019-03-08 19:13:10 · 172 阅读 · 0 评论 -
task3-模型构建
【模型构建(2天)】 用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。(不需要考虑模型调参) from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC from sklearn.tree import DecisionTreeClassifier ...转载 2019-03-06 20:29:23 · 142 阅读 · 0 评论 -
Task2-特征工程
【特征工程(2天)】 对数据特征进行衍生和进行特征挑选。特征衍生 特征挑选:分别用IV值和随机森林等进行特征选择 ……以及你能想到特征工程处理 特征衍生 特征衍生的方法有: 1.利用决策树、线性组合等方法创造新特征 2.将特征升维 特征挑选: 1.过滤法 2.嵌入法 3.利用IV值和决策树进行特征挑选 参考: https://cloud.tencent.com/devel...原创 2019-03-04 19:53:58 · 144 阅读 · 0 评论 -
task5-模型调优
【模型调优(2天)】 使用网格搜索法对5个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估,记得展示代码的运行结果。 使用网格搜索法对5个模型进行调优 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import Logist...转载 2019-03-11 16:34:07 · 100 阅读 · 0 评论 -
task6-模型融合
【模型融合(2天)】 模型融合,模型融合方式任意,并结合Task5给出你的最优结果。 例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。 from mlxtend.classifier import StackingCVClassifier, StackingClassifier s_clf = StackingCl...转载 2019-03-13 16:34:24 · 153 阅读 · 0 评论