![](https://img-blog.csdnimg.cn/47075d07cf924048b2b6c3a4cf1af8f8.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 93
这篇专栏是机器学习的笔记,是参照菜菜的scikit-learn的课程的相关练习和课堂笔记
桜キャンドル淵
凑个整,就1024吧
展开
-
【机器学习笔记】【降维算法】
3. 定义画图函数#绘制四行十列的图#data的结构必须是(m,n),并且n要能够被分成(8,8)这样的结构#不要显示坐标轴)原创 2022-09-22 23:08:48 · 442 阅读 · 1 评论 -
【机器学习笔记】【特征工程】
数据预处理完成之后就可以进行特征工程了#1.特征提取#2.特征创造#3.特征选择特征提取特征创造特征选择从文字,图像,声音等其他非结构化数据中提取新信息作为特征。比如说,从淘宝宝贝的名称中提取出产品类别,产品颜色,是否是网红产品等等把现有特征进行组合,或互相计算,得到新的特征。比如说,我们有一列特征是速度,一列特征是距离,我们就可以通过让两列相处,创造新的特征:通过距离所花的时间从所有的特征中,选择出有意义,对模型有帮助的特征,以避免必须将所有特征都导入模型去训练的情况。原创 2022-09-18 21:27:41 · 630 阅读 · 5 评论 -
【机器学习笔记】【数据预处理】
对于StandardScaler和MinMaxScaler来说,空值NaN会被当做是缺失值,在fit的时候忽略,在transform的时候保持缺失NaN的状态显示。并且,尽管去量纲化过程不是具体的算法,但在fit接口中,依然只允许导入至少二维数组,一维数组导入会报错。通常来说,我们输入的X会是我们的特征矩阵,现实案例中特征矩阵不太可能是一维所以不会存在这个问题。(通常来说我们现实输入的特征矩阵都是一维以上的数据)原创 2022-09-16 19:18:17 · 2893 阅读 · 10 评论 -
【机器学习笔记】【随机森林】【乳腺癌数据上的调参】
调整完毕,总结出模型的最佳参数score提升效果#调参后的参数减去调参前的参数在整个调参过程之中,我们首先调整了n_estimators(无论如何都请先走这一步),然后调整max_depth,通过max_depth产生的结果,来判断模型位于复杂度-泛化误差图像的哪一边,从而选择我们应该调整的参数和调参的方向。如果感到困惑,也可以画很多学习曲线来观察参数会如何影响我们的准确率,选取学习曲线中单调的部分来放大研究(如同我们对n_estimators做的)。原创 2022-09-14 23:36:12 · 3620 阅读 · 5 评论 -
【机器学习笔记】【随机森林】【回归器】【填充缺失值】
所有的参数,属性与接口,全部和随机森林分类器一致。仅有的不同就是回归树与分类树的不同,不纯度的指标,参数Criterion不一致。predict_proba接口返回每个样本点对应每个类别的概率对于随机森林回归来说没有这个predict_proba接口,为什么?因为它并不存在说每一个样本被分到某一类标签的概率问题,所以没有这个接口。原创 2022-09-13 17:34:13 · 3290 阅读 · 3 评论 -
【机器学习笔记】【随机森林】【分类器】
集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成算法的身影也随处可见,可见其效果之好,应用之广。原创 2022-09-12 15:19:59 · 3004 阅读 · 2 评论 -
【机器学习笔记】【决策树】【泰坦尼克号幸存者的预测】
将我们上面网格搜索的最优的参数带入,得到的打分跟我们上面网格搜索的打分是一样的。这时我们Sex列的数据就全部被转换成了0,1,男的是1,女的是0。数据集可以从下面的网盘中提取。*具有自动拆包的作用。原创 2022-09-11 16:27:45 · 3079 阅读 · 6 评论 -
【机器学习笔记】【决策树】【回归树】
DecisionTreeRegressor回归树几乎所有参数,属性及接口都和分类树一模一样。需要注意的是,在回归树种,没有标签分布是否均衡的问题,因此没有class_weight这样的参数。由于我们的数据都是在我们的训练集上跑出来的,从而形成了我们的模型,但是我们知道数据集的划分都是随机的,我们怎么能够保证我们当前的模型在其他的数据集上跑出来的结果还是相似的呢?怎么才能知道我们当前模型的泛化性到底有多强呢?原创 2022-09-11 10:01:06 · 1474 阅读 · 5 评论 -
【机器学习笔记】【决策树】【分类树】
splitter也是用来控制决策树中的随机选项的,有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。超参数的学习曲线,是一条以超参数的取值为横坐标,模型的度量指标为纵坐标的曲 线,它是用来衡量不同超参数取值下模型的表现的线。的大小,信息增益小于设定数值的分枝不会发生。原创 2022-09-10 11:52:22 · 949 阅读 · 1 评论