机器学习概念补充

最新推荐文章于 2021-11-02 00:24:36 发布

weixin_43579079

最新推荐文章于 2021-11-02 00:24:36 发布

阅读量84

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43579079/article/details/99666239

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1.过拟合和欠拟合

1.1过拟合：

在调试统计模型的时候，使用了过多的参数，模型对于训练数据拟合上程度过当。
在训练数据上表现很好，但在测试集上表现不好。

解决方法：使用交叉验证，增加样本数，改变超参数（设置范围进行循环）

1.2欠拟合

模型在训练和预测时表现都不好的情况；
欠拟合很容易被发现。

2.交叉验证及参数调整

验证曲线
sklearn.model_selection.validation_curve

参数调整
1.模型自带参数：通过样本学习得到的参数，如：逻辑回归及神经网络中的权重及偏置的学习等。

2.超参数：模型框架的参数，如：kmeans中的k，神经网络中的网络层数及每层的节点个数，通常由手工设定

如何调整参数：
1.交叉验证
sklearn.model_selection.cross_val_score
2.网格搜索
sklearn.model_selection.GridSearchCV

3.特征选择

去除方差小的特征，VaricanceThreshold
极端情况，日过所有样本在某个维度上的特征全都相同，即0方差，说明该特征描述或代表样本的能力很弱；

基于单变量统计特征:
根据单变量统计测试选取特征，SelectKBeat

基于模型的特征选择：
如：随机森林等

4.评价指标补充

不一定是准确率越高越好

4.1 曲线下面积（AUC）

二分类模型的评价指标；
曲线：接受者操作特征曲线（ROC曲线）；
AUC的值就是ROC曲线下的面积；

真阳性（TP）：预测1，真实1；
假阳性（FP）：预测1，真实0；
真阴性（TN）：预测0，真实0；
伪阴性（FN）：预测0，真实1；

True positive rate $\frac{TP}{TP+FN}$
所有实际为1的情况中预测为0；
False positivev rate $\frac{FP}{FP+TN}$
所有实际为0的情况中预测为1；

ROC空间将FPR定义为x轴，TPR为y轴；
根据预测概率和设定的阈值样本划到相应类别中；
选取0-1每个点为阈值，根据所划分的类别分别计算TPR和FPR，描绘在ROC空间内，连接这些坐标点就得到了ROC曲线；

AUC在0-1之间:
0.5<AUC<1:优于随机猜测
0<AUC<0.5:比随机猜测还差

4.2对数损失（logloss）

对每个样本来说，预测样本结果会将其归到某一类中；但有时输出结果是一组概率；
如【0.1 0.8 0.1】被预测为第二个类；
对于这类模型的输出可以用LOGLOSS来评价预测结果，公式如下：

logloss = - $\frac{1}{N}\sum_{i=1}^{N}\sum_{i=1}^{N}y_{i,j}log(p_{i,j})$
其中，N是样本数量，M是类别个数；
如果第i个样本属于第j个类， $y_{i,j}$ 为1，否则为0；
$p_{i,j}$ 是第i个样本被预测为第j类的概率；
sklearn.metics.log_loss

weixin_43579079

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习概念补充

1.过拟合和欠拟合1.1过拟合：在调试统计模型的时候，使用了过多的参数，模型对于训练数据拟合上程度过当。在训练数据上表现很好，但在测试集上表现不好。解决方法：使用交叉验证，增加样本数，改变超参数（设置范围进行循环）1.2欠拟合模型在训练和预测时表现都不好的情况；欠拟合很容易被发现。2.交叉验证及参数调整验证曲线sklearn.model_selection.validation...
复制链接

扫一扫

专栏目录

weixin_43579079 CSDN认证博客专家 CSDN认证企业博客

码龄6年

78: 原创

31万+: 周排名

160万+: 总排名

5万+: 访问

: 等级

1195: 积分

29: 粉丝

28: 获赞

10: 评论

195: 收藏

私信

关注

热门文章

分类专栏

NLP 6篇
C++ 26篇
算法 12篇
python学习 3篇
数据库 1篇
机器学习 11篇
Python数据分析 9篇
CV 1篇
深度学习 9篇

最新评论

CNN介绍
weixin_45843038: 请问有webemo数据集吗
项目：通过行为习惯对移动人口属性（年龄性别）进行预测
狗娃子和翔娃子: 您好博主我想问您一下·，文章开头说20万用户分为12个组，请问分组的规则和依据是什么，方便透露一下吗
项目：微博情感分析（NLTK）
Fontainebleau丶: 有数据源吗
K-means 聚类方法
b1u3_: 感谢博主分享，很有用，学到了！！！
人工神经网络
ndcy: 博主这写的太棒了吧，仔细看下来收获不少！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。