一、学习知识点摘要
1、逻辑回归模型
2、树模型
3、集成模型
4、模型对比与性能评估
5、模型调参
二、学习内容
(一)、逻辑回归模型
1、理解逻辑回归模型
• 线性回归 → 线性回归+阈值 → 逻辑回归
• 逻辑回归模型就是将线性回归模型的结果(连续值)映射为一个概率值(0-1),由此,在数学上找到了神奇的sigmoid函数:
所以我们定义线性回归的预测函数为Y=(W^T)X,那么逻辑回归的输出就是Y=g[(W^T)X],其中y=g(z)函数正是上述sigmoid函数(S形函数)
• 判定边界(边界两旁是不同类别的数据) 样本点+逻辑回归 → 判定边界
• 代价函数与梯度下降
代价函数是一种衡量我们在这组参数下预估的结果和实际结果差距的函数 →
2、逻辑回归模型的应用
3、逻辑回归的优缺点
优点:将原本输出结果范围可以是很大的数通过sigmoid函数映射到(0-1),从而完成概率的估测
缺点:过程较为繁琐
(二)、树模型(ID3算法)
1、理解树模型
• 构建方法:从根结点(root node)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为止,最后得到一个决策树。ID3相当于用极大似然法进行概率模型的选择。
• 递归终止的条件:第一个为所有类标签相同,则直接返回该类标签;第二个是使用完所有特征之后,仍然不能把数据划分为仅包含一个类别的分组,此时返回数量值最多的类别。
• 决策树可视化(使用Matplotlib)
getNumLeafs:获取决策树子结点的数目
getTreeDepth:获取决策树的层数
plotNode:绘制结点
plotMidText:标注有向边属性值
plotTree:绘制决策树
createPlot:创建绘制面板
2、树模型的应用
Sklearn之使用决策树预测隐形眼镜类型
使用Graphviz可视化决策树
3、树模型的优缺点
优点:决策树可以可视化;
几乎不需要数据预处理,其他方法经常需要数据标准化,创建虚拟变量和删除缺失值。决策树还不支持缺失值;
使用树的花费是训练数据点数量的对数;
可以同时处理数量变量和分类变量;
可以处理多值输出变量问题;
使用白盒模型,如果一情况被观察到,使用逻辑判断容易表示这种规则;
即使对真实模型来说,假设无效的情况下,也可以较好的适用;
缺点:可能会产生过拟合的情况;
不稳定;
对样本和特征随机抽样可以降低整体效果偏差;
概念复杂度高,难以学习;
(三)、集成模型
1、基于bagging思想的集成模型
2、基于boosting思想的集成模型
(四)、模型对比与性能评估
1、回归模型/树模型/集成模型
2、模型评估方法:将已有的数据集划分为训练集和测试集两部分,其中训练集用来训练模型,而测试集则是用来评估模型对于新样本的判别能力
• 数据集的划分有三种方法:留出法、交叉验证法和自助法。
3、模型评价结果
(五)、模型调参
1、贪心调参方法
2、网格调参方法
3、贝叶斯调参方法
三、学习的问题与解答
由于本task介绍了很多种模型以及调参的方法,学起来非常吃力,还在消化的阶段,没有办法产生什么特别的疑问,故这次的学习笔记中没有问题与解答。对于学习过程中产生的疑惑都是知识本身的不理解,在仔细学习内容之后,都能得到一定程度上的解决。
四、学习的思考与总结
1、此次task的学习,明显感到非常吃力,很多模型和函数都从未了解过,经过这几天的学习也只是留在了解这一层面,并不能做到掌握
2、调参的方法需要很多其他方面的知识辅助理解,但笔者只是个小白,需要学习的东西还有很多
3、希望在后续补充学习了其他知识后,能够重新回来学习这一部分内容!