机器学习知识随笔

最新推荐文章于 2023-08-25 01:42:01 发布

是谁的兴啊

最新推荐文章于 2023-08-25 01:42:01 发布

阅读量501

点赞数

分类专栏：秋招笔试面试文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/weixin_44814176/article/details/126341334

版权

秋招笔试面试专栏收录该内容

3 篇文章 0 订阅

订阅专栏

机器学习算法分为：

回归算法：

线性回归

分类算法：

逻辑回归（logistic)：使用logistic函数估计概率，来衡量因变量（待预测的标签）与一个或多个自变量（特征）之间的关系。

朴素贝叶斯——已知类别的情况下，每个变量相互独立。

K近邻——对测试样本进行分类时，先通过扫描训练样本集，找到与该测试样本最相似的个训练样本，根据这个样本的类别进行投票确定测试样本的类别。

决策树（一种有监督的机器学习算法）：

实现逻辑：从训练数据中学习得到一个树状结构的模型。测试时，在树的内部节点处用某一属性值进行判断，根据结果决定进入哪个分支节点，直到到达叶节点处，得到分类结果。
常用确定继续划分集合的三种指标（信息增益、信息增益率、基尼指数）

信息增益:按照某一特征划分数据集后熵的减少量，选择减少量最多的特征进行划分，但是偏好特征取值较多的特征，常见模型ID3（迭代二分器）。
信息增益率：信息增益的基础上除以一个固有值，对取值数目较多的特征有更多惩罚，偏好取值数较少的特征，常见模型C4.5
基尼指数：从样本集D中随机抽取两个样本，其类别标记不一致的概率，因此越小越好

集成学习（通过构建并结合多个学习器完成学习任务）：

Bagging（并行）:核心是投票，少数服从多数，同质弱学习器 独立并行学习。多次采样，每次从训练集中抽取一个固定大小的训练集A，随机重抽样，训练多个分类器，集体投票，旨在减小方差。

常用算法：

随机森林（RF)：用多棵（随机生成的）决策树生成最后的输出结果。

Boosting（串行）:同质弱学习器 顺序串行学习.（强调个体学习器之间存在强依赖关系）基分类器层层叠加，聚焦分错的样本，旨在减小方差。

Boosting主要思想：迭代式学习

该算法主要分为加法模型（强分类器由一系列弱分类器线性相加而成）和前向分步算法（在训练过程中，下一轮迭代产生的分类器是在上一轮的基础上训练得来的。）

基本原理：从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，提高被错误分类的样本的权重，降低被正确分类的样本的权重，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；重复训练直到基学习器数目达到T值，最后将T个基学习器进行加权结合。

常用算法：

AdaBoost ——可用于分类和回归。采样权重是数据实例重要性的衡量指标。
XGBoost——按照广度优先算法展开（层展开）；其在训练前，先对数据进行排序，保存为block结构，迭代中可以重复使用这个结构（预排序）；
GBDT——把所有树的结论累加起来做最终结论，核心在于，每一棵树学的是之前所有树结论和的残差。

Stacking:多次采样，训练多个分类器，将输出作为最后的输入特征，由K-NN、随机森林和朴素贝叶斯基础分类器组成，预测结果由作为元分类器的Loqistic回归组合。

Blending:一种模型融合的方式，第一层通过将训练集出一部分作为holdout set，然后通过剩下的数据生成模型对holdout set进行预测；第二层，直接对预测结果建模生成第二层的模型。

lightGBM——按照深度优先算法展开（带有深度限制的节点展开）；旨在提供一个快速高效、低内存占用、高准确度、支持并行和大规模数据处理的数据科学工具；直方图算法

支持向量机（SVM）：

SVM核函数：

分类：线性核函数、多项式核函数、径向基函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数、Sigmoid核函数
特点：解决小样本下机器学习问题、维度灾难和线性不可分问题；核函数将特征从低维映射到高维，计算在低维进行，分类在高维。
经典loss：Hinge Loss（合页损失函数）