机器学习课堂笔记

最新推荐文章于 2024-09-29 16:00:34 发布

梦痕泪

最新推荐文章于 2024-09-29 16:00:34 发布

阅读量457

点赞数 4

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_70419833/article/details/141903219

版权

一.算法与流程

1.机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部

署使用以及学习更新。

2.怎么样进行 数据收集

 收集相关的数据（内部业务系统的数据、外部数据）

 外部数据可以通过网络爬虫、购买或交易方式获得。

3. 数据预处理

数据可能存在着噪声、不一致、异常、个人隐私保护等各类

问题。为保证数据的质量，必要的数据治理是需要的。

4. 数据建模

 算法本身没有绝对的好坏，不同的机器学习算法都有各自的

使用范围。

 选择合适的建模方法或算法，算法的好坏需要实验比较确定。

 此阶段是机器学习的核心部分，使用精巧复杂的分析方法从

数据中提取知识，包括选择建模技术、生成测试设计以及构

建和评估模型。

 算法调优（包括参数或结构等方面）

 机器学习算法是科学，应用是艺术。

5.效果评估

 选定模型之后，就可以评估机器学习结果在多大程度上能够

帮助实现业务目标。此阶段的要素包括评估学习结果，以便

为机器学习的过程提供反馈。

 样本测试、现场抽样实验等。

6.分类算法

 回归分析是分析一个变量与其他一个（或几个）

变量之间的相关关系的统计方法。

 分类就是通过分析训练集中的数据，为每个类

别做出准确的描述或建立分析模型或挖掘出分

类规则，然后用这个分类规则对其它数据对象

进行分类。

 决策树、支持向量机、神经网络、朴素贝叶斯、

Bayes 网络、 k- 最近邻等是几种常用的分类方法。

7. 神经网络

 传统的神经网络为BP神经网络，基本网络结构为输入层、隐藏层和输出层，节点代表神经元，

边代表权重值，对输入值按照权重和偏置计算后将结果传给下一层，通过不断的训练修正权

重和偏置。递归神经网络（RNN）、卷积神经网络（CNN）都在神经网络在深度学习上的变种。

 神经网络的训练主要包括前向传输 和 反向传播 。

 神经网络的结果准确性与训练集的样本数量和分类质量有关。

 神经网络是基于历史数据构建的分析模型，新数据产生时需要动态优化网络的结构和参数

8. 机器学习常用算法 聚

 聚类分析是把一个给定的数据对象（样本）

集合分成不同的簇（组）。

 聚类就是把整个数据分成不同的组，并使组

与组之间的差距尽可大，组内数据的差异尽

可能小。

 K-means 是一种常用的聚类算法，用户指定聚

类的类别数K，随机地选择K个对象作为K个初

始聚类中心。对剩余的每个对象，分别计算

与初始聚类中心的距离，根据距离划到不同

的簇。然后重新计算每个簇的平均值，求出

新的聚类中心，再重新聚类。 这个过程不断

重复，直到收敛（相邻两次计算的聚类中心

相同）。

二.统计学理论

1.统计分析的基本概念

监督学习依赖于带有已知标签的数据集进行模型训练，通过比较预测值与真实值调整模型参数。无监督学习无需标签数据，通过聚类、降维等技术探索数据内在结构和隐藏模式。半监督学习利用有限的标签数据和大量无标签数据共同训练模型，提高学习效率和泛化能力。强化学习通过与环境的交互和试错，不断调整策略以获得最大化累积回报，适用于序列决策问题。

2.统计学习方法三要素

策略选择影响模型性能

在机器学习中，策略的选择直接关系到模型泛化能力的高低。合理选择训练算法、参数调整和估准则

能有效提升模型性能。

策略选择影响模型性能

统计学习理论表明，数据的真实分布影响学习策略的有效性。适应数据分布的策略能够减少过拟合，提高模型的准确性。

数据分布影响策略有效性

策略实施前的特征选择能够显著降低数据的维度，选择有信息量的特征可以显著提升机器学习略的性能表现

3.判别模型

Logistic回归与分类决策

Logistic回归通过转换线性模型输出为概率分布，适用于二分类问题，并给出明确的分

类决策边界。

最大熵原理与信息最大化

最大熵模型基于最大熵原理，确保模型在符合已知约束下，对于未知数据保持最大不确

定性，实现信息最大化。

特征选择与模型性能

Logistic回归和最大熵模型对特征选择敏感，合理的特征组合和选择能显著提升模型的

分类性能。

正则化与模型泛化

在Logistic回归和最大熵模型中加入正则化项，能有效防止过拟合，提高模型的泛化能

力，尤其对于高维数据至关重要。

Read

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

梦痕泪 CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

117万+: 周排名

19万+: 总排名

788: 访问

: 等级

29: 积分

10: 粉丝

9: 获赞

0: 评论

14: 收藏

私信

关注

热门文章

最新评论

机器学习课堂笔记
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

【无标题】

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。