机器学习概述（2）

最新推荐文章于 2024-10-04 16:37:42 发布

小宇a.

最新推荐文章于 2024-10-04 16:37:42 发布

阅读量778

点赞数 22

分类专栏：机器学习文章标签：机器学习人工智能学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_73124465/article/details/138089642

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了机器学习的基本概念，包括算法分类（有监督、无监督、半监督和强化学习）、建模流程（数据获取、预处理、特征工程、训练和评估），以及特征工程的重要性。还讨论了模型拟合问题，如过拟合和欠拟合，并推荐了Python的scikit-learn库作为开发环境。

摘要由CSDN通过智能技术生成

文章目录

一、机器学习算法分类
有监督学习、无监督学习、半监督学习、强化学习
二、机器学习建模流程
三、特征工程概念入门
特征工程、特征工程子领域
四、模型拟合问题
五、机器学习开发环境
总结

前言

一、机器学习算法分类

机器学习算法可分为有监督学习、无监督学习、半监督学习和强化学习。

知道有这几种之后，我们还要知道：

监督学习是什么？

无监督学习是什么？

半监督学习是什么？

强化学习是什么？

能掌握监督学习、无监督学习的数学表示

1.有监督学习&无监督学习

2.有监督分类问题&回归问题

3.无监督再举例

无监督学习特点：①训练数据无标签

②根据样本间的相似性对样本集进行聚类，发现事物内部结构及相互关系

4.半监督学习

5.强化学习

①强化学习（Reinforcement Learning）：机器学习的一个重要分支

②应用场景：里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

③基本原理：通过构建四个要素：agent，环境状态，行动，奖励，agent根据环境状态进行行动获得最多的累计奖励。

6.机器学习算法分类-总结

7.练习

机器学习算法可分为哪些类别？分别说一说各自的特点？

1 按照学习方式分类可分为:监督学习,无监督学习,半监督学习,强化学习

2 监督学习:输入训练集数据包含输入特征值和目标值回归:函数的输出是一个连续的值分类:函数的输出是有限个离散值

3 无监督学习:输入训练集数据是由输入特征值组成，没有目标值比如：聚类根据样本间的相似性对样本集进行分类

4 半监督学习:训练集同时包含有目标值的样本数据和不含有目标值的样本数据

5 强化学习:智能体不断与环境进行交互，通过获取最大奖励的方式（试错的方式）来获得最佳策略；主要包含四个元素：Agent(智能体)，环境(Environment)，行动(Action)，奖励(reward)

二、机器学习建模流程

1.机器学习建模流程

注：在整个建模流程中，数据基本处理、特征工程一般是耗时、耗精力最多的。

`2.有监督学习模型训练和模型预测`

3.总结

机器学习建模的一般步骤

•获取数据：搜集与完成机器学习任务相关的数据集

•数据基本处理：数据集中异常值,缺失值的处理等

•特征工程：对数据特征进行提取、转成向量，让模型达到最好的效果

•机器学习(模型训练)：选择合适的算法对模型进行训练

•根据不同的任务来选中不同的算法；有监督学习,无监督学习,半监督学习,强化学习

•模型评估：评估效果好上线服务,评估效果不好则重复上述步骤

4.练习

下面关于机器学习建模的流程每个步骤表示如下：

获取数据(3)、数据基本处理(1)、特征工程(6)、机器学习(模型训练) (5)、模型评估(4)、在线服务模型预测(2)。下列流程正确的是：

A)1->2–>3->4->5->6

B)3->1–>6->5->4->2

C)3->1–>6->2->5->4

D)1->3–>6->5->4->2

解析：最后是在线服务模型预测正确答案B

三、特征工程概念入门

1.特征工程概念入门

2.特征工程概念入门--涉及内容

3.总结

①特征工程Feature Engineering

• 特征Feature：对任务有用的属性信息

• 特征工程：利用专业背景知识和技巧处理数据，让模型效果更好

②特征工程的内容

• 特征提取feature extraction：特征向量

• 特征预处理feature preprocessing：不同特征对模型影响一致性

• 特征降维Feature decomposition：保证数据的主要信息要保留下来

• 特征选择feature selection：从特征中选择出一些重要特征训练模型

• 特征组合feature crosses：把多个特征合并组合成一个特征

4.练习

有关特征工程说法正确的？（多选）

A）在机器学习整个工程项目中，一般情况下特征工程往往是耗时、耗精力最多工作

B）特征工程就是处理数据，不重要

C）特征提取一般是做数据的标准化、归一化等工作

D）特征降维会修改原始数据，特征选择不会修改原始数据

E）特征工程的好坏会影响模型的上限，是一项专项的工作；开发者需要掌握

解析：特征工程是很重要的B描述错误；特征提取从无到有的做行列向量数据，C描述错误。特征预处理做数据标准化、归一化前置处理工作。

答案(ADE)

四、模型拟合问题

我们需要解决的问题：

知道拟合是什么？

理解过拟合、欠拟合是什么？

知道过拟合、欠拟合出现的原因

理解泛化是什么？

1.拟合

• 拟合fitting 用在机器学习领域，用来表示模型对样本点的拟合情况

• 欠拟合under-fitting 模型在训练集上表现很差、在测试集表现也很差

• 过拟合over-fitting 模型在训练集上表现很好、在测试集表现很差

2.模型表现效果--欠拟合过拟合--从样本分布角度看

•欠拟合产生的原因：模型过于简单

•过拟合产的原因：模型太过于复杂、数据不纯、训练数据太少

•泛化Generalization：模型在新数据集（非训练数据）上的表现好坏的能力。

•奥卡姆剃刀原则：给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取

3.总结

①过拟合欠拟合？

•拟合：用来表示模型对样本分布点的模拟情况

•模型在训练集上表现很差、在测试集表现也很差，是欠拟合

•模型在训练集上表现很好、在测试集表现很差，是过拟合

②过拟合欠拟合产生的原因

•欠拟合产生的原因：模型过于简单

•过拟合产生的原因：模型太过于复杂、数据不纯、训练数据太少

③泛化概念

•泛化Generalization：具体的、个别的扩大为一般的能力

•奥卡姆剃刀原则：给定两个具有相同泛化误差的模型，倾向选择较简单的模型

4.练习

下列有关过拟合欠拟合说法正确的？（多选）

A）欠拟合：模型学习到的特征过少，无法准确的预测未知样本

B）过拟合：模型学习到的特征过多，导致模型只能在训练样本上得到较好的预测结果，而在未知样本上的效果不好

C）欠拟合可以通过增加特征来解决

D）过拟合可以通过正则化、异常值检测、特征降维等方法来解决

答案：ABCD。解析：A欠拟合出现的原因B过拟合出现的原因C增加模型的复杂度D减低模型复杂度。

五、机器学习开发环境

基于Python的scikit-learn库

1.简单高效的数据挖掘和数据分析工具

2.可供大家使用，可在各种环境中重复使用

3.建立在NumPy，SciPy和matplotlib上

4.开源，可商业使用-获取BSD许可证

安装方法：pip install scikit-learn

官网：https://scikit-learn.org/stable/

基于Python的scikit-learn库

总结

本次学习主要了解机器学习算法分类，知道了几种学习方法；然后学习了机器学习建模流程，先搜集数据集，再模型训练，最后模型评估；对于特征工程，它可以利用专业背景知识和技巧，让模型效果更好，我们还要知道特征工程的内容；在学习模型拟合问题时，要知道拟合、欠拟合、过拟合，最后从模型看出产生的原因；最后给大家提供了机器学习开发环境的安装方法以及官网，希望对各位友友有帮助。谢谢大家！

关注

22
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小宇a. CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

138万+: 周排名

17万+: 总排名

4036: 访问

: 等级

145: 积分

77: 粉丝

93: 获赞

2: 评论

66: 收藏

私信

关注

热门文章

分类专栏

人工智能 1篇
机器学习 3篇

最新评论

利用KNN算法预测乳腺癌是良性还是恶性（pycharm实现）
CSDN-Ada助手: 恭喜作者成功利用KNN算法预测乳腺癌是良性还是恶性，这是一项非常有意义的研究。希望作者能继续保持创作的热情，不断探索更多有趣的机器学习应用领域。建议下一步可以尝试结合其他算法进行对比分析，或者深入研究该领域的相关文献，以提升研究的深度和广度。期待作者更多的优秀作品！
机器学习概述（2）
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
机器学习概述（1）
kobe牢大: 😍😍😍😍

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。