机器学习概述(2)

本文介绍了机器学习的基本概念,包括算法分类(有监督、无监督、半监督和强化学习)、建模流程(数据获取、预处理、特征工程、训练和评估),以及特征工程的重要性。还讨论了模型拟合问题,如过拟合和欠拟合,并推荐了Python的scikit-learn库作为开发环境。
摘要由CSDN通过智能技术生成

文章目录

  • 一、机器学习算法分类
           有监督学习、无监督学习、半监督学习、强化学习
  • 二、机器学习建模流程
  • 三、特征工程概念入门
           特征工程、特征工程子领域
  • 四、模型拟合问题
  • 五、机器学习开发环境
  • 总结


前言

一、机器学习算法分类 

       机器学习算法可分为有监督学习、无监督学习、半监督学习和强化学习。

       知道有这几种之后,我们还要知道:

                监督学习是什么?

                无监督学习是什么?

                半监督学习是什么?

                强化学习是什么?

                能掌握监督学习、无监督学习的数学表示

1.有监督学习&无监督学习

2.有监督分类问题&回归问题

3.无监督再举例

        无监督学习特点:①训练数据无标签

                                     ②根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

4.半监督学习

5.强化学习

        ①强化学习(Reinforcement Learning):机器学习的一个重要分支

        ②应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

        ③基本原理:通过构建四个要素:agent,环境状态,行动,奖励,agent根据环境状态进行      行动获得最多的累计奖励。


6.机器学习算法分类-总结

7.练习

机器学习算法可分为哪些类别?分别说一说各自的特点?

1 按照学习方式分类可分为:监督学习,无监督学习,半监督学习,强化学习

2 监督学习:输入训练集数据包含输入特征值和目标值回归:函数的输出是一个连续的值分类:函数的输出是有限个离散值

3 无监督学习:输入训练集数据是由输入特征值组成,没有目标值比如:聚类根据样本间的相似性对样本集进行分类

4 半监督学习:训练集同时包含有目标值的样本数据和不含有目标值的样本数据

5 强化学习:智能体不断与环境进行交互,通过获取最大奖励的方式(试错的方式)来获得最佳策略;主要包含四个元素:Agent(智能体),环境(Environment),行动(Action),奖励(reward)

二、机器学习建模流程

1.机器学习建模流程

注:在整个建模流程中,数据基本处理、特征工程一般是耗时、耗精力最多的。
 

2.有监督学习模型训练和模型预测

3.总结

机器学习建模的一般步骤

•获取数据:搜集与完成机器学习任务相关的数据集

•数据基本处理:数据集中异常值,缺失值的处理等

•特征工程:对数据特征进行提取、转成向量,让模型达到最好的效果

•机器学习(模型训练):选择合适的算法对模型进行训练

        •根据不同的任务来选中不同的算法;有监督学习,无监督学习,半监督学习,强化学习

•模型评估:评估效果好上线服务,评估效果不好则重复上述步骤

4.练习

下面关于机器学习建模的流程每个步骤表示如下:

获取数据(3)、数据基本处理(1)、特征工程(6)、机器学习(模型训练) (5)、模型评估(4)、在线服务模型预测(2)。下列流程正确的是:

        A)1->2–>3->4->5->6

        B)3->1–>6->5->4->2

        C)3->1–>6->2->5->4

        D)1->3–>6->5->4->2

解析:最后是在线服务模型预测   正确答案B

三、特征工程概念入门

1.特征工程概念入门

2.特征工程概念入门--涉及内容

3.总结

        ①特征工程Feature Engineering

                • 特征Feature:对任务有用的属性信息

                • 特征工程:利用专业背景知识和技巧处理数据,让模型效果更好

        ②特征工程的内容

                • 特征提取feature extraction:特征向量

                • 特征预处理feature preprocessing:不同特征对模型影响一致性

                • 特征降维Feature decomposition:保证数据的主要信息要保留下来

                • 特征选择feature selection:从特征中选择出一些重要特征训练模型

                • 特征组合feature crosses:把多个特征合并组合成一个特征

4.练习

有关特征工程说法正确的?(多选)

A)在机器学习整个工程项目中,一般情况下特征工程往往是耗时、耗精力最多工作

B)特征工程就是处理数据,不重要

C)特征提取一般是做数据的标准化、归一化等工作

D)特征降维会修改原始数据,特征选择不会修改原始数据

E)特征工程的好坏会影响模型的上限,是一项专项的工作;开发者需要掌握

解析:特征工程是很重要的B描述错误;特征提取从无到有的做行列向量数据,C描述错误。特征预处理做数据标准化、归一化前置处理工作。

答案(ADE)

四、模型拟合问题

        我们需要解决的问题:

                知道拟合是什么?

                理解过拟合、欠拟合是什么?

                知道过拟合、欠拟合出现的原因

                理解泛化是什么?

1.拟合

        • 拟合fitting                      用在机器学习领域,用来表示模型对样本点的拟合情况

        • 欠拟合under-fitting        模型在训练集上表现很差、在测试集表现也很差

        • 过拟合over-fitting          模型在训练集上表现很好、在测试集表现很差

2.模型表现效果--欠拟合过拟合--从样本分布角度看

•欠拟合产生的原因:模型过于简单

•过拟合产的原因:模型太过于复杂、数据不纯、训练数据太少

•泛化Generalization:模型在新数据集(非训练数据)上的表现好坏的能力。

•奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

3.总结

        ①过拟合欠拟合?

               •拟合:用来表示模型对样本分布点的模拟情况

               •模型在训练集上表现很差、在测试集表现也很差,是欠拟合

              •模型在训练集上表现很好、在测试集表现很差,是过拟合

        ②过拟合欠拟合产生的原因

              •欠拟合产生的原因:模型过于简单

              •过拟合产生的原因:模型太过于复杂、数据不纯、训练数据太少

        ③泛化概念

              •泛化Generalization:具体的、个别的扩大为一般的能力

              •奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,倾向选择较简单的模型

4.练习

下列有关过拟合欠拟合说法正确的?(多选)

A)欠拟合:模型学习到的特征过少,无法准确的预测未知样本

B)过拟合:模型学习到的特征过多,导致模型只能在训练样本上得到较好的预测结果,而在未知样本上的效果不好

C)欠拟合可以通过增加特征来解决

D)过拟合可以通过正则化、异常值检测、特征降维等方法来解决

答案:ABCD。解析:A欠拟合出现的原因B过拟合出现的原因C增加模型的复杂度D减低模型复杂度。

五、机器学习开发环境

基于Python的scikit-learn库

1.简单高效的数据挖掘和数据分析工具

2.可供大家使用,可在各种环境中重复使用

3.建立在NumPy,SciPy和matplotlib上

4.开源,可商业使用-获取BSD许可证

安装方法:pip install scikit-learn

官网:https://scikit-learn.org/stable/

基于Python的scikit-learn库


总结

本次学习主要了解机器学习算法分类,知道了几种学习方法;然后学习了机器学习建模流程,先搜集数据集,再模型训练,最后模型评估;对于特征工程,它可以利用专业背景知识和技巧,让模型效果更好,我们还要知道特征工程的内容;在学习模型拟合问题时,要知道拟合、欠拟合、过拟合,最后从模型看出产生的原因;最后给大家提供了机器学习开发环境的安装方法以及官网,希望对各位友友有帮助。谢谢大家!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值