【 机器学习】基本概念简介

机器学习

人工智能的三大概念

  • 人工智能 AI

    AI 是研究智能操作的计算代理
    AI 是使用计算机来模拟而不是人脑

  • 机器学习 ML

    使计算机能够在无需明确编程的情况下进行学习的研究领域

    请添加图片描述

  • 深度学习 DL

    也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物
    请添加图片描述请添加图片描述

他们之间的关系:

  • 机器学习是实现人工智能的一种途径
  • 深度学习是机器学习的一种方法发展而来的
    请添加图片描述

AI 发展的三要素 数据 算法 算力

1956年人工智能元年

样本/特征/标签

样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录

特征(feature) :一列数据一个特征,有时也被称为属性

标签/目标(label/target) :模型要预测的那一列数据。本场景是就业薪资
就业薪资 与 培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系
特征如何理解(重点):特征是从数据中抽取出来的,对结果预测有用的信息 eg:房价预测、车图片识别

  • 训练集用来训练模型、测试集用来测试评估模型 。
  • 一般划分比例7:3 ~ 8:2

有监督学习/ 无监督学习 / 半监督学习 / 强化学习

有监督学习

​ 定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的
​ 数据集:需要标注数据的标签/目标值

分类问题

​ 目标值(标签值)是不连续的
​ 分类种类:二分类、多分类

回归问题

​ 目标值(标签值)是连续的

无监督学习

​ 定义:输入数据没有被标记,即样本数据类别未知,没有标签, 根据样本间的相似性,对样本集聚类,以发现事物内部 结构及相互关系。
​ 数据集:不需要标注数据

特点:

​ 1 训练数据无标签

​ 2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

半监督学习

​ 1 让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型
​ 2 再利用该模型去套用未标记的数据
​ 3 通过询问领域专家分类结果与模型分类结果做对比

好处 : 大幅度降低标记成本
强化学习

1 强化学习(Reinforcement Learning):机器学习的一个重要分支
2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理:通过构建四个要素:agent,环境状态,行动,奖励,agent根据环境状态进行行动获得最多的累计奖励。
请添加图片描述

机器学习建模流程

  • 获取数据: 搜集与完成机器学习任务相关的数据集
  • 数据基本处理: 数据集中异常值,缺失值的处理等
  • 特征工程: 对数据特征进行提取、转成向量,让模型达到最好的效果
  • 机器学习:选择合适的算法对模型进行训练 根据不同的任务来选中不同的算法;有监督学习,无监督学习,半监督学习,强化学习
  • 模型评估: 评估效果好上线服务,评估效果不好则重复上述步骤

特征工程

  • 特征提取: 原始数据中提取任务相关的特征
  • 特征预处理: 特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小
  • 特征降维: 将原始数据的维度降低,叫做特征降维,一般会对原始数据产生影响
  • 特征选择: 原始数据特征很多,与任务相关是其中一个特征集合子集,不会改变原数据
  • 特征组合: 把多个的特征合并成一个特征。利用乘法或加法来完成

请添加图片描述

拟合

  • 拟合: 用在机器学习领域 用来表示模型对样本点的拟合情况
  • 欠拟合: 模型在训练集上表现很差 测试集上也表现很差
  • 过拟合: 模型在训练集上表现很好 测试集上表现很差

请添加图片描述

欠拟合产生的原因:模型过于简单
过拟合产生的原因:模型太过于复杂、数据不纯、训练数据太少

泛化 Generalization :具体的、个别的扩大为一般的能力
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,倾向选择较简单的模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值