机器学习总结（一）

最新推荐文章于 2024-11-01 18:00:13 发布

Mask_AI

最新推荐文章于 2024-11-01 18:00:13 发布

阅读量859

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43648821/article/details/97238530

版权

本文是机器学习的初步总结，涵盖了基本概念，包括有监督学习和无监督学习，局部最优与全局最优。重点讲解了特征工程，包括特征归一化、类别型特征的处理，如独热编码，以及文本表示模型如Word2Vec。同时介绍了模型评估的多种指标，如准确率、精确率、召回率和F1 score。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习总结（一）

一、基本概念

1、有监督学习：输入数据是带有标签的，称为有监督学习。
2、无监督学习：输入数据是不带标签的，称为无监督学习。
3、局部最优：函数值空间的一个有限区域内寻找最小值，这个最小值，是小于或等于附近点的函数值，但是有可能大于较远距离的点；
4、全局最大值：在函数值空间整个区域内寻找最小值。

二：机器学习的学习方式

1、监督学习
特征：监督学习是利用已知正确答案的实例来训练网络，输入数据要和其标签一一对应。
应用场景：分类问题和回归问题
算法：支持向量机、朴素贝叶斯、逻辑回归、K近邻、决策树、随机森林、AdaBoost以及深度学习。
2、非监督学习
特征：数据没有被标识，适用于无标签的数据集
应用场景：关联规则的学习和聚类等
算法：k-Mean算法、Apriopri算法

三、特征工程

特征工程：是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。本质上，特征工程是一个表现和展现的数据的过程。
数据类型有：结构化数据和非结构化数据。

1、特征归一化

为了消除数据特征之间的量纲影响，需要对特征进行归一化处理，都统一到一个大致相同的数值区间内，使得不同指标之间具有可比性。
常用方法：
（1）、线性函数归一化
在这里插入图片描述
（2）、零均值归一化
将原始数据映射到均值为0，标准差为1的分布上。具体来说，假设原始特征的均值为μ、标准差为σ，那么归一化公式定义为