机器学习总结(一)

本文是机器学习的初步总结,涵盖了基本概念,包括有监督学习和无监督学习,局部最优与全局最优。重点讲解了特征工程,包括特征归一化、类别型特征的处理,如独热编码,以及文本表示模型如Word2Vec。同时介绍了模型评估的多种指标,如准确率、精确率、召回率和F1 score。
摘要由CSDN通过智能技术生成

机器学习总结(一)

一、基本概念

1、有监督学习:输入数据是带有标签的,称为有监督学习。
2、无监督学习:输入数据是不带标签的,称为无监督学习。
3、局部最优:函数值空间的一个有限区域内寻找最小值,这个最小值,是小于或等于附近点的函数值,但是有可能大于较远距离的点;
4、全局最大值:在函数值空间整个区域内寻找最小值。

二:机器学习的学习方式

1、监督学习
特征:监督学习是利用已知正确答案的实例来训练网络,输入数据要和其标签一一对应。
应用场景:分类问题和回归问题
算法:支持向量机、朴素贝叶斯、逻辑回归、K近邻、决策树、随机森林、AdaBoost以及深度学习。
2、非监督学习
特征:数据没有被标识,适用于无标签的数据集
应用场景:关联规则的学习和聚类等
算法:k-Mean算法、Apriopri算法

三、特征工程

特征工程:是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。本质上,特征工程是一个表现和展现的数据的过程。
数据类型有:结构化数据和非结构化数据。

1、特征归一化

为了消除数据特征之间的量纲影响,需要对特征进行归一化处理,都统一到一个大致相同的数值区间内,使得不同指标之间具有可比性。
常用方法:
(1)、线性函数归一化
在这里插入图片描述
(2)、零均值归一化
将原始数据映射到均值为0,标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,那么 归一化公式定义为
在这里插入图片描述

2、类别型特征

类别型特征,主要是指性别、血型等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少量模型能直接使用字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转化为 数值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值