独热码、机器学习的经验风险最小化、SVM

文章介绍了独热编码用于处理分类数据,经验风险最小化中的极大似然估计和损失函数的概念,特别是对数损失函数的作用。同时,详细阐述了支持向量机(SVM)作为二分类模型的基本原理,以及如何通过高维映射解决非线性问题。
摘要由CSDN通过智能技术生成

独热编码

独热编码(one-hot encoding)解决了分类器不好处理属性数据的问题,N位状态寄存器,只有一位有效。

例子: 自然状态码为:000,001,010,011,100,101
独热编码为:000001,000010,000100,001000,010000,100000
参考链接

经验风险最小化

首先明确,经验风险最小化的一个例子是极大似然估计,那么找到最有可能的大概率值即可。

1.极大似然估计
极大似然估计:利用已知的样本结果信息,反推最有可能(最大概率)导致这些样本结果出现的模型参数值。干脆就把这个参数作为估计的真实值。
参考链接

2.损失函数
损失函数有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。
对数损失函数(也叫对数似然损失函数):L(Y,P(Y|X)) = - logP(Y|X)
损失函数值越小,模型就越好。

3.期望风险Rexp(f)
损失函数的期望是
在这里插入图片描述
这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数或期望损失。其中,输入X,输出真实值Y,预测值f(X)

4.经验风险
经验风险
在这里插入图片描述
当样本容量趋于无穷时,经验风险趋于期望风险。

5.经验风险最小化(ERM)
经验风险最小化的策略认为,经验风险最小的模型就是最优的模型,F是假设空间。当样本容量足够大,经验风险最小化能保证很好的学习效果。在这里插入图片描述
极大似然估计 就是经验风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
在这里插入图片描述

参考链接这个链接很好

支持向量机SVM (support vector machine)

定义:支持向量机是个二分类问题,一条直线将两个类分开,这条直线的优化量度d尽可能大。直线擦过的向量叫做支持向量
数学定义:
①训练数据及标签(X1,y1)、(X2,y2)…(Xn,yn),其中,Xi表示向量;yi表示标签,yi=+1或者-1
②线性模型(w,b),其中,w表示向量,b表示常数,W^T* X也是一个常数。
我们拥有数据集x,y和模型(见下图)之后,目标就是解出最优的w和b。然后再将数据进行分类。
在这里插入图片描述

如何解决二维线性问题转换成高维非线性问题?
引入一个高维映射φ(X),转换成高维的线性问题。
在这里插入图片描述
参考教材《西瓜书》(周志华老师的《机器学习》)、浙大老师的机器学习视频SVM系列只看了1-5个视频,剩下的有空再看

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值