2022-1-27第四章机器学习进阶

贝叶斯与最大似然估计

最大似然其实就是,从总体采出多个样本,其中每个样本有一个参数,求当参数为多少时,事件的概率最大,
在这里插入图片描述实质;求驻点问题
在这里插入图片描述一般似然函数都会对数化,因为会遇到连乘这样的操作,对数化方便化简
①二项分布的最大似然估计
在这里插入图片描述
②正态分布的最大似然估计(两个参数)–方差、均值
在这里插入图片描述
在这里插入图片描述
(取对数)
在这里插入图片描述(对两个参数分别求偏导)得出参数所表示的意思
在这里插入图片描述
在这里插入图片描述
思考:最大似然估计与过拟合(大量的样本数量是否会引起过拟合)
在这里插入图片描述(修正:拉普拉斯平滑项;避免偶然性)

数据清洗、特征选择

①赔率—赔率是概率的倒数
在这里插入图片描述②Fuzzywuzzy—数据清洗;Levenshtein distance—数据替换
在这里插入图片描述
(使用随机森林对异常值进行预测并填充的方法)

2.对于有些值,是不能数字化进行加减乘除计算的,可以采用one-hot编码进行,但是one-hot编码会让特征数量急剧上升。

4.除了准确率,评价分类模型性能的指标—precision、recall、F1-measure、AUC、AIC/BIC
5.filter函数—计算素数filter(过滤条件,总序列)
L=range(1,101)
def isprimer(n):
flag=1
for i in range(2,n):
if n%i0:
flag=0
if flag
0:
return n
filter(isprimer,L)

6.clip函数
在numpy中,clip函数的原型为clip(self, min=None, max=None, out=None),意思是把小于min的数全部置换为min,大于max的数全部置换为max,在[min,max]之间的数则不变。out返回的是一个数组,这个数值必须和原数值维度相同,不然会报错

降维

降维首选算法PCA—降低特征值维度(原始数据不好画图,只能先降维)

例子:鸢尾花数据(150行,5列(4个特征值、1个目标分类值))
所有的特征之间在空间平面都是互相垂直的
PCA:投影到各个特征值轴上,谁大就是最大的主成分— 可以创建出新的特征组合

定义:
在这里插入图片描述(主方向:投影之后方差最大—最离散)
(求解公式)
在这里插入图片描述(特征选择(降维)并不意味着预测结果差)
样本的原始特征数量对应使用高阶的训练模型,特征数量其实出现了爆炸式增长,导致过拟合

管道结构:数据—数据清洗—特征选择—特征处理—模型训练

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值