2022-1-27第四章机器学习进阶

最新推荐文章于 2023-12-18 17:00:00 发布

YJF-NJU

最新推荐文章于 2023-12-18 17:00:00 发布

阅读量845

点赞数

文章标签：机器学习概率论人工智能

本文链接：https://blog.csdn.net/weixin_45526009/article/details/122721159

版权

贝叶斯与最大似然估计

最大似然其实就是，从总体采出多个样本，其中每个样本有一个参数，求当参数为多少时，事件的概率最大，
在这里插入图片描述实质；求驻点问题
一般似然函数都会对数化，因为会遇到连乘这样的操作，对数化方便化简
①二项分布的最大似然估计

②正态分布的最大似然估计（两个参数）–方差、均值

（取对数）
(对两个参数分别求偏导)得出参数所表示的意思
在这里插入图片描述

思考：最大似然估计与过拟合（大量的样本数量是否会引起过拟合）
(修正：拉普拉斯平滑项；避免偶然性)

数据清洗、特征选择

①赔率—赔率是概率的倒数
在这里插入图片描述 ②Fuzzywuzzy—数据清洗；Levenshtein distance—数据替换

（使用随机森林对异常值进行预测并填充的方法）

2.对于有些值，是不能数字化进行加减乘除计算的，可以采用one-hot编码进行，但是one-hot编码会让特征数量急剧上升。

4.除了准确率，评价分类模型性能的指标—precision、recall、F1-measure、AUC、AIC/BIC
5.filter函数—计算素数filter（过滤条件，总序列）
L=range(1,101)
def isprimer(n):
flag=1
for i in range(2,n):
if n%i0:
flag=0
if flag0:
return n
filter(isprimer,L)

6.clip函数
在numpy中，clip函数的原型为clip(self, min=None, max=None, out=None)，意思是把小于min的数全部置换为min，大于max的数全部置换为max，在[min,max]之间的数则不变。out返回的是一个数组，这个数值必须和原数值维度相同，不然会报错

降维

降维首选算法PCA—降低特征值维度（原始数据不好画图，只能先降维）

例子：鸢尾花数据（150行，5列（4个特征值、1个目标分类值））
所有的特征之间在空间平面都是互相垂直的
PCA：投影到各个特征值轴上，谁大就是最大的主成分— 可以创建出新的特征组合

定义：
在这里插入图片描述 (主方向：投影之后方差最大—最离散)
(求解公式)
（特征选择（降维）并不意味着预测结果差）
样本的原始特征数量对应使用高阶的训练模型，特征数量其实出现了爆炸式增长，导致过拟合

管道结构：数据—数据清洗—特征选择—特征处理—模型训练

YJF-NJU

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2022-1-27第四章机器学习进阶

贝叶斯与最大似然估计最大似然其实就是，从总体采出多个样本，其中每个样本有一个参数，求当参数为多少时，事件的概率最大，实质；求驻点问题一般似然函数都会对数化，因为会遇到连乘这样的操作，对数化方便化简①二项分布的最大似然估计②正态分布的最大似然估计（两个参数）–方差、均值（取对数）(对两个参数分别求偏导)得出参数所表示的意思思考：最大似然估计与过拟合（大量的样本数量是否会引起过拟合）(修正：拉普拉斯平滑项；避免偶然性)数据清洗、特征选择①赔率—赔率是概率的倒数②Fuzzywuz
复制链接

扫一扫