贝叶斯与最大似然估计
最大似然其实就是,从总体采出多个样本,其中每个样本有一个参数,求当参数为多少时,事件的概率最大,
实质;求驻点问题
一般似然函数都会对数化,因为会遇到连乘这样的操作,对数化方便化简
①二项分布的最大似然估计
②正态分布的最大似然估计(两个参数)–方差、均值
(取对数)
(对两个参数分别求偏导)得出参数所表示的意思
思考:最大似然估计与过拟合(大量的样本数量是否会引起过拟合)
(修正:拉普拉斯平滑项;避免偶然性)
数据清洗、特征选择
①赔率—赔率是概率的倒数
②Fuzzywuzzy—数据清洗;Levenshtein distance—数据替换
(使用随机森林对异常值进行预测并填充的方法)
2.对于有些值,是不能数字化进行加减乘除计算的,可以采用one-hot编码进行,但是one-hot编码会让特征数量急剧上升。
4.除了准确率,评价分类模型性能的指标—precision、recall、F1-measure、AUC、AIC/BIC
5.filter函数—计算素数filter(过滤条件,总序列)
L=range(1,101)
def isprimer(n):
flag=1
for i in range(2,n):
if n%i0:
flag=0
if flag0:
return n
filter(isprimer,L)
6.clip函数
在numpy中,clip函数的原型为clip(self, min=None, max=None, out=None),意思是把小于min的数全部置换为min,大于max的数全部置换为max,在[min,max]之间的数则不变。out返回的是一个数组,这个数值必须和原数值维度相同,不然会报错
降维
降维首选算法PCA—降低特征值维度(原始数据不好画图,只能先降维)
例子:鸢尾花数据(150行,5列(4个特征值、1个目标分类值))
所有的特征之间在空间平面都是互相垂直的
PCA:投影到各个特征值轴上,谁大就是最大的主成分— 可以创建出新的特征组合
定义:
(主方向:投影之后方差最大—最离散)
(求解公式)
(特征选择(降维)并不意味着预测结果差)
样本的原始特征数量对应使用高阶的训练模型,特征数量其实出现了爆炸式增长,导致过拟合
管道结构:数据—数据清洗—特征选择—特征处理—模型训练