自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据挖掘十大算法

数据挖掘十大算法:1.EM算法;2.朴素贝叶斯算法;3.CART决策树;4.支持向量机;5.AdaBoost;6.k均值聚类;7.k近邻算法;8.Apriori算法;9.PageRank算法;10.C4.5算法1.EM算法用于隐参数估计,计算过程使用极大似然估计:1.随机假设1个可能的后验分布;2.反向推断因参数的可能取值λ;3.再由λ计算后验概率;4.再计算新λ……5.将各个步骤λ结果加权平均,得到可能值2.朴素贝叶斯利用先验概率推导后验概率:由数据集已知情况根据

2020-06-27 11:37:01 362

原创 统计学习方法之逻辑斯蒂回归

首先,有逻辑斯蒂分布,及其概率密度函数-> 二项逻辑斯蒂回归模型将u及常数γ换为w*x+b形式(当y = 0 时)二项事件概率为p则几率为可能发生与不可能发生的比值:p/(1-p)逻辑斯蒂回归中,输入x对y=1的几率的对数是x的线性函数可用似然函数估计逻辑斯蒂模型参数概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。例如,对于“...

2020-02-18 01:14:55 259

原创 统计学习方法学习笔记

决策树决策树可用ID3、C4.5、CART算法生成树分树枝时可通过信息增益确定主分支信息增益也是特征选择的一种方式信息增益比可作为决策时特征决策树剪枝还需要在研究一下每日一学字典查找类似hash表,速度远超过for遍历列表。 for index,value in enumerate(s): """.get函数两个参数时,第二个应重新字典引用,见下面使用方法"...

2020-02-17 03:07:34 131

原创 统计学习方法K近邻、朴素贝叶斯法

K近邻法本书为分类K近邻法,多分类。查找最近邻,kd树方法1.制造kd树,2.搜索最近叶节点,间距画圆3.向上找到父节点,搜索父节点的叶节点找最近距离4.continue距离度量Lp范数朴素贝叶斯估计极大似然估计:P(Y=Ck)=Ck的数量/总数量NCk的条件下X等于某数值a的概率 = X集合同一位置a=Ck的个数/Ck的总数朴素贝叶斯估计使用极大似然估计作为概率预测值...

2020-02-16 01:44:34 184

原创 感知机模型理解

统计学习方法学习笔记感知机模型感知机模型是线性二分类模型,输出Y取二值-1,+1y = sign(w*x+b)分类超平面 w*x+b = 0,超平面因为输入是多维特征loss:1.误分类点的个数:不好,不可导,不易优化2.误分类点的到超平面的距离,常用3.感知机模型loss可计算至0,线性平面将两类完全分开学习过程1.梯度下降,每次只随机选取一个误分类点2.对loss求导,...

2020-02-15 02:13:44 551

原创 精度很高?论AUC的重要性

AUC的重要性今天使用Dense预测Titanic生存数据,深刻体会到了AUC的重要性。使用2层Dense准确率从0.6直接升到最高0.96,兴冲冲去做O2O优惠券使用预测,做完发现精确度提高很大,结果一算AUC悲剧了……AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的...

2020-02-14 00:41:42 2610

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除