十大经典算法
数据统计分析与挖掘
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯
朴素贝叶斯应用场景:源于推理的需要,例如:通过商品的描述(特征X)来推理商品的类别(Y)。“朴素”:特征与特征之间是独立的,互不干扰。如果特征比较多时,往往独立性的条件不重要(互相抵消),可以用朴素贝叶斯。训练的时候:得出条件概率表推理的时候:比较条件概率的大小特点:训练容易,推理难搜索公共号“数据统计分析与挖掘”或扫描二维码,在公众号中回复“资源”,获取所需资源。...原创 2020-03-12 17:43:18 · 343 阅读 · 0 评论 -
随机森林---代码下载
随机森林(集成算法中最简单的,模型融合算法)随机森林如何缓解决策树的过拟合问题,又能提高精度?a. Random Forest, 本质上是多个算法平等的聚集在一起。每个单个的决策树,都是随机生成的训练集(行),随机生成的特征集(列),来进行训练而得到的。b. 随机性的引入使得随机森林不容易陷入过拟合,具有很好的抗噪能力,有效的缓解了单棵决策树的过拟合问题。c. 每一颗决策树训练样本...原创 2020-03-12 17:41:39 · 355 阅读 · 0 评论 -
决策树---代码下载
决策树(有监督算法,概率算法)a. 只接受离散特征,属于分类决策树。b. 条件熵的计算 H(Label |某个特征) 这个条件熵反映了在知道该特征时,标签的混乱程度,可以帮助我们选择特征,选择下一步的决策树的节点。c. Gini和entropy的效果没有大的差别,在scikit learn中默认用Gini是因为Gini指数不需要求对数,计算量少。d. 把熵用到了集合上,把集合看成随...原创 2020-03-12 17:40:31 · 220 阅读 · 0 评论 -
SVM(Support Vector Machine)支持向量机 ----代码下载
SVM(Support Vector Machine)支持向量机a. SVM算法是介于简单算法和神经网络之间的最好的算法。b. 只通过几个支持向量就确定了超平面,说明它不在乎细枝末节,所以不容易过拟合,但不能确保一定不会过拟合。可以处理复杂的非线性问题。c. 高斯核函数d. 缺点:计算量大搜索公共号“数据统计分析与挖掘”或扫描二维码,在公众号中回复“资源”,获取...原创 2020-03-12 17:39:27 · 229 阅读 · 0 评论 -
数据挖掘中的十大经典算法---下载
数据挖掘十大算法----下载数据挖掘十大算法,来自2006年数据挖掘大会搜索公共号“数据统计分析与挖掘”或扫描二维码,在公众号中回复“资源”,获取所需资源。...原创 2020-03-12 17:29:41 · 167 阅读 · 0 评论