- 博客(9)
- 收藏
- 关注
原创 决策树损失函数
决策树损失函数一.决策树的损失函数二.如何理解在学习决策树的过程中,会存在损失函数。损失函数是什么呢?如何理解?一.决策树的损失函数为了避免出现过拟合的现象,我们要对决策树进行剪枝。决策树的剪枝类似一种参数正则化的过程,其选择正则化的参数是树的叶子节点的个数。设决策树 T 的叶子节点个数为 |T|,t 是树 T 的叶子节点,该叶节点有 Nt 个样本点,其中 k 类的样本点有 Ntk 个,...
2019-11-12 23:16:22 2292
转载 最小二乘法,最大似然估计
最小二乘法,最大似然估计一.最小二乘法1.基本思想2.作用3.如何求解最小二乘法二.最大似然估计1.概念2.似然估计的思想是3.如何求解最大似然估计三.最小二乘法和最大似然估计的联系和区别四总结一.最小二乘法最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小...
2019-11-11 19:19:39 1097
原创 数据离散化
数据离散化的原因1.离散化的原因1.1 算法的需要1.2离散化的特征更好的理解1.3可以有效的克服数据中隐藏的数据缺陷2.离散化的优势3.总结在机器学习中,常常有这样的一个做法,就是将数据给离散化,下面我们将探讨一下,为什么要将数据给离散化,这样做有什么好处呢?1.离散化的原因数据离散化是指将连续性的数据进行分段,让他变成一段段离散化的区间, 分段的原则有:等距离分段,等频率或优化的方法1...
2019-11-10 18:49:53 1993
原创 特征归一化的好处
特征归一化的好处1、什么是特征归一化?2、为什么要进行特征归一化?3 、特征归一化的方法3.1线性函数归一化(Min-Max Scaling)(数据归一化)3.2零均值归一化(Zero-Score Normalization)(数据标准化)4、特征归一化的好处?4.1提高收敛速度4.2提升模型的精度4.3深度学习中数据归一化可以防止模型梯度爆炸5.总结在机器学习中我们经常需要将特征归一化,下面我...
2019-11-10 18:19:18 1084
原创 离散型特征变量编码方式
离散型特征变量编码方式1.什么是One_Hot?1.1具体例子演示One_Hot在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征,我们会对连续型特征进行离散化操作,然后再对离散的特征,进行one...
2019-11-10 17:55:52 910
原创 论cut 和qcut的爱恨情仇
论cut 和qcut的爱恨情仇1.cut的作用2.cut的引用方式3.cut的参数4.实际代码演示cut用法4.21当bins为其他类型时候4.31当labels为布尔类型时候5.qcut的作用6.qcut的参数7.代码的方式观察qcut的用法7.1 传入参数x和q7.2传入lables参数8.总结在数据处理的过程中,我们需要将连续型的数据进行离散化,下面我们就探讨一下,将连续性数据离散化的两...
2019-11-10 17:13:03 551
原创 震惊!2019年都快结束了你还不会过拟合????
过拟合是机器学习过程中的一种现象什么是过拟合为了得到一致假设而使假设变得过度严格称为过拟合。过拟合的定义给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据过拟合是什么原因造成的呢?(1)建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数...
2019-11-06 20:24:36 216
原创 用代码的方式实现梯度下降算法
三种梯度下降方式一 批量梯度下降算法创建一元线性方程import numpy as npimport os%matplotlib inlineimport matplotlib.pyplot as plt# 随机种子np.random.seed(42)# 保存图像PROJECT_ROOT_DIR = "."MODEL_ID = "linear_models"# 定义一...
2019-11-05 20:28:19 657
原创 浅谈机器学习之批量梯度下降
浅谈机器学习之批量梯度下降机器学习机器学习和人工学习机器学习分类回归和分类连续变量和离散变量机器学习三要素模型策略算法梯度下降方法方法1方法2以上方法采用的是批量梯度下降的方法梯度下降的方式还有随机梯度下降方法和小批量梯度下降的方法机器学习 机器学习是一门多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织...
2019-11-04 19:17:01 454
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人