机器学习
文章平均质量分 79
xjtuyuxin
这个作者很懒,什么都没留下…
展开
-
ONE HOT 编码
一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。 在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,如下面的例子:转载 2017-10-23 14:25:08 · 304 阅读 · 0 评论 -
集成学习
集成学习bagging是一种并行集成学习的代表方法,bootstrap aggregating。先对数据进行采样获得基分类器,然后将基分类器进行结合。M个样本的训练集进行M次有放回抽样,则有1-1/e的样本会被抽到。bagging得到的算法复杂度是T(O(M)+O(S)),与基分类器同阶。bagging主要关注降低方差,在易受扰动的学习器上效果明显。如不剪枝的决策树,神经网络等。rf(随机森林)是...原创 2018-04-17 10:10:28 · 272 阅读 · 0 评论 -
决策树
决策树的特征选择特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树的学习效率。通常特征选择的准则是信息增益和信息增益比。熵,表示随机变量不确定性的度量。熵越大,随机变量的不确定性越强。条件熵H(Y|X)表示在一直随机变量X的条件下随机变量Y的不确定性。当熵和条件熵由参数估计得到时(特别是极大似然估计)称为经验熵和条件经验熵。信息增益,g(D|A)=H(D)-H(D|A)。相当于类与特...原创 2018-04-17 10:27:34 · 242 阅读 · 0 评论 -
决策树剪枝
决策树是一种基本的分类与回归方法。分类决策树是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成。结点由两种类型,内部结点表示一个特征或属性,叶结点表示一个类。1. 基础知识熵在信息学和概率统计中,熵(entropy)是表示随机变量不确定性的度量。设XX是一个取有限个值得离散随机变量,其概率分布为:P(X=xi)=pi,i=1,2,3,...,nP(X=xi)=pi,i=1,2,3,......原创 2018-04-17 10:54:37 · 181 阅读 · 0 评论