![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计学习算法
zcz5566719
这个作者很懒,什么都没留下…
展开
-
【统计学习算法】隐马尔可夫模型HMM
隐马尔可夫模型(hidden Markov model)是可以用于标注问题的统计学习模型,描述由隐藏的马尔可夫链生成观测序列的过程,属于生成模型。马尔可夫模型具有三个参数,状态集合(状态转移概率矩阵),观测集合(观测概率矩阵),初始状态概率向量。这三个参数:λ:N\lambda:Nλ:N个参数A:N∗NA:N*NA:N∗N 对应状态的转移B:N∗MB:N*MB:N∗M 对应每种状态可能的观测值基本假设:齐次性,观测独立性三个基本问题概率计算问题:P(O∣λ)P(O|\lambda原创 2020-05-20 15:54:24 · 617 阅读 · 0 评论 -
【统计学习算法】EM算法
引言:Em算法是一种迭代算法,用于对含有隐变量的概率模型参数的极大似然估计。或者极大后验概率。E步,求解期望;M步,求解极大。也成为期望极大算法。Em算法首先解释隐变量,隐变量是指我们无法观测到的变量,这要是我们需要估计的。三个硬币,A硬币的为正面就第二次投掷B硬币,否则投掷C硬币。并且记录第二次投掷的结果作为观测值。因此我们可以想象,最终第二次的结果是可以被观测的,但是第一次投掷的结果其实是隐含在了第一次投掷的结果里。如果Y表示观测数据,P(Y∣θ)P(Y| \theta)P(Y∣θ)其中θ\t原创 2020-05-16 17:16:49 · 748 阅读 · 0 评论 -
【统计学习方法】提升方法adaBoost
引言:提升方法是一种常用的统计学习方法,在分类问题中,通过改变训练样本的权值,学习多个分类器,并且依据一定的权值对这些分类器进行线性组合,提高分类性能。AdaBoost算法注意:需要区分开不同的权值,首先是在每次训练新的分类器时,每个样本的权值时不同的,也就是wmiw_{mi}wmi表示每个样本的重要程度不同。对于之前预测错误的样本,在新的分类器中会有更大的权重。并且这个权值是需要进行归一化的,如公式8.4对于每一个分类器,在最后的线性组合时也有不同的权重进行线性组合,依据本分类器的对数几率原创 2020-05-16 00:44:15 · 169 阅读 · 0 评论 -
【统计学习方法】支持向量机SVM
正文简介SVM是一种分类算法,实际上是在数据集中设计出了一个超平面,划分开了所有的样本进而进行分类。划分的依据是样本点距离超平面的间隔最大化,这有别于感知机。svm算法实现了寻找最佳的分类平面,并且借助核技巧,svm可以划分非线性可分样本。svm的学习策略是间隔最大化,可以形式上为求解一个凸二次规划问题,也等价于正则化的合页损失函数最小化的问题。svm的学习是在特征空间上进行的。什么是间隔直接开门见山了:可以分为两种间隔,但是都是几何上很容易理解的。首先是函数间隔如果我们对w进行规范化,就可以原创 2020-05-13 00:37:12 · 181 阅读 · 0 评论 -
【统计学习算法】最大熵原理
最大熵原理参考文献核心本质:系统中事件发生的概率满足一切已知约束条件,不对任何未知信息做假设,也就是对于未知的,当作等概率处理。最大熵模型我们希望得到的在满足了所有约束的前提下,其余时间的发生概率都是等概率的,也就是熵最大。我们可以从样本集中知道x的经验概率。因此我们希望得到一个模型p(x∣y)p(x|y)p(x∣y)能够做到H(p)H(p)H(p) 最大。最大熵模型的学习从数据集...原创 2020-05-06 22:40:19 · 558 阅读 · 0 评论 -
【统计学习方法】logistic regression 逻辑斯蒂回归
统计学习方法第六章I参考资料LR回归的核心在于引入了新的平滑函数sigmoid函数,这种函数相比于感知机的符号函数sgn函数好处在于可以求导,可以求导意味着可以进行梯度下降。(在感知机中实际上是最小化 yi(w∗xi+b)y_i(w*x_i+b)yi(w∗xi+b))并且相对于感知机算法,只要wx+b>0wx+b>0wx+b>0就判定为1的策略。再sigmoid的函数帮...原创 2020-05-06 21:30:34 · 198 阅读 · 0 评论 -
【统计学习算法】决策树(ID3算法)
决策树一类基本的回归于分类问题一般包括特征选择,决策树的生成,和决策树的剪枝。决策树的生成对应了模型的局部选择,剪枝对应了模型的全局选择。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。参考文献一、特征选择一般就是就是基于信息论的,信息增益和信息增益率算法。其中ID3采用的是信息增益算法...原创 2020-05-01 17:43:13 · 414 阅读 · 0 评论 -
【统计学习算法】朴素贝叶斯算法
朴素贝叶斯算法是一种分类算法,生成学习算法参考链接朴素贝叶斯的主要优点有:1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。朴素贝叶斯的主要缺点有:1) 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差...原创 2020-05-01 16:45:00 · 299 阅读 · 0 评论 -
【统计学习算法】K近邻法(k-nearest neighbor)
KNN算法是一种多分类算法,也可以用于回归参考资料一、简介KNN最邻近分类算法在分类决策时只依据最邻近的一个或者几个样本的类别来决定待分类样本所属的类别,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。KNN算法的关键:(1) 样本的所有特征都要做可比较的量化若是样本特征中存在非数值的类型,必须采取手段将其量化为数值...原创 2020-05-01 16:21:28 · 334 阅读 · 0 评论 -
【统计学习算法】感知机
感知机算法是一种二分类算法。可以分为基本形式和对偶形式。参考一、简介在二维空间中,感知机模型试图寻找到一个直线区分开所有标签不同的元素。放到三维或者更高维的空间,感知机的模型就是尝试找到一个超平面,能够把所有的二元类别隔离开。当然,如果我们找不到这么一条直线的话怎么办?找不到的话那就意味着类别线性不可分,也就意味着感知机模型不适合你的数据的分类。所以,使用感知机一个最大的前提,就是数据是线...原创 2020-05-01 15:43:41 · 224 阅读 · 0 评论