机器学习
文章平均质量分 89
Koorye
什么都想学
展开
-
【机器学习自学笔记8】隐马尔可夫模型(HMM)
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。隐马尔可夫模型的结构HMM 模型是一种生成式模型。HMM 模型中有 2 个相关序列,分别是状态序列和观测序列,HMM 模型具有以下规则:观测序列是可以直接观测的,状态序列是不可观测的状态序列在 t 时刻的值只与 t-1 时刻的值有关观测序列在 t 时刻的值只与 t 时刻状态序.原创 2021-01-25 21:06:06 · 263 阅读 · 1 评论 -
【机器学习自学笔记7】主成分分析(PCA)
PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。维数灾难维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。在机器学习中,随着数据集维数的增加,数据的计算量将呈几何倍数增加,同时样本间的距离会远远增大,这将导致样本数据失去其意义。为了减少计算量、增加准确度,我们有必要按照一定的规则去除一些维度 (特征),这便原创 2020-11-16 17:07:09 · 192 阅读 · 0 评论 -
【机器学习自学笔记6】高斯混合模型(GMM)
我们知道生活中的很多现象,比如身高体重的分布,都满足高斯分布 (正态分布)。而高斯混合模型,则是通过多个高斯分布的叠加,实现对数据集的拟合。高斯分布如果学过概率论,我们知道高斯分布的公式如下:X∼N(μ,σ2)X \sim N(\mu,\sigma^2)X∼N(μ,σ2)生活中的很多现象,比如身高,都近似一种高斯分布:考虑一个问题,如果有一组数据,其中包括男性和女性的身高,比起使用一个高斯分布,使用两个高斯分布拟合的效果是不是更好呢?然而,我们只知道数据集,并不知道分布的参数,高斯混合原创 2020-11-02 20:43:04 · 683 阅读 · 0 评论 -
【机器学习自学笔记5】AdaBoost
AdaBoost 是一种典型的集成学习算法,通过对多个弱学习器的集合,构成一个强学习器。#mermaid-svg-PEJzTS0OP71AzPio .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-PEJzTS0OP71AzPio .label text{fill:#333}#mermaid-svg-PEJzTS原创 2020-10-30 19:19:29 · 164 阅读 · 1 评论 -
【机器学习自学笔记4】朴素贝叶斯分类器
title: 【机器学习自学笔记4】朴素贝叶斯分类器date: 2020-10-29 18:34:29categories: 机器学习tags:机器学习概率论贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。贝叶斯公式P(B∣A)=P(AB)P(A)=P(A∣B)P(B)P(A)P(B|A) = \frac{P(AB)}{P(A)} = \frac{P(A|B)P(B)}{P(A)}.原创 2020-10-29 19:12:13 · 239 阅读 · 2 评论 -
【机器学习自学笔记3】决策树剪枝
决策树如果任其自由生长,很容易产生过拟合。因此,我们有必要对决策树进行剪枝。CART 剪枝算法从"完全生长"的决策树的底端剪去一些子树,使决策树变小(模型变简单),从而能够对未知数据有更准确的预测。CART 剪枝CART 剪枝的思想:从完全生长的整体树 T0T_0T0 的最底端开始不断剪枝直至剪到 T0T_0T0 的根结点为止,形成子树序列 {T0,T1,...,TnT_0, T_1, ... , T_nT0,T1,...,Tn}通过交叉验证法在独立的验证集上对子树序列进行测试,选原创 2020-10-29 18:12:08 · 146 阅读 · 0 评论 -
【机器学习自学笔记2】决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。如果我们有一套数据集:颜色响声甜.原创 2020-10-28 18:05:14 · 151 阅读 · 0 评论 -
【机器学习自学笔记1】信息熵
一直想记录一下机器学习的笔记,奈何水平不足,不过还是想挑战一下自己。话不多说,下面开始。熵**熵 **(entropy) 泛指某些物质系统状态的一种量度,某些物质系统状态可能出现的程度。亦被社会科学用以借喻人类社会某些状态的程度。信息熵信息熵的由来信息熵这个词是C.E.Shannon(香农)从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信息熵是一种衡量信息不确定性的物理量,信息熵越大,信息越难以确定。一个例子:抛一枚硬币,原创 2020-10-28 18:04:32 · 456 阅读 · 0 评论