机器学习笔记
文章平均质量分 87
随着今年人工智能概念的兴起,网上已有很多关于机器学习的学习笔记,他们从模型算法原理、python调包实现到模型超参调整均多有概盖述,本文尝试从创建模型算法的数学原理出发,展现一些新的理解。
HadesZ~
HadesZ~的博客主页
展开
-
时序模型:线性条件随机场模型 ( Linear - CRF )
1. 线性条件随机场(Linear-CRF)线性条件随机场(linear chain conditional random field,Linear-CRF)是对隐马尔科夫模型(hidden Markov model,HMM)在更普遍的实际问题上的推广1。隐马尔科夫(HMM)模型假设序列数据具有齐次马尔可夫性和观测独立性,这是对实际问题的两种近似简化。线性条件随机场(Linear-CRF)模型取消了观测独立性假设,并削弱了齐次马尔可夫性假设;Linear-CRF考虑一个模型每时刻隐藏状态,都是受其相邻时原创 2022-03-26 07:34:18 · 4119 阅读 · 0 评论 -
时序模型:循环神经网络(RNN)
1. 循环神经网络(RNN)定义循环神经网络(recurrent neural network, RNN)是一类专门设计处理不定长序列数据的神经网络。与使用一种新计算1作为核心的卷积神经网络不同,循环神经网络仍使用特征的线性组合作为计算核心,并使用共享参数策略使模型能泛化不同长度的序列数据。2. 循环神经网络的由来:从全连接神经网络(DNN)到循环神经网络(RNN)2.1 全连接神经网络的不足最初,研究者直接将时间序列看作特征向量,将序列每一时刻的观测作为一种特征输入全连接神经网络,来预测序列的标原创 2022-02-22 22:44:49 · 11411 阅读 · 0 评论 -
对数线性模型(Log-Linear Model)一种判别式模型的创建框架
Log-Linear Model是一种判别模型算法的创建框架,它并不指某种特定的模型、它指的是一类模型。定义设模型预测共考虑 JJJ 种特征,j=1,2,⋯ ,Jj=1,2, \cdots, Jj=1,2,⋯,J;wjw_jwj 表示模型对第 jjj 种特征的参数,其取值在模型训练过程中估计得到;Fj(X,y)F_j(X, y)Fj(X,y) 表示模型第 jjj 种特征的特征函数(feature function),它表达特征 XXX 和标签 yyy 之间的一些关系,其因变量为用于模型预测的第 jj原创 2022-02-13 14:37:44 · 2723 阅读 · 0 评论 -
EM算法(expectation maximization algorithm)含有隐变量的概率模型参数的极大似然估计方法
引言概率模型的目的是最大化标签在特征条件下的概率分布 P(y∣X;θ)P(y | X; \theta)P(y∣X;θ)。一般来讲,我们可根据给定样本的标签 yyy 和特征 XXX 数据,直接使用极大似然估计法或贝叶斯估计法来估计模型参数 θ\thetaθ。但当标签 yyy 是不可观测的隐变量(hidden variable)时,极大似然估计法或贝叶斯估计法失效,需要使用期望极大算法(expectation maximization algorithm, EM)对模型参数进行极大似然估计。EM算法推导原创 2022-02-14 21:57:09 · 1102 阅读 · 1 评论 -
隐马尔科夫模型(HMM):状态序列预测
c原创 2022-02-12 14:30:10 · 1343 阅读 · 0 评论 -
隐马尔科夫模型(HMM):模型参数估计
原创 2022-02-15 15:53:31 · 1926 阅读 · 1 评论 -
隐马尔科夫模型(HMM):计算观测序列的出现概率
a原创 2022-02-11 11:58:33 · 1205 阅读 · 0 评论 -
时序模型:隐马尔科夫模型(HMM)
隐马尔科夫模型的定义隐马尔科夫模型(hidden Markov model,HMM)描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测从而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态的序列,称作状态序列(state sequence);每个状态生成一个观测而产生的观测的随机序列,称为观测序列(observation sequence)。序列的每一个位置又可以看作是一个时刻。隐马尔科夫模型成立的两个基本假设隐马尔科夫模型解决的三个基本问题观测序列出现概率计算原创 2022-02-07 17:04:25 · 2241 阅读 · 0 评论 -
时间序列模型
0. 时间序列的定义时间序列是一族依赖于时间 ttt 的随机变量,它在统计学上被称作随机过程。设 TTT 是一段无限长时间的时刻实数集,随机过程是依赖于参数 t∈Tt \in Tt∈T 的一族(无限多个)随机变量,记作{X(t),t∈T}\{ X(t), t \in T \}{X(t),t∈T}。其中,TTT 叫做参数集,X(t)X(t)X(t)为 ttt 时刻时随机过程的状态,而 X(ti)=xi,xi∈RX(t_i) = x_i, x_i \in RX(ti)=xi,xi∈R 说成是 tit_原创 2022-02-06 20:15:23 · 2584 阅读 · 0 评论 -
机器学习模型创建的数学原理
机器学习笔记概述:随着今年人工智能概念的兴起,网上已有很多关于机器学习的学习笔记,他们从模型算法原理、python调包实现到模型超参调整均多有概盖述,本文尝试从创建模型算法的数学原理出发,展现一些新的理解。框架从数学原理看,机器学习模型可分为概率模型和非概率模型...原创 2021-12-26 16:36:55 · 773 阅读 · 0 评论 -
L1正则化较少实际应用的原因
正则化是防止模型过拟合的有效手段,训练过程中正则化促使模型参数变小,从而让学得的模型本身变得简单,起到防止过拟合的效果。其中,最常见的是L1与L2正则化。L1与L2正则都具有减小模型参数,使学得的模型更简单的效果。同时,L1正则化还具有稀疏性,能令学得模型的很多参数等于0,起到自动特征选择的作用。那为什么优势更少的L2正则化具有更多的实际应用呢?原来一方面是,与L2正则化在实数域全部连续且可导不同,L1正则化在x=0处导数不存在,对梯度下降优化模型参数具有更大的挑战;另一方面是在特征选择上,L1正则并不原创 2021-12-23 14:19:13 · 1920 阅读 · 0 评论