weixin_46125345-CSDN博客

原创 17 条件随机场：CRF

条件随机场（一）：CRF1 Introduction2 Background2.1 硬分类(Hard classification)2.2 软分类 (Soft classification)2.2.1 概率判别模型2.2.2 概率生成模型2.3 小结3 HMM VS MEMM3.1 Hidden Markov Model3.2 Maximum Entropy Markov Model4 MEMM VS CRF4.1 MEMM 中的Label Bias Problem4.1.1 Label Bias Prob

2021-12-07 10:47:21 246

原创 16 粒子滤波：Particle Filter

16 粒子滤波：Particle FilterDynamic Model 是在概率图模型中加入了时序的因素，所以样本之间不再是独立同分布(i.i.d) 的，而是有依赖关系的。而Dynamic Model 的一个主要特点是，混合模型。因为，我们看到的都是观测变量序列，而每一个观测变量都对应着一个隐变量，隐变量也被称之为系统变量(System Variable)，所以有时我们也将Dynamic Model 称之为State Space Model。而Dynamic Model 我们可以从两个假设，两个方程，三

2021-11-23 10:04:21 643

原创 15 线性动态系统——kalman filter

线性动态系统——kalman filter1 背景1.1 Dynamic Model Introduction1.2 Kalman Filtering: Linear Gaussian Model2 建模和求解2.1 Filtering 问题思路2.2 Filtering 问题求解具体分析2.2.1 Prediction2.2.2 Update我们知道在概率图模型中，加入了time 的因素，就得到了Dynamic Model，实际上也就说我们通常所说的State Space Model。如果状态是离

2021-11-23 10:02:13 860

原创 14 隐马尔可夫模型HMM（Hidden Markov Model）

隐马尔可夫模型HMM（Hidden Markov Model）1 背景1.1 概率图模型回顾1.2 HMM 算法简介1.2.1 两个假设1.2.2 三个问题1.3 什么样的问题需要HMM模型2 Evaluation2.1 模型求解2.2 Forward Algorithm2.3 Backward Algorithm3 Learning3.1 Learning:已知 OOO，求 λ\lambdaλ3.2 求 π(t+1)\pi^{(t+1)}π(t+1)3.2.1 拉格朗日乘子法求解3.3 求 A(t+1)A

2021-11-23 09:17:24 275

原创 13 MCMC(Markov Chain Monte Carlo)

MCMC（Markov Chain Monte Carlo）1 采样方法1.1概率分布采样1.2 拒绝采样(Rejection Sampling)1.3 重要性采样(Importance Sampling)1.4 重要性重采样(Sampling Importance Resampling)2 Markov Chain2.1 基础概念介绍2.2 平稳分布(Stationary Distribution)3 MH采样（Metropolis Hastings Sampling）3.1 Proposal Matri

2021-11-22 22:08:26 555

原创 12 变分推断（Variational Inference）

12 变分推断（Variational Inference）1 背景1.1 优化问题（概率角度）1.1.1 回归1.1.2 SVM (Classification)1.1.3 EM 算法1.2 积分问题（贝叶斯角度）1.3 Inference2 公式推导2.1 公式化简2.2 模型求解3 回顾3.1 数学符号规范化3.2 迭代算法求解3.3 Mean Field Theory 的存在问题4 SGVI：Stochastic Gradient Variational Inference4.1 SGVI 参数规范

2021-11-19 12:50:37 573

原创 11 高斯混合模型：GMM

11 高斯混合模型：GMM1 模型介绍1.1 从几何的角度看1.2 从混合模型角度来看(生成模型)2 极大似然估计：Maximum Likelihood Estimation2.1 Maximum Likelihood Estimation 求解参数2.2 MLE 的问题3 EM进行求解3.1 E-Step3.2 M-Step这一章开始，我们将进入到Guassian Mixture Model (GMM) 的学习。而为什么要学习GMM 呢？这是因为单峰分布已经不能准备的反映数据的分布了。正如下面的一个分布

2021-11-19 12:49:55 693

原创 10 最大期望（EM）

10 最大期望（EM）1 EM 算法简述以及收敛性证明1.1 EM 算法简述1.2 EM 算法的收敛性2 导出公式2.1 从KL Divergence 进行分析2.2 从Jensen Inequality 的角度进行分析2.3 小结3 广义EM3.1 极大似然估计3.2 广义的EM 算法3.3 坐标上升法Expectation Maximization (EM) 算法，中文名字叫做“期望最大”算法，是用来解决具有隐变量的混合模型的参数估计（即其极大似然估计）。在比较简单的情况中，我们可以直接得出我们想要求

2021-11-19 12:49:07 342

原创 9 概率图模型

9 概率图模型1 背景1.1 概率的基本性质1.2 条件独立性1.3 概率图的算法分类1.3.1 Representation1.3.2 Inference1.3.3 Learning2 有向图-贝叶斯网络 Bayesian Network2.1 概率图的三种基本结构2.1.1 Tail to Tail 结构2.1.2 Head to Tail 结构2.1.3 Head to Head 结构2.1.4 三种结构对比2.2 D-Separation2.2.1 D-separation2.2.2 Markov

2021-11-19 12:48:12 441

原创 8 深入了解：指数族分布

8 深入了解：指数族分布1 背景1.1 三大性质1.2 三大重要应用2 高斯分布的指数形式3 对数配分函数 A(η)A(\eta)A(η) 和充分统计量 ϕ(x)\phi(x)ϕ(x) 的关系4 极大似然估计和充分统计量 ϕ(x)\phi(x)ϕ(x)5 最大熵角度5.1 无约束时的最大熵5.2 有约束时的最大熵1 背景指数族是一类分布，包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Dirichlet 分布、Gamma 分布等一系列分布。指数族分布可以写为统一的形式： p(x∣η)=h(

2021-11-18 10:30:33 497

转载 7 核方法

7 核方法1 背景1.1 Kernel Method1.2 Kernel Function1.3 Kernel Track2 正定核的定义2.1 核函数的定义2.2 正定核的定义2.2.1 第一个定义2.2.2 第二个定义2.2.3 Hilbert Space: H\mathcal{H}H2.2.4 证明2.2.4.1 充分性证明2.2.4.2必要性证明3 小结在Support Vector Machine的章节中，我们已经分析了支持向量机前面“两宝”，也就是间隔和对偶，而第三宝，核技巧在这里我们需要

2021-11-18 09:13:01 96

转载 6 深入浅出：支持向量机

6 深入浅出：支持向量机1 硬间隔SVM1.1 模型定义1.1 模型求解：引出对偶问题1.1.1 primal problem原问题1.1.2 dual problem 对偶问题1.1.3 KKT条件1.2 软间隔SVM1.3 约束优化问题1.3.1 弱对偶性证明1.3.2 对偶关系的几何表达1.3.3 对偶关系的Slater Condition的解释1.3.3 对偶关系的KKT条件支撑向量机（SVM）算法在分类问题中有着重要地位，其主要思想是最大化两类之间的间隔。按照数据集的特点：线性可分问题，如之

2021-11-17 21:12:24 96

转载 5 降维 Dimention Reduction

5 降维 Dimention Reduction1 线性降维-主成分分析 PCA1.1 最大投影方差1.2 最小重构代价1.3 从SVD 角度看PCA与PCoA1.4 从概率角度看PCA：p-PCA小结我们知道，解决过拟合的问题除了正则化和添加数据之外，降维就是最好的方法。降维的思路来源于维度灾难的问题，从几何角度来看，我们知道 nnn 维球的体积为： CRnCR^nCRn 那么在球体积与边长为 2R2R2R 的超立方体比值为： lim⁡n→0CRn2nRn=0\lim\limits_{n\rightar

2021-11-17 08:53:50 217

转载 4 线性分类

4 线性分类1 硬分类-两分类1.1 感知机算法 Perception1.2 线性判别分析（Linear Discriminant Analysis，LDA或者Fisher判别分析）2 软输出2.1 概率判别模型：逻辑回归 Logistics Regression2.2 概率生成模型2.2.1 高斯判别分析 GDA2.2.2 朴素贝叶斯 Naive Bayes3 小结对于分类任务，线性回归模型就无能为力了，但是我们可以在线性模型的函数进行后再加入一层激活函数，这个函数是非线性的，激活函数的反函数叫做链接函

2021-11-16 21:54:51 65

转载 3 线性回归：最小二乘法与正则化

3 线性回归：最小二乘法与正则化1 最小二乘法及其几何意义2 概率角度：噪声为高斯分布的 MLE3 正则化3.1 L1 Lasso3.2 L2 Ridge（岭回归）或权值衰减(频率角度来看)4 贝叶斯角度：权重先验也为高斯分布的 MAP5 小结假设数据集为： D=(x1,y1),(x2,y2),⋯ ,(xN,yN)\mathcal{D}={(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_{N})}D=(x1,y1),(x2,y2),⋯,(xN,yN) 后面我们记： X

2021-11-16 17:12:46 370

转载 11 高斯混合模型：GMM

高斯混合模型：GMM1 模型介绍1.1 从几何的角度看1.2 从混合模型角度来看(生成模型)2 极大似然估计：Maximum Likelihood Estimation2.1 Maximum Likelihood Estimation 求解参数2.2 MLE 的问题3 EM进行求解3.1 E-Step3.2 M-Step这一章开始，我们将进入到Guassian Mixture Model (GMM) 的学习。而为什么要学习GMM 呢？这是因为单峰分布已经不能准备的反映数据的分布了。正如下面的一个分布：

2021-11-03 10:25:05 395

转载 10 最大期望(EM)

最大期望（EM）1 EM 算法简述以及收敛性证明1.1 EM 算法简述1.2 EM 算法的收敛性2 导出公式2.1 从KL Divergence 进行分析2.2 从Jensen Inequality 的角度进行分析2.3 小结3 广义EM3.1 极大似然估计3.2 广义的EM 算法3.3 坐标上升法Expectation Maximization (EM) 算法，中文名字叫做“期望最大”算法，是用来解决具有隐变量的混合模型的参数估计（极大似然估计）。在比较简单的情况中，我们可以直接得出我们想要求得的参数的

2021-11-02 22:14:56 79

转载 9 概率图模型

概率图模型

2021-11-02 20:12:54 130

原创 Neural Graph Collaborative Filtering

前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot a

2021-10-25 11:37:34 694

原创 Transformer

Transformer问题问题1.递归（循环）神经网络用于序列建模，比如语言建模和机器翻译，推动了循环语言模型和编码器-解码器体系结构的边界。但是递归神经网络由顺序计算的约束，所以提出注意力机制，不考虑输入输出序列中的距离，绘制全局依赖关系。语言建模和机器翻译数据的数据特点是什么？其他领域是否有类似的数据？序列型数据是否能用attention？是不是所有序列型数据都可以使用attention？什么情形下序列型数据需要attention来提升性能？attention是对于一条循环的序列来看待的

2021-10-25 11:35:24 601

原创 TextRNN

TextRNNtextRNN vs textCNNRNN介绍单向RNNBiRNNLSTMGRUtextRNN的结构第一种结构第二种结构TextRCNN（TextRNN + CNN）textRNN-Attention文本分类二级目录三级目录textRNN vs textCNN1.尽管TextCNN能够在很多任务里面能有不错的表现，但CNN有个最大问题是固定filter的视野，一方面无法建模更长的序列信息，另一方面filter的超参调节也很繁琐。CNN本质是做文本的特征表达工作，而自然语言处理中更常用的是R

2021-10-24 10:03:34 3072

原创 Seq2Seq

Seq2Seq1.经典RNN2.结构Seq2Seq训练二级目录三级目录1.经典RNN2.结构在Seq2Seq结构中，编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由解码器Decoder解码。在解码器Decoder解码的过程中，不断地将前一个时刻 t−1t-1t−1 的输出作为后一个时刻 ttt 的输入，循环解码，直到输出停止符为止。与经典RNN结构不同的是，Seq2Seq结构不再要求输入和输出序列有相同的时间长度！机器翻译Decoder端 ttt 时刻数据

2021-10-22 20:47:04 510

原创 TextCNN

TextCNN基于文本的CNNCNN的特点数据预处理卷积介绍pooling介绍TextCNN卷积的计算过程超参数调参总结基于文本的CNN对于文本分类问题，常见的方法无非就是抽取文本的特征，比如使用doc2evc或者LDA模型将文本转换成一个固定维度的特征向量，然后在基于抽取的特征训练一个分类器。从直观上理解，TextCNN通过一维卷积来获取句子中n-gram的特征表示。TextCNN对文本浅层特征的抽取能力很强，在短文本领域如搜索、对话领域专注于意图分类时效果很好，应用广泛，且速度快，一般是首选；对

2021-10-22 20:46:47 3372

原创 Word2Vec

Word2Vec2.词向量3.为什么不使用one-hot向量？4. word2vec5.跳字模型skip-gram6.连续词袋模型7.近似训练法8.负采样9.层序softmax1.为方便神经网络处理词，需将句子分词，并把这些词通过某些办法映射成词向量。2.词向量是用来表示词的向量，也可被认为是词的特征向量。把词映射为实数域向量的技术也叫词嵌入（word embedding）。3.为什么不使用one-hot向量？因为one-hot 词向量无法表达不同词之间的相似度，例如，任何一对词的 one-hot

2021-10-21 19:17:40 71

原创 Session-based Recommendation with Graph Neural Networks

Session-based Recommendation with Graph Neural Networks欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你

2021-09-24 21:04:52 706

weixin_46125345的博客