自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 LDA到主题模型

先说说LDA这名字LDA(Latent Dirichlet Allocation)Latent – 隐Dirichlet – 狄利克雷Allocation – 分配再说说Dirichlet分布LDA里面的D就是指的Dirichlet分布,它基本上就是一个分布的分布。Dirichlet分布的公式长这样(下图),其中x的数量=α\alphaα的数量Dirichlet分布可以有多维度...

2019-12-01 21:30:32 255

原创 混合模型聊EM算法

直接上问题现在有俩盒子A和B,装着一模一样的硬币们。然后小明手上有个装了些纸团的盒子,纸团颜色有红色和绿色。有这么个问题,小明需要先从纸团盒子里掏纸,如果是红面,那他就从盒子A里面随便掏出一枚硬币扔,记录是正是反,如果是从纸团盒子里掏纸的颜色是绿色,他就从盒子B里面随便掏出一枚硬币扔,记录是正是反。现在小明照着这个有病的路子操作了,记录结果是[正,反,正,正,正,反,反,正,反,正]。他把这记...

2019-11-15 01:29:44 323

原创 word2vec的cbow

cbow的目的是用一个词附近的几个词来表示这个词,比如一句话“曾经有一份真诚的爱情摆在我的面前“cbow就是要用神经网络把“曾经有一份真诚的”和“在我的面前”这两坨东西来“爱情”嗨哟一点就是word2vec需要一个语料库,就是一堆词用这句话当栗子这两坨东西(“曾经有一份真诚的”,“在我的面前”)是在“爱情”前后,我们叫做“爱情”的上下文(context)1. 先分一波词1.1 把“曾...

2019-11-13 00:37:30 384

原创 简单说说TF-IDF

英文名term frequency–inverse document frequency举个栗子来计算现在有一篇文章,里面 100个字儿,其中“派大星”出现了5次,则“派大星”这个词在这篇文章中的TF(词频)值就是5/100=0.05(TF=0.05)接下来是逆向文件频率 (IDF) 。如果有10份儿这样的文章里面包含了“派大星”,而文章的总份数是10000,则IDF的值是lg(1000...

2019-11-08 17:06:16 272

原创 Semantic Similarity (语义相关性)

Semantic Similarity 语义相关性先上个栗子编个码开始相似度计算了(Similarity Calculation)引用先上个栗子有这么一坨文字… and the cute kitten purred and then …… the furry cat purred and miaowed …… that the small kitten miaowed and she …...

2019-11-08 16:22:21 1876

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除