自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

红豆的博客

this is my blog

  • 博客(13)
  • 收藏
  • 关注

原创 马尔科夫模型

一、马尔科夫模型处理的是什么问题,什么思路来解决二、隐马尔科夫模型三、隐马尔科夫链三大问题1)Recognition(识别问题,也叫做序列问题):知道骰子有几种(隐含状态数量),每种骰子是什么(转换概率),根据掷骰子出的结果(可见状态链),我想知道每次掷出来的都是哪种骰子(隐含状态链)2)Evaluation(验证问题,或者评估问题):还是知道骰子有几种(隐含...

2019-12-30 14:10:03 819

原创 概率图模型与贝叶斯网络

一、什么是概率图模型把图论+概率论结合起来,具体来说二、贝叶斯网络

2019-12-30 09:37:23 238

原创 一条typical的文本预处理流程

raw_text ----> Tokenize(分词) ---> Lemma/Stemming -----> stopwords -----> word_list

2019-12-29 10:13:35 127

原创 stopwords

停用词对于语义分析没有用处,要去除,例如the,a...

2019-12-29 10:11:58 976

原创 词性标注

同一个词,是否需要变换为stemming例如 went,是go的过去式v.,还是温特n.根据词性,可以决定是否需要把wentstemming为go

2019-12-29 10:11:13 80

原创 词性归一化stemming

NLP预处理

2019-12-29 10:09:38 475

原创 LDA主题模型

一、要解决什么问题拿到一片文章,要确定该文章的主题(比如:科技、运动、娱乐)二、该算法的思路2.1 直观版2.2 标准版2.3 公式版三、简介一种无监督的贝叶斯模型,可以将文档集中每篇文档的主题按照概率分布的形式给出。在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。LDA的另一个优点是,对于每一个主题均可以找出一些词语来描述它。...

2019-12-27 12:59:47 124

原创 模型生成

1).LDA (主题生成模型,Latent Dirichlet Allocation) 2).最大熵模型(其实是个多分类模型,归这里不一定合适)

2019-12-26 18:31:38 147

原创 关键词提取算法

一、tf-idf二、bm25三、pagerank3.1 解决什么问题是Google的网页排序算法,它是给每个网页附加权值的。一个网页的PR值,概率上理解就是网页被访问的概率,PR值越高其排名越高。3.2算法原理对每个目标网页进行附上权值,权值大的就靠前显示,权值小的就靠后显示。该算法借鉴学术界论文重要性的评估方法:谁被引用的次数多,谁就越重要。核心思想:(1)如果...

2019-12-26 18:29:38 757

原创 CBOW

一、解决什么问题二、思想和模型三、优缺点

2019-12-18 12:01:12 370

原创 Word embedding(文本向量化)技术与路线

0. CountVecorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。CountVectorizer(input='content', encoding='utf-8', decod...

2019-12-18 11:10:43 1134

原创 randomForest调参指南

一、参数意义1)需要调参的参数包括两部分,第一部分是Bagging框架的参数;第二部分是CART决策树的参数;n_estimators=5,参考范围[1,201],弱学习器的个数,n_estimators太小,容易欠拟合,太大,容易过拟合。增加‘子模型数’可以明显降低整体模型的方差,且不会对子模型的偏差和方差有任何影响;模型的准确度会随着‘子模型数’的增加而提高;bootstrap:默...

2019-12-06 10:26:13 2211

原创 类别型特征

无序特征: one-hot encoding, 比如城市有序特征:Label encoding, 比如版本号决策树是如何识别离散特征和连续特征的?决策树在选择特征进行分类时,一个特征被选择后,之后还会选择到这个特征吗?决策树如何处理无序类别和有序类别特征?...

2019-12-03 14:03:11 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除