2019年12月_NanciZhao

原创马尔科夫模型

一、马尔科夫模型处理的是什么问题，什么思路来解决二、隐马尔科夫模型三、隐马尔科夫链三大问题1）Recognition(识别问题，也叫做序列问题)：知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子出的结果（可见状态链），我想知道每次掷出来的都是哪种骰子（隐含状态链）2）Evaluation(验证问题，或者评估问题)：还是知道骰子有几种（隐含...

2019-12-30 14:10:03 819

原创概率图模型与贝叶斯网络

一、什么是概率图模型把图论+概率论结合起来，具体来说二、贝叶斯网络

2019-12-30 09:37:23 238

原创一条typical的文本预处理流程

raw_text ----> Tokenize(分词) ---> Lemma/Stemming -----> stopwords -----> word_list

2019-12-29 10:13:35 127

原创 stopwords

停用词对于语义分析没有用处，要去除，例如the，a...

2019-12-29 10:11:58 976

原创词性标注

同一个词，是否需要变换为stemming例如 went，是go的过去式v.，还是温特n.根据词性，可以决定是否需要把wentstemming为go

2019-12-29 10:11:13 80

原创词性归一化stemming

NLP预处理

2019-12-29 10:09:38 475

原创 LDA主题模型

一、要解决什么问题拿到一片文章，要确定该文章的主题（比如：科技、运动、娱乐）二、该算法的思路2.1 直观版2.2 标准版2.3 公式版三、简介一种无监督的贝叶斯模型，可以将文档集中每篇文档的主题按照概率分布的形式给出。在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可。LDA的另一个优点是，对于每一个主题均可以找出一些词语来描述它。...

2019-12-27 12:59:47 124

原创模型生成

1).LDA (主题生成模型，Latent Dirichlet Allocation) 2).最大熵模型(其实是个多分类模型，归这里不一定合适)

2019-12-26 18:31:38 147

原创关键词提取算法

一、tf-idf二、bm25三、pagerank3.1 解决什么问题是Google的网页排序算法，它是给每个网页附加权值的。一个网页的PR值，概率上理解就是网页被访问的概率，PR值越高其排名越高。3.2算法原理对每个目标网页进行附上权值，权值大的就靠前显示，权值小的就靠后显示。该算法借鉴学术界论文重要性的评估方法：谁被引用的次数多，谁就越重要。核心思想：（1）如果...

2019-12-26 18:29:38 757

原创 CBOW

一、解决什么问题二、思想和模型三、优缺点

2019-12-18 12:01:12 370

原创 Word embedding（文本向量化）技术与路线

0. CountVecorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数。CountVectorizer(input='content', encoding='utf-8', decod...

2019-12-18 11:10:43 1134

原创 randomForest调参指南

一、参数意义1）需要调参的参数包括两部分，第一部分是Bagging框架的参数；第二部分是CART决策树的参数；n_estimators=5，参考范围[1,201]，弱学习器的个数，n_estimators太小，容易欠拟合，太大，容易过拟合。增加‘子模型数’可以明显降低整体模型的方差，且不会对子模型的偏差和方差有任何影响；模型的准确度会随着‘子模型数’的增加而提高；bootstrap:默...

2019-12-06 10:26:13 2211

原创类别型特征

无序特征： one-hot encoding, 比如城市有序特征：Label encoding, 比如版本号决策树是如何识别离散特征和连续特征的？决策树在选择特征进行分类时，一个特征被选择后，之后还会选择到这个特征吗？决策树如何处理无序类别和有序类别特征？...

2019-12-03 14:03:11 308

红豆的博客