- 博客(13)
- 收藏
- 关注
原创 马尔科夫模型
一、马尔科夫模型处理的是什么问题,什么思路来解决二、隐马尔科夫模型三、隐马尔科夫链三大问题1)Recognition(识别问题,也叫做序列问题):知道骰子有几种(隐含状态数量),每种骰子是什么(转换概率),根据掷骰子出的结果(可见状态链),我想知道每次掷出来的都是哪种骰子(隐含状态链)2)Evaluation(验证问题,或者评估问题):还是知道骰子有几种(隐含...
2019-12-30 14:10:03 819
原创 一条typical的文本预处理流程
raw_text ----> Tokenize(分词) ---> Lemma/Stemming -----> stopwords -----> word_list
2019-12-29 10:13:35 127
原创 词性标注
同一个词,是否需要变换为stemming例如 went,是go的过去式v.,还是温特n.根据词性,可以决定是否需要把wentstemming为go
2019-12-29 10:11:13 80
原创 LDA主题模型
一、要解决什么问题拿到一片文章,要确定该文章的主题(比如:科技、运动、娱乐)二、该算法的思路2.1 直观版2.2 标准版2.3 公式版三、简介一种无监督的贝叶斯模型,可以将文档集中每篇文档的主题按照概率分布的形式给出。在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。LDA的另一个优点是,对于每一个主题均可以找出一些词语来描述它。...
2019-12-27 12:59:47 124
原创 模型生成
1).LDA (主题生成模型,Latent Dirichlet Allocation) 2).最大熵模型(其实是个多分类模型,归这里不一定合适)
2019-12-26 18:31:38 147
原创 关键词提取算法
一、tf-idf二、bm25三、pagerank3.1 解决什么问题是Google的网页排序算法,它是给每个网页附加权值的。一个网页的PR值,概率上理解就是网页被访问的概率,PR值越高其排名越高。3.2算法原理对每个目标网页进行附上权值,权值大的就靠前显示,权值小的就靠后显示。该算法借鉴学术界论文重要性的评估方法:谁被引用的次数多,谁就越重要。核心思想:(1)如果...
2019-12-26 18:29:38 757
原创 Word embedding(文本向量化)技术与路线
0. CountVecorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。CountVectorizer(input='content', encoding='utf-8', decod...
2019-12-18 11:10:43 1134
原创 randomForest调参指南
一、参数意义1)需要调参的参数包括两部分,第一部分是Bagging框架的参数;第二部分是CART决策树的参数;n_estimators=5,参考范围[1,201],弱学习器的个数,n_estimators太小,容易欠拟合,太大,容易过拟合。增加‘子模型数’可以明显降低整体模型的方差,且不会对子模型的偏差和方差有任何影响;模型的准确度会随着‘子模型数’的增加而提高;bootstrap:默...
2019-12-06 10:26:13 2211
原创 类别型特征
无序特征: one-hot encoding, 比如城市有序特征:Label encoding, 比如版本号决策树是如何识别离散特征和连续特征的?决策树在选择特征进行分类时,一个特征被选择后,之后还会选择到这个特征吗?决策树如何处理无序类别和有序类别特征?...
2019-12-03 14:03:11 308
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人