机器学习
文章平均质量分 85
阿毛33
这个作者很懒,什么都没留下…
展开
-
Keras---text.Tokenizer和sequence:文本与序列预处理
http://blog.csdn.net/lovebyz/article/details/777120031 简介在进行自然语言处理之前,需要对文本进行处理。 本文介绍keras提供的预处理包keras.preproceing下的text模块与序列处理模块sequence模块2 text模块提供的方法text_to_word_sequence(text,file转载 2018-01-24 13:47:58 · 6469 阅读 · 3 评论 -
三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)
https://zhuanlan.zhihu.com/p/24037830?refer=liulingyuanTF-IDF算法介绍: 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。 词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d原创 2018-02-05 22:41:42 · 40045 阅读 · 0 评论 -
Spark学习笔记四:算子
一、什么是算子算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作(transformation和action)transformation不触发提交作业;action出发SparkContext提交Job作业二、常用算子不完全归纳Transformation转换操作基础转换操作map、mapPartitions、mapPartitionsWithIndexdisti...原创 2019-03-04 00:54:12 · 390 阅读 · 0 评论 -
数学基础补充归纳大纲(持续更新...)
1. 先验概率、后验概率、贝叶斯的区别和联系?这篇讲得比较好 https://blog.csdn.net/yewei11/article/details/505376482. 协方差和相关性有什么区别?相关性是协方差的标准化格式。协方差本身很难做比较。例如:如果我们计算工资($)和年龄(岁)的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。为了解决这个问题,我...原创 2019-03-04 10:27:27 · 173 阅读 · 0 评论 -
特征选择
通常从两个方面考虑来选择特征:特征是否发散:如果说一个特征不发散(比如方差接近于0),样本在这个特征上基本没有差异,那么这个特征对于样本的区分并没有什么作用 特征与目标的相关性根据特征选择的形式,可以将特征选择方法分为3种:1)Filter过滤法:先进行特征选择,再训练学习器,特征选择过程与后续学习器无关。方差选择法:先计算各特征方差,设置方差阈值筛选 相关系数法:先计算各特征目...原创 2019-03-19 15:21:57 · 900 阅读 · 0 评论 -
word2vec源码阅读笔记
word2vec源码阅读笔记,结合代码加深对word2vec的理解1. sigmoid函数的近似计算expTable2. 构建词汇库词汇表训练过程 -> LearnVocabFromTrainFile()ReadWordIndex()读取一个单词 -> ReadWord()计算单词对应hash值 -> GetWordHash()通过hash值得到单词在词汇表...原创 2019-03-18 16:38:53 · 501 阅读 · 0 评论 -
FM算法原理
演变过程:线性模型->二项式模型->FM模型线性模型$f(x) = \omega_0+\omega_1x_1+\omega_2x_2+...+\omega_nx_n=\omega_0+\sum_{i=1}^n{\omega_ix_i}$二项式模型$f(x)=\omega_0+\sum_{i=1}^n\omega_ix_i+\sum_{i=1}^{n-1}\sum_{j=...原创 2019-03-18 16:59:46 · 878 阅读 · 0 评论