自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 特征选择

通常从两个方面考虑来选择特征:特征是否发散:如果说一个特征不发散(比如方差接近于0),样本在这个特征上基本没有差异,那么这个特征对于样本的区分并没有什么作用 特征与目标的相关性根据特征选择的形式,可以将特征选择方法分为3种:1)Filter过滤法:先进行特征选择,再训练学习器,特征选择过程与后续学习器无关。方差选择法:先计算各特征方差,设置方差阈值筛选 相关系数法:先计算各特征目...

2019-03-19 15:21:57 873

原创 FM算法原理

演变过程:线性模型->二项式模型->FM模型线性模型$f(x) = \omega_0+\omega_1x_1+\omega_2x_2+...+\omega_nx_n=\omega_0+\sum_{i=1}^n{\omega_ix_i}$二项式模型$f(x)=\omega_0+\sum_{i=1}^n\omega_ix_i+\sum_{i=1}^{n-1}\sum_{j=...

2019-03-18 16:59:46 864

原创 word2vec源码阅读笔记

word2vec源码阅读笔记,结合代码加深对word2vec的理解1. sigmoid函数的近似计算expTable2. 构建词汇库词汇表训练过程 -> LearnVocabFromTrainFile()ReadWordIndex()读取一个单词 -> ReadWord()计算单词对应hash值 -> GetWordHash()通过hash值得到单词在词汇表...

2019-03-18 16:38:53 478

原创 数学基础补充归纳大纲(持续更新...)

1. 先验概率、后验概率、贝叶斯的区别和联系?这篇讲得比较好 https://blog.csdn.net/yewei11/article/details/505376482. 协方差和相关性有什么区别?相关性是协方差的标准化格式。协方差本身很难做比较。例如:如果我们计算工资($)和年龄(岁)的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。为了解决这个问题,我...

2019-03-04 10:27:27 154

原创 Spark学习笔记五:组件篇

一、Spark Mlib数据类型本地向量 Local Vector:密集型、稀疏型标签点 Labeled PointMlib中的矩阵其实是向量型的RDD本地矩阵 Local Matrix分布式矩阵:分布式存储在一个或多个RDD。将一个分布式矩阵转换为另一个不同格式的需要Shuffle行矩阵:RDD[Vector]行索引矩阵:RDD[IndexedRow]三元组矩阵:RDD[M...

2019-03-04 10:01:05 215

原创 Spark学习笔记四:算子

一、什么是算子算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作(transformation和action)transformation不触发提交作业;action出发SparkContext提交Job作业二、常用算子不完全归纳Transformation转换操作基础转换操作map、mapPartitions、mapPartitionsWithIndexdisti...

2019-03-04 00:54:12 365

原创 Spark学习笔记三:开发环境配置安装

在了解基本原理后,配置一个Spark开发环境,便于之后的学习。这部分网上有很多教程,这里贴一个参考MAC版:https://blog.csdn.net/u013384984/article/details/79680967另外,除了单机环境的配置,在实际开发应用中会涉及到分布式部署的方式Standalone自带完整服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。没有任何单...

2019-03-04 00:33:52 156

原创 Spark学习笔记二:核心原理

1. 消息通信原理Spark启动消息通信:启动过程主要是进行Master与Worker之间的通信Worker节点向Master发送注册消息Master处理完后,返回注册成功(失败)消息若成功,则Worker定时发送心跳消息给MasterSpark运行时消息通信:应用程序的SparkContext向Master发送应用注册消息Master给该应用分配ExecutorEx...

2019-03-04 00:24:14 205

原创 Spark学习笔记一:运行流程

最近在看《图解Spark:核心原理与技术实践》,为了便于自己温故而知新,已经检验理解是否到位,以下是记录的学习笔记。我的一般学习思路是首先学会用,再来深入学习。所以,首先由Spark的运行流程切入:一、运行流程从Spark的运行流程入手,学习了解Spark的核心组成。下面是Spark的一个基本运行流程​整个过程包括:提交作业、划分调度阶段(78)、提交调度阶段(9)、提交执行任务(101...

2019-03-04 00:11:23 187

原创 三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)

https://zhuanlan.zhihu.com/p/24037830?refer=liulingyuanTF-IDF算法介绍:        词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。        词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d

2018-02-05 22:41:42 39960

转载 Keras---text.Tokenizer和sequence:文本与序列预处理

http://blog.csdn.net/lovebyz/article/details/777120031 简介在进行自然语言处理之前,需要对文本进行处理。 本文介绍keras提供的预处理包keras.preproceing下的text模块与序列处理模块sequence模块2 text模块提供的方法text_to_word_sequence(text,file

2018-01-24 13:47:58 6380 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除