- 博客(7)
- 收藏
- 关注
原创 word2vec模型原理(一):基于哈夫曼树的word2vec
在nlp领域,文本词的向量表示往往是第一步,笔者在做一些推荐相关性的工作中也用到了其中很常见的word2vec模型,因此也具体学习了一下word2vec的具体实现原理,本文主要参考了github开源的c语言版的word2vec源码以及相关的博客。一、要解决的问题 对于语料中的每一个词,最简单的表达方式就是one-hot,即利用位数编码的方式每个词占据一个“1”位,其余为0,...
2018-08-31 15:03:21 12966 3
原创 常用损失函数详解
1、平方损失:2、对数损失:一般的概率模型或者是分类问题,大都使用对数损失函数作为衡量损失的标准,首先给出对数损失函数的标准形式:观察可以发现,对于对数损失按照样本求和之后,对数的位上会变成条件概率的积,这个时候就非常有意思了,而对于概率模型而言,条件概率基于样本的积就是模型的似然函数,再取对数以后也是表征似然函数,综上可以看出,概率模型的对数损失函数的最小值就是似然函数的最大值,也就是说求解最大...
2018-05-15 19:16:34 4652
原创 FM-分解机模型详解
FM论文地址:https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf 工业界传统的LR,由于简单且可解释被广泛使用,但人工特征工程的繁琐操作也是阻碍模型真正效果的主要原因,各类的特征组合需要大量的人工挖掘实验。鉴于此,基于矩阵分解的FM模型被人熟知,它的目标就是解决在稀疏数据的条件下特征组合的问题。本文将详细分析下FM模型的原理。首先给...
2018-05-10 16:56:50 7128 1
原创 论文精读-DeepFM
目前的CTR预估模型,实质上都是在“利用模型”进行特征工程上狠下功夫。传统的LR,简单易解释,但特征之间信息的挖掘需要大量的人工特征工程来完成。由于深度学习的出现,利用神经网络本身对于隐含特征关系的挖掘能力,成为了一个可行的方式。DNN本身主要是针对于高阶的隐含特征,而像FNN(利用FM做预训练实现embedding,再通过DNN进行训练,有时间会写写对该模型的认识)这样的模型则是考虑了高阶特征,...
2018-03-08 15:54:04 15934 15
原创 DNN反向传播详解
目前的深度神经网络模型中,主要都是依赖传统BP的反向传播方式来计算梯度,由于tensorflow等牛逼框架的存在,目前梯度的计算方式被很多人都忽略掉了,本文旨在给大家详细推导下在不考虑dropout及特殊结构的情况下,全连接DNN模型是如何梯度下降的。首先,给出深度神经网络的一般结构形式:说明下推导过程中一些基本变量及参数的含义::表示第l层的第i个节点与第l-1层的第j个节点连接的权重w;:表示...
2018-03-07 20:18:35 7223 2
原创 sigmoid函数是如何诞生的(最大熵原理)
由于工作的原因没有在学校里那么多学习的时间,对于很多基础知识纠结好久还是觉得应该记录下来,于是就打开了好多年没用的csdn,开始记录下自己的偶尔的学习过程,希望能以此勉励自己。当然第一篇博客,自然逼格不能低,先来谈谈自己一直很好奇的,大牛们熟的不能再熟的sigmod函数究竟是怎么得来的。 很多人可能会说,懵的?那你怕是石乐志,其实很多地方都有解释这个函数为什么好,但始终没...
2018-02-05 17:26:41 6997 1
原创 leetcode132 Palindrome Partitioning II
leetcode132 Palindrome Partitioning IIGiven a string s, partition s such that every substring of the partition is a palindrome.Return the minimum cuts needed for a palindrome partitioning of
2015-12-28 16:41:01 373
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人