- 博客(12)
- 收藏
- 关注
原创 Hierarchical Attention Network for Document Classification
数据:每个document由多个句子组成,每个句子由多个单词组成。注意力:一个文档中,哪些句子可以决定它的分类?句子中,哪些单词比较重要?模型结构图:word层面的注意力机制对每个句子,进行一样的下列操作。这里我们对第iii个句子进行处理:uit=tanh(Wwhit+bw)u_{it} = tanh(W_wh_{it}+b_w)uit=tanh(Wwhit+bw)αit...
2018-11-29 08:49:37 262
原创 FastText
fasttext有两个功能:训练词向量文本分类训练词向量和word2vec不同的地方在于,增加了字符的n-gram表示(词的内部构造信息),因此fasttext对罕见词,OOV都是非常有利的文本分类和word2vec不同的地方在于,1)输入的是整个句子,预测的是句子的类别 2)增加了字符的n-gram表示 3)增加了单词的n-gram表示 4)fasttext是监督学习[1] h...
2018-11-27 23:45:17 234
原创 神经语言模型
模型的目的是训练一个神经语言模型,即给定n-1个单词,预测第n个单词是什么。词向量是过程中得到的副产品。模型说明:step1: 矩阵C是V×d,也就是上面提到的词向量矩阵。每一个用one-hot表示的单词投影到其对应的词向量。然后拼接起来得到XXX,XXX的维度是d(n−1)d(n-1)d(n−1)step2: tanh(XW+b)tanh(XW+b)tanh(XW+b), WWW是d(n...
2018-11-27 20:11:18 870
原创 二叉树的遍历:前序、中序、后序和层次遍历
层次遍历/** * Definition for a binary tree node. * struct TreeNode { * int val; * TreeNode *left; * TreeNode *right; * TreeNode(int x) : val(x), left(NULL), right(NULL) {} * }; */...
2018-11-27 11:39:33 244
原创 CRF以及BiLSTM+CRF
tensorflow-- bilstm+crf代码简析https://blog.csdn.net/guolindonggld/article/details/79044574对crf原理的细致解析https://createmomo.github.io/2017/11/11/CRF-Layer-on-the-Top-of-BiLSTM-5/http://www.cnblogs.com/ba...
2018-11-21 14:38:56 2087
原创 MapReduce--带有词频统计的倒排索引算法
倒排索引:根据单词来查找文档实现:单词1 文档1:次数,文档2:次数,文档5:次数单词1 平均次数单词2 文档3:次数,文档6:次数单词2 平均次数Mapper:输出: key: term- ->docidvalue: 1public static class Mapper1 extends Mapper<LongWritable, Text, Tex...
2018-11-14 15:33:10 1249
转载 词向量技术(从word2vec到ELMo)以及句嵌入技术
很好的资料https://www.jianshu.com/p/a6bc14323d77
2018-11-06 20:32:17 1585
原创 最大堆、最小堆定义及其C++代码实现
很棒的资料https://blog.csdn.net/guoweimelon/article/details/50904346定义堆首先必须是一棵完全二叉树最大堆:完全二叉树,父节点的值不小于子节点的值最小堆:完全二叉树,父节点的值不大于子节点的值用数组存储上图所示的最大堆对于下标为i(1≤i≤n)i (1 \leq i \leq n)i(1≤i≤n)的节点:父节点:i/2i/2i...
2018-11-06 11:44:28 2633
原创 剑指offer(21-40题)
P129调整数组顺序使奇数位于偶数前面void reOrderArray(vector&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;lt;int&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;gt; &amp;amp;amp;amp;amp;amp;amp;am
2018-11-04 22:06:04 614 1
原创 基于物品(用户)的推荐算法
mapreduce用mapreduce计算框架实现了3个小demo: wordcount、基于物品的推荐算法(itemCF)和基于用户的推荐算法(userCF) itemCF步骤: step1: 根据用户行为列表构建评分矩阵 map输入:key:LongWritable类型,每一行的起始偏移量 value: Text类型 userID,itemID,score map输出:key...
2018-11-04 17:40:39 3954
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人