NLP_tutorial
NLP
还卿一钵无情泪
虚空界尽 众生界尽 众生业尽 众生烦恼尽 我此愿望无有穷尽 念念相续 无有间断 身语意业 无有疲厌
展开
-
RNN简介
前言:针对之前n-gram等具有fixed-window size的模型的缺点,例如无法处理任意长度的输入、不具有记忆性等,提出了一个新的模型:循环神经网络(RNN)。下对其做简要介绍:RNN:RNN的特点是有多少输入就有多少对应的激活值。可以看成输入是在时间上有先后的,每一次输入是一个时间步,每一个时间步产生激活值,也可能产生预测值(根据需要)。RNN的不同点是,它不是仅用本时间步的输入值来预测,而是同时使用前一步的激活值和本步的输入值来预测结果。RNN想法的核心:不同的时间步都使用相同的权重矩.转载 2020-05-28 15:37:17 · 1423 阅读 · 0 评论 -
n-gram和skip-gram
N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。跳字模型(skip-gram):通过中心词来推断上下文一定窗口内的单词。一、什么是n-gram模型N-Gr...转载 2020-05-28 15:12:06 · 2951 阅读 · 0 评论 -
霍夫曼树 -- 分层softmax(Hierarchical Softmax),构造霍夫曼树来代替标准softmax
1 前言霍夫曼树是二叉树的一种特殊形式,又称为最优二叉树,其主要作用在于数据压缩和编码长度的优化。2 重要概念2.1 路径和路径长度在一棵树中,从一个结点往下可以达到的孩子或孙子结点之间的通路,称为路径。通路中分支的数目称为路径长度。若规定根结点的层数为1,则从根结点到第L层结点的路径长度为L-1。图2.1图2.1所示二叉树结点A到结点D的路径长度为2,结点A到达结点C的路径长度为1。2.2 结点的权及带权路径长度若将树中结点赋给一个有着某种含义的数值,则这个数值称.转载 2020-05-28 14:55:36 · 1854 阅读 · 0 评论 -
Tutorial 目录
1. Basic Embedding Model 1-1. NNLM(Neural Network Language Model) - Predict Next Word Paper - A Neural Probabilistic Language Model(2003) Colab - NNLM_Tensor.ipynb, NNLM_Torch.ipynb 1-2. Word2Vec(Skip-gram) - Embedding Words and S.原创 2020-05-27 23:49:00 · 282 阅读 · 0 评论 -
1-3. FastText
1-3. FastText(Application Level) - Sentence Classification Paper - Bag of Tricks for Efficient Text Classification(2016)原创 2020-05-27 23:45:09 · 101 阅读 · 0 评论 -
1-2.Word2Vec
# -*- coding: utf-8 -*-#!/usr/bin/pythonimport tensorflow as tf#import matplotlib.pyplot as pltimport numpy as nptf.reset_default_graph()# 3 Words Sentencesentences = [ "i like dog", "i like cat", "i like animal", "dog cat animal",原创 2020-05-27 23:41:01 · 123 阅读 · 0 评论 -
1-1. NNLM
# -*- coding: utf-8 -*-#!/usr/bin/python'''1-1. NNLM(Neural Network Language Model) - Predict Next Word Paper - A Neural Probabilistic Language Model(2003) '''import tensorflow as tfimport numpy as nptf.reset_default_graph()sentences = [ "原创 2020-05-27 23:38:58 · 169 阅读 · 0 评论 -
FastText原理和文本分类
fastText原理和文本分类 ...转载 2020-05-27 22:50:52 · 897 阅读 · 0 评论