NLP
NLP basic
zmjames2000
这个作者很懒,什么都没留下…
展开
-
1. NLP 基本概念
NLP: Natural Language Processing常用的包安装:numpy,NLTK( pip install nltk), scipy, gensim,tensorflow( pip install tensorflow or pip install tf-nightly-gpu/cpu)Jieba: https://github.com/fxsjy/jieba.st...原创 2019-09-24 22:46:35 · 396 阅读 · 0 评论 -
理论:NLP学习路径(一):NLP基础知识
1、基本术语:(1)分词分词常用手段:基于字典的最长串匹配,但歧义分词很难。比如:美国/会/通过法案。美/国会/通过法案。(2)词性标注词性:动词、名词、形容词等目的:表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。比如:我/r爱/v中国/ns。其中,ns代表名词,v是动词,ns,v都是标注。(3)命名实体识别指从文本中识别具有特定类别的实体(通常是名词),例如人名、地...转载 2019-09-25 08:11:32 · 261 阅读 · 0 评论 -
理论:NLP学习路径(三):NLP中文分词技术
1、中文分词简介难点:分词歧义方法:1)规则分词:人工建立词库,按一定方式匹配切分。缺点:对新词很难进行处理。2)统计分词:利用机器学习技术。缺点:过于依赖语料的质量。3)混合分词:上述两种方法的结合。(用得较多)2、规则分词主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。主要方法有:正向最大匹配法;逆向最大匹配法;双向最大...转载 2019-09-25 08:15:18 · 398 阅读 · 0 评论 -
理论:NLP学习路径(四):NLP词性标注与命名实体识别
1、词性标注(1)词性标注简介词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注。但在中文中,一个词的词性很多时候都是不固定的。从整体上看大多数词语,尤其是实词,一般只有1-2个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。目前较为主流的方法是同分词方法一样,将句子的词性标注作为一个序列标注问题来解决,即可以...转载 2019-09-25 08:19:59 · 527 阅读 · 0 评论 -
理论:其他详细理论
NLP学习路径(五):NLP关键词提取算法NLP学习路径(六):NLP句法分析NLP学习路径(七):NLP文本向量化NLP学习路径(八):情感分析技术转载 2019-09-25 08:25:12 · 133 阅读 · 0 评论 -
NLP中常见问题
Error occurred during initialization of VMCould not reserve enough space for object heapJava虚拟机(JVM)分配的内存大于系统可用内存数,所以没有足够的空间分配给JVM来创建Object解决方法:可以看看机器的系统内存目前还剩下多少,保证足够启动Java时设定的-Xmx512M -Xms512M -X...原创 2019-09-25 12:44:42 · 186 阅读 · 0 评论 -
2.NLP w2v skip_gram
https://github.com/zmjames2000/NLP_basis/blob/master/demo6_w2v_skip_gram.py# encoding=utf8from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_function...原创 2019-09-26 20:37:56 · 146 阅读 · 0 评论 -
3.NLP w2v cbow
https://github.com/zmjames2000/NLP_basis/blob/master/demo6_w2v_cbow.py# ecoding=utf-8import collectionsimport math,os,random,zipfileimport numpy as npimport urllibimport tensorflow as tffrom ...原创 2019-09-26 20:39:03 · 142 阅读 · 0 评论 -
4.NLP CNN
demo7_cnn.py#-*- coding:utf-8 -*-import os,sys,timefrom datetime import timedeltaimport numpy as npimport tensorflow as tffrom tensorflow.python.client import device_libfrom sklearn import m...原创 2019-09-26 20:43:56 · 219 阅读 · 0 评论 -
conda packages list
conda packages listconda install numpyconda install pandasconda install matplotlibconda install tqdmconda install tensorflow-gpuscikit-learnconda install pytorch torchvision cudatoolkit=10.0co...原创 2019-09-27 22:23:56 · 407 阅读 · 0 评论 -
3. skip-Gram
学习词向量的概念用Skip-thought模型训练词向量学习使用PyTorch dataset和dataloader学习定义PyTorch模型学习torch.nn中常见的Module5.1 Embedding学习常见的PyTorch operations6.1 bmm6.2 logsigmoid保存和读取PyTorch模型# #-*- coding:utf-8 -*-...原创 2019-09-29 11:00:36 · 163 阅读 · 0 评论 -
4. LSTM Pytorch
学习语言模型,以及如何训练一个语言模型学习torchtext的基本使用方法构建 vocabulary3.1 word to inde 和 index to word学习torch.nn的一些基本模型4.1 Linear4.2 RNN4.3 LSTM4.4 GRURNN的训练技巧5.1 Gradient Clipping如何保存和读取模型# #-*- coding:...原创 2019-09-29 15:50:16 · 316 阅读 · 0 评论 -
5. LSTM Pytorch load
# #-*- coding:utf-8 -*-import torchtextfrom torchtext.vocab import Vectorsimport torchimport numpy as npimport random,osUSE_CUDA = torch.cuda.is_available()random.seed(1000)np.random.seed(1...原创 2019-09-29 16:43:18 · 142 阅读 · 0 评论 -
6.word_average pytorch
Word Averaging模型我们首先介绍一个简单的Word Averaging模型。这个模型非常简单,我们把每个单词都通过Embedding层投射成word embedding vector,然后把一句话中的所有word vector做个平均,就是整个句子的vector表示了。接下来把这个sentence vector传入一个Linear层,做分类即可。我们使用avg_pool2d来做av...原创 2019-09-30 15:16:48 · 224 阅读 · 0 评论 -
7.RNN like as word_average pytorch
#-*- coding:utf-8 -*-from grammer.logger import Loggerfrom grammer.timmer import epoch_timeimport torchimport torch.nn.functional as Fimport time,os,randomimport torchtextfrom torchtext imp...原创 2019-10-07 13:49:31 · 240 阅读 · 0 评论