![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
"灼灼其华"
HELLO WORLD,HELLO FUTURE!
展开
-
gensim学习之corpora.Dictionary
原创 2021-06-29 16:25:03 · 807 阅读 · 0 评论 -
pytorch代码实现transformer
参考:https://blog.csdn.net/stupid_3/article/details/83184691目录transformer整体结构Encoder:Decoder:Positional Encodings:Position-wise Feed-Forward networkmulti-headed attention(多头注意力机制):Residuals(残差模块)Layer normalization的实现MaskPadding mask.原创 2020-10-09 17:52:02 · 5789 阅读 · 4 评论 -
文本数据增强
参考文章:文本数据增强https://www.jianshu.com/p/3996793324ca 文本数据增强https://www.zhihu.com/collection/540515296 英文原版:https://amitness.com/2020/05/data-augmentation-for-nlp/#8-generative-methods ICLR 2019 workshop 论文《EDA: Easy Data Augmentation Techniques for Bo...原创 2020-11-28 10:17:20 · 987 阅读 · 0 评论 -
CBOW 与 skip-gram
skip-gram结构是利用中间词预测邻近词cbow模型是利用上下文词预测中间词一、CBOW1、CBOW之所以叫连续词袋模型,是因为在每个窗口内它也不考虑词序信息,因为它是直接把上下文的词向量相加了,自然就损失了词序信息。CBOW抛弃了词序信息,指的就是在每个窗口内部上下文直接相加而没有考虑词序。2、CBOW过程简单介绍如下(实际算法会用到哈夫曼编码等降维技巧,这里仅以理解为目的简介基本原理):输入为C个V维的vector。其中C为上下文窗口的大小,V为原始编码空间的规模。例如,原创 2020-05-15 15:21:26 · 6938 阅读 · 5 评论 -
初识 fastText
参考资料:https://blog.csdn.net/feilong_csdn/article/details/88655927https://blog.csdn.net/qq_16633405/article/details/80578431FastText API 文档 & 参数说明https://blog.csdn.net/qq_32023541/article/details/80845913https://blog.csdn.net/princemrgao/art...原创 2020-05-13 18:20:24 · 1774 阅读 · 0 评论 -
CountVectorizer()、TfidfTransformer() 和 TfidfVectorizer()的关系
CountVectorizer()输入:文档 corpus输出:文档中各个单词的词频TF(即每个单词在文档中出现的次数)TfidfTransformer()输入:词频TF输出:词频逆反文档频率TF-IDF(即词频TF与逆反文档频率IDF的乘积,IDF的标准计算公式为 :idf=log[n/(1+df)],其中n为文档总数,df为含有所计算单词的文档数量,df越小,idf值越大,也就是说...转载 2020-05-05 12:44:49 · 1711 阅读 · 2 评论 -
Attention机制
Attention注意力模型的强大应用起初,我们用encoder,decoder来encode语句到语义上, 再decode语义到下游任务中。比如:输入是中文,输出是英文,这就是翻译系统。 输入是文章,输出时摘要,这就是摘要系统。 输入是问题,输出是答案,这就是QA问答系统,对话机器人。 输入是图片,输出是文字,这就是图片自动描述系统。 输入是语音,输出是文字,这就是ASR系统...原创 2019-12-04 14:58:41 · 1176 阅读 · 0 评论 -
词向量经典模型:从word2vec、ELMO、GPT、到BERT
目录一、word embedding1.1 介绍1.2 Word2Vec有两种训练方法:1.3 Word Embedding的应用:1.4word embedding存在的问题:二、从word embedding到ELMO2.1 ELMO的本质思想是:本身是个根据当前上下文对Word Embedding动态调整2.2 ELMO采用了典型的两阶段过程:2.3 ...原创 2019-11-22 11:50:12 · 3523 阅读 · 0 评论 -
NLP(4)Language Model and Smoothing
目录Noisy Channel ModelLanguage Model:compute the probability of a sentence or sequence of words.Chain RuleMarkov AssumptionLanguage Model:UnigramLanguage Model:Bigram(come fromfirst orde...原创 2019-11-05 20:49:40 · 362 阅读 · 0 评论 -
NLP(3)Word Representation and Word Vectors
自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。目录One-hot Representation文本表示...原创 2019-11-05 14:28:22 · 269 阅读 · 0 评论 -
NLP(2)文本处理流程
文本处理流程原始文本(raw data) 分词(segmentation)、spell correction 清洗(cleaning)无用标签、特殊符号、停用词、大小写 标准化(normalization)stemming、lemmatization 特征提取(feature extraction)tf-idf、word2vec 建模(modeling)相似度算法、分类算法分词...原创 2019-11-05 21:09:18 · 282 阅读 · 0 评论 -
Anaconda安装jieba、wordcloud
1. 在官网中下载jieba压缩包。https://pypi.org/project/jieba/2. 将压缩包解压到anaconda的pkgs目录下(windows应该不难找) Mac的anaconda(名字可能是anaconda3)在根目录下3. 打开终端(Windows打开Anaconda Prompt),通过指令cd anaconda3/pkgs/jieba-0.39进入p...原创 2019-11-04 14:15:49 · 460 阅读 · 0 评论 -
nltk_data手动安装
背景介绍NLTK简单说明自然语言工具包(Natural Language Toolkit,NLTK)是一个Python 库,用于识别和标记英语文本中各个词的词性(parts of speech)。这个项目于2000 年创建,经过15 年的发展,由来自世界各地的几十个开发者共同努力维护。准备工作:安装NLTK模块NLTK 模块的安装方法和其他Python 模块一样:要么从NLTK ...原创 2019-11-02 12:44:32 · 7138 阅读 · 0 评论