自然语言处理
文章平均质量分 94
yyhhlancelot
心之所向,素履以往。
展开
-
个人总结:从RNN(内含BPTT以及梯度消失/爆炸)到 LSTM(内含BiLSTM、GRU)Seq2Seq Attention
前言RNN擅长解决的问题是连续的序列,且序列的长短不一,比如基于时间的序列:一段段连续的语音等。这些序列比较长,且长度不一,比较难直接拆分成一个个独立的样本通过DNN/CNN进行训练。而RNN由于其独有的结构和优势,能够处理DNN/CNN所不能及的问题。RNN的5种不同架构声明:下列图中的方块或者圆圈都代表一个向量。one2one:一个输入对应一个输出。one2ma...原创 2019-10-11 16:19:04 · 4969 阅读 · 2 评论 -
NLP学习笔记(一) : 数据预处理(关键词:词袋,简单)
0. 前言本次使用的数据是kaggle教程 Bag of Words Meets Bags of Popcorn内数据,该比赛要求通过电影评论预测情感,附下载链接:https://www.kaggle.com/c/word2vec-nlp-tutorial/data 标题中的词袋指的是,本次预处理未涉及到语序等其他语义,单单从单词本身这个方向切入进行处理。它就像一个袋子,里面装的全是我们训...原创 2018-12-21 16:57:09 · 967 阅读 · 0 评论 -
NLP学习笔记(二):创建特征及训练(关键词:词袋,TFIDF)
0. 前言接上文NLP学习笔记(一) : 数据预处理(词袋),我们已经将数据预处理完成,接下来我们创建一些特征进行训练。需要提及的是,本次只是单纯的从原始数据中创建特征,未涉及到word embedding(词向量)等操作,也未涉及到n-gram等牵涉到语序的模型。好的,现在我们已经有了清洗过后的数据,也就是上文预处理完成后的 clean_reviews 这个东西。接下来我们准备使...原创 2018-12-22 10:29:20 · 1462 阅读 · 3 评论 -
NLP学习笔记(三):模型训练之深度学习方案详解(关键词:深度学习,词向量,RNN,LSTM)
0. 前言接上一节NLP学习笔记(二):创建特征及训练(关键词:词袋,TFIDF),我们在预处理完成后,使用简单的词袋模型(CountVectorizer, TfidfVectorizer)来创建了特征,并使用常用的机器学习算法随机森林(RandomForest)、逻辑回归(LogisticReggression)、朴素贝叶斯(NaiveBayes)进行训练,同时使用网格搜索(GridSear...原创 2018-12-24 21:02:46 · 2633 阅读 · 3 评论 -
NLP学习笔记(四):关于keras的Input层与embedding层全解析
这里解析的主要是关于NLP搭建网络中遇到的常见的一个关于维度的问题,为什么我们模型中Input layer的输出维度和embedding的维度明明看上去对不上,模型却能好好运行?搞懂了它能帮助我们更进一步的理解词向量。一、一些预处理:## 一、需要设置的值embed_size = 300 # 词向量维度max_features = 50000 # 字典内的单词数/特征数maxle...原创 2019-01-18 11:05:25 · 15509 阅读 · 5 评论 -
Kaggle竞赛:Quora Insincere Questions Classification 总结与心得感想
这次Quora的文本分类题,4000支参赛队伍中个人solo最终只在LB上达到了20%,一方面是因为第一次参加NLP方面的比赛,完全是个小白,另一方面是自己在比赛途中也有不少懈怠,因此想做一些技术上以及客观上的总结警醒自己。比赛是通过文本训练集来预测Quora上的问题是真诚的还是不真诚的问题,比赛链接https://www.kaggle.com/c/quora-insincere-questi...原创 2019-02-14 17:41:39 · 1720 阅读 · 0 评论 -
个人总结:自然语言处理 word2vec(skip-gram/CBOW以及优化算法Hierarchical Softmax和Negative Sampling)
前言word2vec,顾名思义,将一个词转化为向量,也经常会看到一个非常相关的词“词嵌入”,也就是word embedding。词嵌入是一类将词从高维空间映射到低维空间的过程的统称,核心思想是将每个词都映射为低维空间(通常K=50-300维)上的一个稠密向量。K维空间的每一维可以看做一个隐含的主题,只不过不像主题模型中的主题那么直观。假设每篇文章有N个词,每个词映射为K维的向量,那就可以用...原创 2019-08-22 15:43:44 · 2498 阅读 · 2 评论