NLP
文章平均质量分 93
清萝卜头
做快乐的事,做幸福的人
展开
-
从0开始学习NLP
1.BOW模型2.TF-IDF3.word2vec持续可新原创 2019-10-28 21:15:06 · 203 阅读 · 0 评论 -
BOW词袋模型
词袋模型(Bag-of-words model ,BoW model)最初被用在信息检索领域。该模型忽略文本的语法和语序,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档。例子:有三个句子如下:sentence1: Kid likes to watch movies. John likes too.sen...原创 2019-10-28 21:12:44 · 706 阅读 · 0 评论 -
TF-IDF 详解
TF-IDF(Term Frequency–Inverse Document Frequency)是一种统计方法,用以评估一个“词”对于一个文件集或一个语料库中的其中一份文件的重要程度。“词”的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。其中,TF是词频(Term Frequency),IDF是逆向文件频率(Inverse Document Freque...原创 2019-10-27 21:51:38 · 2419 阅读 · 0 评论 -
Word2Vec学习笔记
1.Word2Vec是什么?Word2Vec是用一个浅层神经网络将稀疏的词向量映射成为稠密向量的过程。2.Word2Vec注重的不是模型,而是模型的参数。word2vec的思路与自编码器(auto-encoder)的思路比较相似,都是先基于训练数据构建一个神经网络。当这个网络训练好以后,我们并不会利用这个训练好的网络处理新任务,我们真正需要的是这个模型通过训练数据所学得的参数。3....原创 2019-10-11 22:36:02 · 311 阅读 · 0 评论 -
gensim中word2vec API参数说明
在gensim中,word2vec相关的API都在gensim.models.word2vec中,与算法相关的参数在gensim.models.word2vec.Word2Vec中。其具体参数说明如下:(个人翻译,如有出入欢迎指正)class Word2Vec(BaseWordEmbeddingsModel): """训练, 使用和评估https://code.google.com...原创 2019-10-11 20:42:28 · 4913 阅读 · 0 评论 -
sklearn.datasets.fetch_20newsgroups学习(1)
sklearn.datasets.fetch_20newsgroups(data_home=None, subset=’train’, categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True)#方法的功能:从20个新闻组数据集中加载文件名和数据。参数:原创 2018-04-10 17:51:58 · 6075 阅读 · 0 评论 -
NLP 主题抽取 Topic LDA学习案例(一)
NLP 主题抽取 Topic LDA学习案例数据准备中的相关参考资料见:https://blog.csdn.net/xiaoql520/article/details/79883409后续参考资料见代码末尾。# -*- coding: UTF-8 -*-import warningswarnings.filterwarnings(action='ignore', category=User...原创 2018-04-18 10:33:21 · 5648 阅读 · 0 评论 -
获取word2Vec 训练后model中的所有的词
import gensimsentences = [['你好', '呀',], ['今天', '天气',"很好"],['开心','高兴']]# train word2vec on the this sentencesmodel = gensim.models.Word2Vec(sentences,min_count=1)# get the detailprint(model.wv...原创 2019-10-09 16:09:18 · 3230 阅读 · 0 评论