nlp小白摸爬滚打的叨叨叨记录
在进行自然语言处理工作时,不可避免使用大型语料库。在这里记录并分享做自己实验的时候读函数文档,以及参考各路大神,终于明白LinSentence如何使用的历程。
函数文档链接:models.word2vec – Word2vec embeddings — gensim
(课题师兄说使用库的时候尽量看库文档)
LinSentence 函数在使用之前需要对待处理的文本数据进行分词,并以空格分隔;函数在运行时,按行读取已经以空格分隔的文档。
以下是实验代码
导入即将使用到的库
# -*- coding: utf-8 -*-
import math
import jieba
import jieba.posseg as psg
from gensim import