预训练语言模型

最新推荐文章于 2024-06-25 21:00:03 发布

向阳争渡

最新推荐文章于 2024-06-25 21:00:03 发布

阅读量520

点赞数

分类专栏： NLP 文章标签：语言模型

本文链接：https://blog.csdn.net/yangyang_yangqi/article/details/88719064

版权

NLP 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

常用的抽取文本特征有：

TFIDF/LDA/LSI
gensim
glove
fasttext
ELMO
Bert

word2vec的训练与简易使用

glove的训练与简易使用

简易版的glove安装使用比较方便

pip install glove-python

word_list = []
with codecs.open(path,'r','utf-8') as f:
    lines = f.readlines()
    for line in lines:
        tmp = line.split(' ')
        print(tmp)
        word_list.append(tmp)

corpus_model_word = Corpus()
#fit时必须格式为[[],[]]
corpus_model_word.fit(word_list, window=10)
glove = Glove(no_components=100, learning_rate=0.05)
glove.fit(corpus_model_word.matrix, epochs=10,no_threads=1, verbose=True)
glove.add_dictionary(corpus_model_word.dictionary)
glove.save('../data/model/article/glove.bin')

其中corpus_model.fit(corpus, window=10, ignore_missing=False)ignore_missing代表如果出现OOV的词，该如何处理。