千言数据集：文本相似度—— 训练中文词向量

zxc123qwer

已于 2022-01-22 17:06:22 修改

阅读量1.3k

点赞数

文章标签： python 深度学习人工智能自然语言处理

于 2022-01-22 16:05:39 首次发布

本文链接：https://blog.csdn.net/zxc123qwer/article/details/122638554

版权

以下学习笔记来源于 Coggle 30 Days of ML（22年1&2月）
链接：https://coggle.club/blog/30days-of-ml-202201

比赛链接：https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition

加载数据集，训练中文词向量

导入所需库

import pandas as pd
import jieba
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

读取数据集

#读取tsv文件的方法
def read_tsv(input_file,columns):
    with open(input_file,"r",encoding="utf-8") as file:
        lines = []
        count = 1
        for line in file:
            if len(line.strip().split("\t")) != 1:
                lines.append([count]+line.strip().split("\t"))
                count += 1
        df = pd.DataFrame(lines)
        df.columns = columns
    return df

bq_train=read_tsv('./bq_corpus/train.tsv',['index','text1','text2','label'])
lcqmc_train=read_tsv('./lcqmc/train.tsv',['index','text1','text2','label'])
pawsx_train=read_tsv('./paws-x-zh/train.tsv',['index','text1','text2','label'])

bq_test=read_tsv('./bq_corpus/test.tsv',['index','text1','text2'])
lcqmc_test=read_tsv('./lcqmc/test.tsv',['index','text1','text2'])
pawsx_test=read_tsv('./paws-x-zh/test.tsv',['index','text1','text2'])

构建训练语料

Word2Vec第一个参数sentences要求是是预处理后的训练语料库，需要输入一个可迭代的列表，如果是句子，需要进行分词，如果为文件需要将文件处理为每一行对应一个已经分词，以空格隔开的句子。然后可以使用gensim.models.word2vec.LineSentence把txt文件转为所需要的格式。这里我们采用第二中方法，将简单处理后的语料保存到文件，若之后任务需要的话方便直接读取。

df_train=pd.concat([bq_train,lcqmc_train,pawsx_train])
df_test=pd.concat([bq_test,lcqmc_test,pawsx_test])
corpus=df_train['text1'].values.tolist()+df_train['text2'].values.tolist()
tokenized_corpus=[' '.join(jieba.lcut(text)) for text in corpus]
f = open('./word2vec_data/corpus.txt', 'w',encoding='utf-8')
for i in tokenized_corpus:
    f.write(i + '\n')

保存后的 corpus.txt文件：
请添加图片描述

训练中文词向量

def train_word2vec():
    corpus=open('./word2vec_data/corpus.txt', 'r',encoding='utf-8')
    model = Word2Vec(LineSentence(corpus), sg=0,vector_size=100, 
                     window=5, min_count=5, workers=9)
    model.save('./word2vec_data/text_similarity.word2vec')

train_word2vec()

加载训练的模型并简单使用

示例：计算词语之间的相似度

model=Word2Vec.load('./word2vec_data/text_similarity.word2vec')
print(model.wv.similarity('贷款','借款'))
print(model.wv.similarity('交易','准备'))

请添加图片描述
查看维数：

zxc123qwer

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
千言数据集：文本相似度—— 训练中文词向量

以下学习笔记来源于 Coggle 30 Days of ML（22年1&2月）链接：https://coggle.club/blog/30days-of-ml-202201比赛链接：https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition加载数据集，训练中文词向量导入所需库import pandas as pdimport jiebafrom gensim.models import Word
复制链接

扫一扫