Tencent_AILab_ChineseEmbedding使用

最新推荐文章于 2023-10-30 21:42:58 发布

酸辣螺丝粉

最新推荐文章于 2023-10-30 21:42:58 发布

阅读量9.9k

点赞数 3

分类专栏：自然语言处理文章标签：中文词向量自然语言处理

本文链接：https://blog.csdn.net/zhylhy520/article/details/83380324

版权

自然语言处理专栏收录该内容

12 篇文章 2 订阅

订阅专栏

腾讯AI Lab近日宣布开源大规模、高质量的中文词向量数据集，该数据包含800万中文词汇。

此次公布的中文词向量数据在覆盖率、新鲜度和准确性上有大幅提高，具体的训练及方法在这里不在赘述。

下载地址为https://ai.tencent.com/ailab/nlp/embedding.html，压缩包为6.3G，解压后有15.5G

中文词向量保存在txt文件中，第一行为词汇的总数和词向量维度。从第二行开始，每一行由单词（包括标点符号）和具体的词向量组成，之间用空格隔开。具体的读取方法如下所示。

with open(r'E:\Tencent_AILab_ChineseEmbedding\Tencent_AILab_ChineseEmbedding.txt','r',encoding='utf-8') as f:
    f.readline()#第一行为词汇数和向量维度，在这里不予展示
    f.readline()
    m=f.readline()#读取第三个词
    vecdic = dict()#构造字典
    vectorlist = m.split()#切分一行，分为词汇和词向量
    vector = list(map(lambda x:float(x),vectorlist[1:]))#对词向量进行处理
    vec = np.array(vector)#将列表转化为array
    vecdic[vectorlist[0]]=vec
    print(vectorlist[0])
    print(vecdic['的'])

结果如下图所示：

酸辣螺丝粉

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Tencent_AILab_ChineseEmbedding使用

腾讯AI Lab近日宣布开源大规模、高质量的中文词向量数据集，该数据包含800万中文词汇。此次公布的中文词向量数据在覆盖率、新鲜度和准确性上有大幅提高，具体的训练及方法在这里不在赘述。下载地址为https://ai.tencent.com/ailab/nlp/embedding.html，压缩包为6.3G，解压后有15.5G中文词向量保存在txt文件中，第一行为词汇的总数和词向量维度。...
复制链接

扫一扫