Tencent_AILab_ChineseEmbedding使用

腾讯AI Lab近日宣布开源大规模、高质量的中文词向量数据集,该数据包含800万中文词汇。

此次公布的中文词向量数据在覆盖率、新鲜度和准确性上有大幅提高,具体的训练及方法在这里不在赘述。

下载地址为https://ai.tencent.com/ailab/nlp/embedding.html,压缩包为6.3G,解压后有15.5G

中文词向量保存在txt文件中,第一行为词汇的总数和词向量维度。从第二行开始,每一行由单词(包括标点符号) 和具体的词向量组成,之间用空格隔开。具体的读取方法如下所示。

with open(r'E:\Tencent_AILab_ChineseEmbedding\Tencent_AILab_ChineseEmbedding.txt','r',encoding='utf-8') as f:
    f.readline()#第一行为词汇数和向量维度,在这里不予展示
    f.readline()
    m=f.readline()#读取第三个词
    vecdic = dict()#构造字典
    vectorlist = m.split()#切分一行,分为词汇和词向量
    vector = list(map(lambda x:float(x),vectorlist[1:]))#对词向量进行处理
    vec = np.array(vector)#将列表转化为array
    vecdic[vectorlist[0]]=vec
    print(vectorlist[0])
    print(vecdic['的'])

结果如下图所示:

 

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值