深度【文本分类】【关系抽取】模型中,如何读取并处理输出的训练文件(TXT格式)

1、一般在此类模型中,需要原始文件四个:

train.txt  一般格式为(分类类型 句子)或(关系类型 头实体 尾实体 句子)

test.txt 格式同上

relation2id.txt  (关系类型 关系id)

vec.txt  (word, vec1,...,vec50)假设Embedding的维度为50

注意:要保证这些txt文件都是utf-8编码的


2、先处理vec.txt文件 

目的:

1得到一个wordembedding的矩阵,存放所有word的词向量。

2对这些word进行编号,因为我们后面在模型的输入部分,输入的是由单词编号组成的一个个句子,所以这里要先对word进行编号,其实就是按照文件的读取顺序,从0到len(vec)-1


f = open('./vec.txt', encoding = 'utf-8')

f.readline() #如果文件的第一行有不需要读入的一些注释或说明信息 或表头之类的 可以跳过

word2id = {}  #存放词典,即word和其对应的id

wordembeddings = [] #这是词嵌入矩阵

while True:

    content = f.readline()

    if content == '':

        break

    content = content.strip().split()  #删除字符串的前后空白,并且  按空格键隔开

<
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值