文本处理

import re
#处理后的文本
'''
第一行原句........<e1>实体A<\e1>...<e2>实体B<\e2>.....
第二行  关系  (语序)
第三行 content
第四行 空

处理后  (按语序)实体A 实体B 关系 (去掉标签)的句子
'''
store  = open('../store .txt','a')
#读取文本,按行读取
with open('TRAIN_FILE.TXT', 'r') as f:
    #每四行文本为一类存入data中处理
    data=[]
    for number, line in enumerate(f,start=1):
        if(number%4==1):#处理第一行原句,将两个实体取出存入 result1和 result2,将句子中的标签去掉,将这三个分别存入data[0],[1],[2]中
            result1 = re.findall(".*<e1>(.*)</e1>.*",line)
            result2 = re.findall(".*<e2>(.*)</e2>.*",line)
            result3 = re.findall(".*\"(.*)\".*",line)
            result3 =result3[0].replace('<e1>','')
            result3 =result3.replace('</e1>','')
           
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值