文本处理

最新推荐文章于 2022-07-31 09:27:08 发布

步月听风

最新推荐文章于 2022-07-31 09:27:08 发布

阅读量141

点赞数

本文链接：https://blog.csdn.net/yaogegegege/article/details/90403543

版权

import re
#处理后的文本
'''
第一行原句........<e1>实体A<\e1>...<e2>实体B<\e2>.....
第二行  关系  (语序)
第三行 content
第四行 空

处理后  （按语序）实体Ａ 实体B 关系 （去掉标签）的句子
'''
store  = open('../store .txt','a')
#读取文本，按行读取
with open('TRAIN_FILE.TXT', 'r') as f:
    #每四行文本为一类存入data中处理
    data=[]
    for number, line in enumerate(f,start=1):
        if(number%4==1):#处理第一行原句，将两个实体取出存入 result1和 result2，将句子中的标签去掉，将这三个分别存入data[0]，[1]，[2]中
            result1 = re.findall(".*<e1>(.*)</e1>.*",line)
            result2 = re.findall(".*<e2>(.*)</e2>.*",line)
            result3 = re.findall(".*\"(.*)\".*",line)
            result3 =result3[0].replace('<e1>','')
            result3 =result3.replace('</e1>','')

最低0.47元/天解锁文章

步月听风

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本处理

import re#处理后的文本'''第一行原句........<e1>实体A<\e1>...<e2>实体B<\e2>.....第二行关系 (语序)第三行 content第四行空处理后（按语序）实体Ａ实体B 关系（去掉标签）的句子'''store = open('../store .txt','a')#读取文...
复制链接

扫一扫

文本处理

“相关推荐”对你有帮助么？