import re
#处理后的文本
'''
第一行原句........<e1>实体A<\e1>...<e2>实体B<\e2>.....
第二行 关系 (语序)
第三行 content
第四行 空
处理后 (按语序)实体A 实体B 关系 (去掉标签)的句子
'''
store = open('../store .txt','a')
#读取文本,按行读取
with open('TRAIN_FILE.TXT', 'r') as f:
#每四行文本为一类存入data中处理
data=[]
for number, line in enumerate(f,start=1):
if(number%4==1):#处理第一行原句,将两个实体取出存入 result1和 result2,将句子中的标签去掉,将这三个分别存入data[0],[1],[2]中
result1 = re.findall(".*<e1>(.*)</e1>.*",line)
result2 = re.findall(".*<e2>(.*)</e2>.*",line)
result3 = re.findall(".*\"(.*)\".*",line)
result3 =result3[0].replace('<e1>','')
result3 =result3.replace('</e1>','')
文本处理
最新推荐文章于 2022-07-31 09:27:08 发布