LCSTS数据集正确的处理方法

最新推荐文章于 2024-04-14 00:09:50 发布

不知道改啥

最新推荐文章于 2024-04-14 00:09:50 发布

阅读量525

点赞数 1

文章标签： nlp 自然语言处理

本文链接：https://blog.csdn.net/weixin_44605402/article/details/120283144

版权

原始txt在4w行的时候可能漏了换行符，导致pd.read_table方法会报错，就算设置了error_bad_lines也会导致直接跳过，后面无法对齐。用read_line一行行读取又太慢。所以正确的方法是用read_csv里面自带的正则

import pandas as pd
a=pd.read_table('PART_I.txt',header=None,warn_bad_lines=True,error_bad_lines=False,sep='<[/d|/s|do|su|sh][^a].*>',encoding='utf-8')
a=a[0].dropna()
a=a.reset_index(drop=True)
a=pd.concat([a[1::2].reset_index(drop=True),a[::2].reset_index(drop=True)],axis=1)
a.columns=['srctext','tgttext']

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不知道改啥

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
LCSTS数据集正确的处理方法

LCSTS数据集正确的处理方法原始txt在4w行的时候可能漏了换行符，导致pd.read_table方法会报错，就算设置了error_bad_lines也会导致直接跳过，后面无法对齐。用read_line一行行读取又太慢。所以正确的方法是用read_csv里面自带的正则import pandas as pda=pd.read_table('PART_I.txt',header=None,warn_bad_lines=True,error_bad_lines=False,sep='<[/d|/s|
复制链接

扫一扫