原始txt在4w行的时候可能漏了换行符,导致pd.read_table方法会报错,就算设置了error_bad_lines也会导致直接跳过,后面无法对齐。用read_line一行行读取又太慢。所以正确的方法是用read_csv里面自带的正则
import pandas as pd
a=pd.read_table('PART_I.txt',header=None,warn_bad_lines=True,error_bad_lines=False,sep='<[/d|/s|do|su|sh][^a].*>',encoding='utf-8')
a=a[0].dropna()
a=a.reset_index(drop=True)
a=pd.concat([a[1::2].reset_index(drop=True),a[::2].reset_index(drop=True)],axis=1)
a.columns=['srctext','tgttext']