LCSTS数据集正确的处理方法

原始txt在4w行的时候可能漏了换行符,导致pd.read_table方法会报错,就算设置了error_bad_lines也会导致直接跳过,后面无法对齐。用read_line一行行读取又太慢。所以正确的方法是用read_csv里面自带的正则

import pandas as pd
a=pd.read_table('PART_I.txt',header=None,warn_bad_lines=True,error_bad_lines=False,sep='<[/d|/s|do|su|sh][^a].*>',encoding='utf-8')
a=a[0].dropna()
a=a.reset_index(drop=True)
a=pd.concat([a[1::2].reset_index(drop=True),a[::2].reset_index(drop=True)],axis=1)
a.columns=['srctext','tgttext']
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: LCSTS数据集共分为三个部分:训练集、验证集和测试集。 训练集:训练集是指用于训练模型的数据集LCSTS训练集包含了来自新浪新闻网2013年的短文本和点击量最高的评论,共计2,400,000个样本。这些样本已经通过了数据清洗和去重处理,并且已经按照一定的比例随机划分成多个小批次,方便模型的训练。 验证集:验证集是指用于验证模型性能和调整参数的数据集LCSTS验证集共包含1,200个样本,其中50%为含有讽刺和批评的样本,另外50%为不含有讽刺和批评的样本。这些样本可以帮助我们评估模型的性能和确定模型的最佳参数。 测试集:测试集是指用于测试模型在未知数据上的性能的数据集LCSTS测试集共包含1,500个样本,其中50%为含有讽刺和批评的样本,另外50%为不含有讽刺和批评的样本。这些样本可以用来评估模型在真实场景下的性能和泛化能力。 ### 回答2: lcsts数据集由三部分组成:原始数据集、分词后数据集和摘要数据集。 原始数据集包含了70万对中英文短文本,其中中文短文本长度在10个字至100个字之间,英文短文本长度在5个字至50个字之间。这部分数据集对于机器翻译、文本匹配和摘要生成领域的研究有很大的参考价值。 为了方便处理和使用,lcsts数据集还提供了分词后的数据集。根据中文文本特性,对中文短文本进行分词后,可以得到更加清晰、规范的中文单词序列。这使得NLP领域的处理和分析更为方便和准确。 摘要数据集是原始数据集的精华。通过对原始数据集中英文短文本进行人工筛选、编辑和生成,得到了5.5万对中文摘要和英文摘要。这些中英文摘要是对原始短文本的高度概括和提炼,是进行文本摘要和文本生成研究的重要数据来源。 综上所述,lcsts数据集的三部分都对于自然语言处理领域的研究有着重要的意义和价值,在文本翻译、匹配、摘要和生成等方面都有广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值