千言数据集:文本相似度——数据读取部分

以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月)
链接:https://coggle.club/blog/30days-of-ml-202201

比赛链接:https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition

赛题介绍

文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用,具有很高的商业价值。

目前学术界的一些公开中文文本相似度数据集,在相关论文的支撑下对现有的公开文本相似度模型进行了较全面的评估,具有较高权威性。

因此,本开源项目收集了这些权威的数据集,期望对模型效果进行综合的评价,旨在为研究人员和开发者提供学术和技术交流的平台,进一步提升文本相似度的研究水平,推动文本相似度在自然语言处理领域的应用和发展。

本次评测的文本相似度数据集包括公开的三个文本相似度数据集,分别为哈尔滨工业大学(深圳)的 LCQMC 和 BQ Coupus,以及谷歌的 PAWS-X(中文)。各数据集的简介如下:

  • LCQMC
    LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道领域的中文问题匹配数据集,目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。

  • BQ Corpus
    BQ Corpus(Bank Question Corpus), 银行金融领域的问题匹配数据,包括了从一年的线上银行系统日志里抽取的问题pair对,是目前最大的银行领域问题匹配数据。

  • PAWS-X (中文)
    PAWS (Paraphrase Adversaries from Word Scrambling),谷歌发布的包含 7 种语言释义对的数据集,包括PAWS(英语) 与 PAWS-X(多语)。数据集里包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,对于进一步提升模型对于强负例的判断很有帮助。

各个数据集的任务均一致,即判断两段文本在语义上是否相似的二分类任务:

数据读取部分具体代码

导入pandas:

import pandas as pd

加载数据集:

bq_train=pd.read_csv('./bq_corpus/train.tsv',sep='\t',
                     names=['text1','text2','label'],
                     error_bad_lines=False)
lcqmc_train=pd.read_csv('./lcqmc/train.tsv',sep='\t',
                        names=['text1','text2','label'])
pawsx_train=pd.read_csv('./paws-x-zh/train.tsv',sep='\t',
                        names=['text1','text2','label'])

在加载 bq_corpus/train.tsv 数据的时候发现报错:
ParserError: Error tokenizing data. C error: Expected 3 fields in line 20746
pandas是按照第0行的列长度来读取,然后后面某些行的列长度超出了就会出现报错,我们将这几行数据去掉,因此加上
error_bad_lines=False
观察部分数据:
请添加图片描述

请添加图片描述
请添加图片描述
label为1代表text1和text2相似,否则不相似。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值