千言数据集：文本相似度——数据读取部分

最新推荐文章于 2025-05-07 09:13:51 发布

zxc123qwer

最新推荐文章于 2025-05-07 09:13:51 发布

阅读量1k

点赞数 1

文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/zxc123qwer/article/details/122430394

版权

本项目汇集LCQMC、BQCorpus及PAWS-X（中文）等权威数据集，旨在评估文本相似度模型性能，促进自然语言处理领域的发展。通过对比两段文本的语义相似性，该项目为研究人员提供了宝贵的资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以下学习笔记来源于 Coggle 30 Days of ML（22年1&2月）
链接：https://coggle.club/blog/30days-of-ml-202201

比赛链接：https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition

赛题介绍

文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向，同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用，具有很高的商业价值。

目前学术界的一些公开中文文本相似度数据集，在相关论文的支撑下对现有的公开文本相似度模型进行了较全面的评估，具有较高权威性。

因此，本开源项目收集了这些权威的数据集，期望对模型效果进行综合的评价，旨在为研究人员和开发者提供学术和技术交流的平台，进一步提升文本相似度的研究水平，推动文本相似度在自然语言处理领域的应用和发展。

本次评测的文本相似度数据集包括公开的三个文本相似度数据集，分别为哈尔滨工业大学（深圳）的 LCQMC 和 BQ Coupus，以及谷歌的 PAWS-X（中文）。各数据集的简介如下：

LCQMC
LCQMC（A Large-scale Chinese Question Matching Corpus）, 百度知道领域的中文问题匹配数据集，目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。
BQ Corpus
BQ Corpus（Bank Question Corpus）, 银行金融领域的问题匹配数据，包括了从一年的线上银行系统日志里抽取的问题pair对，是目前最大的银行领域问题匹配数据。
PAWS-X (中文)
PAWS (Paraphrase Adversaries from Word Scrambling)，谷歌发布的包含 7 种语言释义对的数据集，包括PAWS（英语）与 PAWS-X（多语）。数据集里包含了释义对和非释义对，即识别一对句子是否具有相同的释义（含义），特点是具有高度重叠词汇，对于进一步提升模型对于强负例的判断很有帮助。

各个数据集的任务均一致，即判断两段文本在语义上是否相似的二分类任务：

数据读取部分具体代码

导入pandas：

import pandas as pd

加载数据集：

bq_train=pd.read_csv('./bq_corpus/train.tsv',sep='\t',
                     names=['text1','text2','label'],
                     error_bad_lines=False)
lcqmc_train=pd.read_csv('./lcqmc/train.tsv',sep='\t',
                        names=['text1','text2','label'])
pawsx_train=pd.read_csv('./paws-x-zh/train.tsv',sep='\t',
                        names=['text1','text2','label'])

在加载 bq_corpus/train.tsv 数据的时候发现报错：
ParserError: Error tokenizing data. C error: Expected 3 fields in line 20746
pandas是按照第0行的列长度来读取，然后后面某些行的列长度超出了就会出现报错，我们将这几行数据去掉，因此加上
error_bad_lines=False
观察部分数据：
请添加图片描述