千言数据集:文本相似度——数据读取部分

以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月)
链接:https://coggle.club/blog/30days-of-ml-202201

比赛链接:https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition

赛题介绍

文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用,具有很高的商业价值。

目前学术界的一些公开中文文本相似度数据集,在相关论文的支撑下对现有的公开文本相似度模型进行了较全面的评估,具有较高权威性。

因此,本开源项目收集了这些权威的数据集,期望对模型效果进行综合的评价,旨在为研究人员和开发者提供学术和技术交流的平台,进一步提升文本相似度的研究水平,推动文本相似度在自然语言处理领域的应用和发展。

本次评测的文本相似度数据集包括公开的三个文本相似度数据集,分别为哈尔滨工业大学(深圳)的 LCQMC 和 BQ Coupus,以及谷歌的 PAWS-X(中文)。各数据集的简介如下:

  • LCQMC
    LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道领域的中文问题匹配数据集,目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。

  • BQ Corpus
    BQ Corpus(Bank Question Corpus), 银行金融领域的问题匹配数据,包括了从一年的线上银行系统日志里抽取的问题pair对,是目前最大的银行领域问题匹配数据。

  • PAWS-X (中文)
    PAWS (Paraphrase Adversaries from Word Scrambling),谷歌发布的包含 7 种语言释义对的数据集,包括PAWS(英语) 与 PAWS-X(多语)。数据集里包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,对于进一步提升模型对于强负例的判断很有帮助。

各个数据集的任务均一致,即判断两段文本在语义上是否相似的二分类任务:

数据读取部分具体代码

导入pandas:

import pandas as pd

加载数据集:

bq_train=pd.read_csv('./bq_corpus/train.tsv',sep='\t',
                     names=['text1','text2','label'],
                     error_bad_lines=False)
lcqmc_train=pd.read_csv('./lcqmc/train.tsv',sep='\t',
                        names=['text1','text2','label'])
pawsx_train=pd.read_csv('./paws-x-zh/train.tsv',sep='\t',
                        names=['text1','text2','label'])

在加载 bq_corpus/train.tsv 数据的时候发现报错:
ParserError: Error tokenizing data. C error: Expected 3 fields in line 20746
pandas是按照第0行的列长度来读取,然后后面某些行的列长度超出了就会出现报错,我们将这几行数据去掉,因此加上
error_bad_lines=False
观察部分数据:
请添加图片描述

请添加图片描述
请添加图片描述
label为1代表text1和text2相似,否则不相似。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Kubernetes电子书籍合集是一组关于容器编排工具Kubernetes的优质图书资源,这些电子书籍旨在为读者提供在构建、部署和管理容器工作负载时所需的深入知识和实践技能。 这些电子书籍的作者们都是来自Kubernetes社区的专业人士,他们从各自的专业领域出发,对Kubernetes的不同方面进行了细致深入的研究和探讨,其中包括:Kubernetes核心概念、API和资源对象、应用部署和调度、存储、网络等方面的知识点。 通过阅读这些电子书籍,读者可以了解到Kubernetes的基础知识和架构,掌握它的基本使用方法和管理技巧,尤其是了解最佳实践,以便在实际使用中更好地应用这一容器编排工具。 总体而言,这些Kubernetes电子书籍合集不仅适合那些从事容器化、DevOps和云计算相关工作的专业人士,还适合那些对Kubernetes感兴趣并希望深入了解的读者使用,可以作为学习Kubernetes的重要参考资料。 ### 回答2: Kubernetes是目前最流行的容器编排和管理平台,也是DevOps和云架构师的必备技能之一。为了更好地学习和掌握Kubernetes,许多业内知名作者和机构都推出了电子书籍合集。 这些电子书籍涵盖了Kubernetes的各个方面,包括其基本概念和架构、部署和管理、安全和监控、设计和开发实践等。它们不仅提供了许多实用的技术指南和最佳实践,还可以帮助读者深入了解Kubernetes背后的设计理念和思想。 主要的电子书籍合集包括: •《Kubernetes指南》:由Kubernetes社区撰写,提供了Kubernetes资源编排模型、Pod和容器的概念、应用部署、负载均衡等实用内容。 •《Kubernetes实战》:由Brendan Burns、Kelsey Hightower和Joe Beda三位Google工程师合著,系统地介绍了Kubernetes的各种场景和应用,包括使用Kubernetes部署应用和服务、进行CI/CD等。 •《Kubernetes权威指南》:由Kubernetes中国社区编写,讲述了Kubernetes的概念和设计、安装和部署、控制器和API等,深入探讨了Kubernetes的内部原理和运行机制。 •《Kubernetes in Action》:由Marko Luksa编写,是一本深入Kubernetes工作原理和实用技术的书籍,覆盖了Kubernetes中的大部分核心概念和应用场景,并提供了大量实用的例子和最佳实践。 总之,Kubernetes电子书籍合集可以帮助读者更好地学习和掌握Kubernetes,是在DevOps和云架构师道路上的必备读物。 ### 回答3: Kubernetes 是一个流行的容器编排平台,广泛应用于云计算、微服务等领域。想要深入了解 Kubernetes 并掌握其使用技巧,电子书籍可能是一种很好的学习资源。本次合集收录了多本优秀的 Kubernetes 电子书籍,包括《Kubernetes中文指南》、《Kubernetes Handbook》、《Kubernetes Cookbook》等。它们从不同的角度、层次对 Kubernetes 进行了全面、深入的介绍。其中,《Kubernetes中文指南》是一本面向初学者的实用书籍,介绍了 Kubernetes 的基础概念、部署、使用等方面;《Kubernetes Handbook》则涉及了 Kubernetes 的进阶技术,如 Scheduler、Controller、API Server 等的深度解析;《Kubernetes Cookbook》则从实际应用场景出发,介绍了如何使用 Kubernetes 部署 Web 应用、数据处理、监控等。此外,合集中还收录了一些优秀的 Kubernetes 相关文章或文档,如 Google 官方的 Kubernetes 文档、Kubernetes 安全指南等。这些资源可以帮助读者更好地理解 Kubernetes 相关概念、原理和实践方法,提高相关技能,值得称赞。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值