各种领域匹配数据汇总

1:数据介绍

  • ATEC:是金融领域客服场景的数据.
  • BQ:银行领域的问题匹配,BQ数据链接
  • LCQMC:覆盖多个领域的问题匹配,LCQMC数据链接
  • PAWSX:谷歌发布的数据集,包含多种释义对和非释义对。
  • STS-B:计算两句话的相关性,是通过翻译和人工修正后的数据集。

2:数据分类

  • 是非类:数据格式(sentencea, sentenceb, 是否相似)这种类型代表数据(ATEC,BQ,LCQMC,PAWSX)
  • NLI类:Natural Language Inference(自然语言推理),数据格式(sentencea, sentenceb, 蕴含/中立/矛盾)自然语言推理数据集这是一种更精细一点的相似数据集。
  • 打分类:这是一种最精细的相似度语料,数据格式(sentencea, sentenceb, 相似程度),能找到的中文数据集是STS-B。

3: 匹配数据下载链接

https://pan.baidu.com/s/1ETMOM6xK7ZKVMgUa5z2sDA
提取码:z9aq
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值