问题匹配/文本匹配数据集(自用)

这篇博客整理了多个中文语义匹配数据集,包括AFQMC、BUSTM、LCQMC等,适用于智能客服和对话系统的语义相似度评估。提供了数据集链接和样本,以及一些基础的语义匹配模型如BERT和ERNIE。
摘要由CSDN通过智能技术生成

问题匹配(question matching)/Chinese Sentence Pair Classification:

1、AFQMC 蚂蚁金融语义相似度 Ant Financial Question Matching Corpus

1)Gitee库
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{“sentence1”: “双十一花呗提额在哪”,
“sentence2”: “里可以提花呗额度”,
“label”: “0”}

2)蚂蚁金融NLP竞赛数据集
https://pan.baidu.com/share/init?surl=BIgFyK_kmJU4QwbLL82Hxg
5ig5
来源:https://blog.csdn.net/u014732537/article/details/81038260
(好像两个不是一个数据集)

2、BUSTM 小布助手对话短文本匹配数据集 XiaoBu Dialogue Short Text Matching

竞赛数据集

Gitee库:
eg:
{“id”: 5,
“sentence1”: “女孩子到底是不是你”,
“sentence2”: “你不是女孩子吗”,
“label”: “1”}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值