1:数据介绍
- ATEC:是金融领域客服场景的数据.
- BQ:银行领域的问题匹配,BQ数据链接。
- LCQMC:覆盖多个领域的问题匹配,LCQMC数据链接。
- PAWSX:谷歌发布的数据集,包含多种释义对和非释义对。
- STS-B:计算两句话的相关性,是通过翻译和人工修正后的数据集。
2:数据分类
- 是非类:数据格式(sentencea, sentenceb, 是否相似)这种类型代表数据(ATEC,BQ,LCQMC,PAWSX)
- NLI类:Natural Language Inference(自然语言推理),数据格式(sentencea, sentenceb, 蕴含/中立/矛盾)自然语言推理数据集这是一种更精细一点的相似数据集。
- 打分类:这是一种最精细的相似度语料,数据格式(sentencea, sentenceb, 相似程度),能找到的中文数据集是STS-B。
3: 匹配数据下载链接
https://pan.baidu.com/s/1ETMOM6xK7ZKVMgUa5z2sDA
提取码:z9aq