【AI实战】中文文本相似度模型、开源数据集合集

概念

文本相似度是指衡量两个文本的相似程度,通常我指语义的相似度。

相似度模型

无监督模型

TF-IDF

TF-IDF(Term Frequency – Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。

TF-IDF 常在向量空间模型中与余弦相似度一起使用,以判断两份文本之间的相似度。

BM25

BM25 算法的全称为 Okapi BM25,是一种搜索引擎用于评估查询和文档之间相关程度的排序算法,其中 BM 是 Best Match 的缩写。

LSA

潜在语义分析(LSA, Latent Semantic Analysis)的核心思想是将文本的高维词空间映射到一个低维的向量空间,我们称之为隐含语义空间。

基于 BERT 的模型

SBERT

论文链接:《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》

BERT-Flow

paper : 《On the Sentence Embeddings from Pre-trained Language Models》
code : github/BERT-Flow

BERT-Whitening

code:bert_whitening

SBERT - Whitening

【最佳方法】先做 SBERT,再进行Whitening。

对比学习模型

对比学习包括:SimCSE、ConSERT、ESimCSE等。

SimCSE

论文链接:《SimCSE: Simple Contrastive Learning of Sentence Embeddings》

ConSERT

论文链接:《ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer》

ESimCSE

论文链接:《ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding》

数据集

开源数据集包括:DIAC2019、CCKS2018_Task3、LCQMC、AFQMC、GAIIC2021_Task3、THS2021、CHIP2019、SOHU_2021、COVID19、PAWSX、XF2021、Chinese-MNLI、Chinese-SNLI、Chinese-STS-B、OCNLI、PKU Paraphrase Bank。

数据总结

数据原始数据/项目地址原始数据描述
DIAC2019地址基于Adversarial Attack的问题等价性判别比赛数据集
CCKS2018_Task3地址CCKS 2018 微众银行智能客服问句匹配大赛
LCQMC地址哈工大发表的一个中文问答匹配数据集
AFQMC地址蚂蚁金融语义相似度数据集
GAIIC2021_Task3地址小布助手对话短文本语义匹配比赛数据集
THS2021地址同花顺2021人工智能大赛-跨领域迁移的文本语义匹配数据集
CHIP2019地址平安医疗科技疾病问答迁移学习比赛数据集
SOHU_2021地址2021搜狐校园文本匹配算法大赛数据集
COVID19地址“公益AI之星”挑战赛-新冠疫情相似句对判定大赛数据集
PAWSX地址多语言释义识别对抗性数据集
XF2021地址讯飞赛题—中文问题相似度挑战赛数据集
Chinese-MNLI地址中文MNLI数据集
Chinese-SNLI地址中文SNLI数据集
Chinese-STS-B地址中文SNLI数据集
OCNLI地址原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。
PKU地址句级中文文本复述语料库
CINLID地址中文成语语义推理数据集

数据量

总样本数为匹配样本个数不匹配样本个数
afqmc3865011911
ccks2018_task310000050000
chip20192000010000
COVID-19107494301
diac201910029838446
gaiic2021_task317717354805
lcqmc260068149226
pawsx5340123576
ths20214175610478
xf202150002892
sohu_20216957818714
cmnli404024134889
csnli564339188518
ocnli5338717726
cstsb4473401
pku509832509832

数据下载地址

清洗及格式转换后的数据,下载链接:百度云
提取码:rt6f
【请勿用于商用!!!】

参考

  1. https://arxiv.org/abs/1908.10084
  2. https://arxiv.org/abs/2011.05864
  3. https://github.com/hellonlp/text-similarity/tree/main/bert_whitening
  4. https://arxiv.org/abs/2105.11741
  5. https://arxiv.org/abs/2109.04380
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

szZack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值