【文本相似度计算】总结篇

本文概述了文本相似度的概念,介绍了Sim(A,B)公式,并详细分类和解析了基于字符串的计算方法,包括基于字符和词语的算法,如编辑距离、Jaro-Winkler距离、N-gram等,用于衡量文本之间的相似程度。" 109696008,8654985,前端工程师Go语言语法速成指南(上),"['Go', 'Go入门', '前端开发']
摘要由CSDN通过智能技术生成

先留位

 

文本相似度概念:

Sim(A,B)=logP(common(A,B))/logP(description(A,B)) 

其中, common(A,B)是A和B的共性信息, description(A,B)是描述A和B的全部信息, 公式表达出相似度与文本共性成正相关。

文本相似度计算方法分类如下:

基于字符串的计算方法:

该方法从字符串匹配度出发, 以字符串共现和重复程度为相似度的衡量标准。根据计算粒度不同, 可将方法分为基于字符(Character-Based)的方法和基于词语(Term-Based)的方法。一类方法单纯从字符或词语的组成考虑相似度算法, 如编辑距离、汉明距离、余弦相似度、Dice系数、欧式距离; 另一类方法还加入了字符顺序, 即字符组成和字符顺序相同是字符串相似的必要条件, 如最长公共子串(Longest Common Substring, LCS)、Jaro-Winkler; 再一类方法采用集合思想, 将字符串看作由词语构成的集合, 词语共现可用集合的交集计算, 如N-gram、Jaccard、Overlap Coefficient。表1列出了主要方法, 其中SA、SB表示字符串A、B。

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值