基于词频的文本相似度

最新推荐文章于 2023-01-02 17:56:50 发布

C__zhang

最新推荐文章于 2023-01-02 17:56:50 发布

阅读量3.9k

点赞数 8

分类专栏：个人项目文章标签：文本相似度余弦相似度词频

本文链接：https://blog.csdn.net/zhang21722668/article/details/93983740

版权

个人项目专栏收录该内容

0 篇文章 0 订阅

订阅专栏

基于词频的文本相似度

项目源码： https://github.com/zhang2172268/mygit/tree/master/textSimilarity/textSimilarity

文本

原理（基于词频）：统计词频，构建词频特征向量，利用特征向量夹角余弦表示文本相似度。

统计文本中每个词出现的次数，即词频，通过词频构建文本向量，通过计算两个文本向量之间的余弦相似度，反映两个文本之间的相似度；这类算法也有缺点，没有很好地解决文本数据中存在的自然语言问题，即同义词和多义词。
文本分词->去掉停用词->统计词频->构建词频向量->计算余弦相似度

分词

第一步进行文本分词

词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此中文是一定要分词的。

基于jieba分词第三方库。
介绍一下jieba第三方库所用到的算法。
- 基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)；
- 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合；
- 对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法。
我主要是用这个库来实现文本的精确分词，接着拿到这些词的出现的频率，构建基于词频的特征向量。通过特征向量借助多种算法来求文本相似度。
注：在linux下编码方式是UTF-8的，但是在windows下编码方式是GBK的；但是jieba 分词只支持UTF-8编码方式，因此我在windows下VS中使用jieba 时，要先将词的编码方式进行转换。

第二步去掉停用词

人类语言包含很多功能词。与其他词相比，功能词没有什么实际含义。停用词主要包括数字、标点符号及使用频率特高的词(代词，语气助词、副词、介词、连接词 )等。
我
我们
怎么办
总之
此外然而不如不妨。 , ？
…
停用词不代表实际意义，所以不需要统计停用词的词频，停用词不参与构建词频向量。

统计词频

第三步统计词频

词频
- 词频即为单词在文章中出现的次数。
- 词频的大小一般可以反映一个词在一篇文章中的重要性，词频越大，可以认为该词越重要。
- 一篇文章的语义可以由一组关键词简要概括，比如"今天早上八点钟，我要去教室上课"，关键词"八点，教室，上课"。
分词编码
- 在构建文本词频向量时，需要考虑向量的意义，也必须保证向量的一致性，这样才有可比性。
- 意义：文本的语义，用词频来表示
  一致性：如何保证一致性？向量中的每一维值都应该表示相同的意思。
  更具体的说，一致性就体现在两个文本向量的每一维都应该表示同一个词的词频。
  举个例子：
  文档1：今天/有事/，/没办法/去/教室/上课/了
  文档2：真想/去/教室/上课/，/但是/今天/有事/，/去不了/教室/了
  文档1中的词频：[今天：1，有事：1，没办法：1，去：1，教室：1，上课：1，了：1]
  文档2中的词频：[真想：1，去：1，教室：2，上课：1，但是：1，今天：1，有事：1，去不了：1，了：1]
去掉停用词之后：
文档1中的词频：[有事：1，没办法：1，去：1，教室：1，上课：1]
文档2中的词频：[真想：1，去：1，教室：2，上课：1，有事：1，去不了：1]
- 直接用上述词频构建每一个文本的词频向量无意义，每一维表示的意思不同，两个向量没有可比性。
- 构建一致的词频向量：给每一维的词频编码，然后去看每一维的词频向量。
- 把两个文本中的所有有效词全部编码，对于长文本可以按词频从大到小排序，取前n个关键词按照码值构建词频向量.
  比如：
  文档1中的词频：[有事：1，没办法：1，去：1，教室：1，上课：1]
  文档2中的词频：[真想：1，去：1，教室：2，上课：1，有事：1，去不了：1]
  所有有效词：比特，去，真想，上课，有事，去不了，没办法
  给所有有效词编码：教室：0，去：1，真想：2，上课：3，有事：4，去不了：5，没办法：6