句子/文档相似度计算
1.计算两个句子的相似性
分词à列出所有词à计算词频à列出词频向量à两个向量的相似程度
通过夹角的大小,来判断向量的相似程度。夹角越小,代表越相似(夹角越小,余弦值越大)
2.计算两篇文档的相似性
- 使用特征选择(TF-IDF)算法,找出两篇文章的关键词;
- 每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);
- 生成两篇文章各自的词频向量;
- 计算两个向量的余弦相似度,值越大就表示越相似。