TF-IDF与信息熵概念解析-CSDN博客

本文链接：https://blog.csdn.net/zaishijizhidian/article/details/89289696

本文介绍了TF-IDF的概念，它通过词频和逆向文件频率计算词语的重要性。TF-IDF分数等于词频乘以逆向文件频率。此外，还探讨了信息熵的相关概念，包括自信息熵、条件熵、联合熵和互信息，引用了《从投骰子到阿尔法狗》中的相关内容。

1.TF-IDF简介

内容参考百度百科
TFIDF实际上是：TF * IDF

词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。

逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目。

这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 lg10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。

2.计算文本中的TF-IDF值

使用skitlearn中的TfidfTransformer函数

# coding:utf-8
 
import jieba
import jieba.posseg as pseg
import os
import sys
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
 
if __name__ == "__main__":
    corpus=["我 来到 北京 清华大学",#第一类文本切词后的结果，词之间以空格隔开
        "他 来到 了 网易 杭研 大厦",#第二类文本的切词结果
    &nb