参考:
http://www.codeceo.com/article/tf-idf.html
http://mp.weixin.qq.com/s?__biz=MjM5MDEzNDAyNQ==&mid=2650313710&idx=1&sn=29897190500a55bdbc56daf9ddb22a35&chksm=be4549888932c09ee1e9596ae4ca1fab4e7212d01aad158b77f5b06c88c6ea6263a22414df9e&mpshare=1&scene=1&srcid=0318lBdwcWBf4d46mPdfO8Fe#rd
1.TF-IDF原理
TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。TF-IDF通过计算每个词的TF-IDF值,筛选出每个文档中最关键一些词。
那么问题来了,TF-IDF是怎么定义“关键”?作为一个文档中的关键词,我想应该同时满足如下2个特征:
-
特征1:出现