文本挖掘学习day1 文本向量化方法1、TF-IDF2、Word2vector 文本向量化方法 拿到文本数据库,肯定是不能直接输入模型的,一般在预处理之后(清洗,分词,去停用词),将文本数据进行向量化。一下介绍文本向量化方法: 1、TF-IDF TF-IDF(TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)),TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 tf ij = nij/ 2、Word2vector