1.文档中某些字/词出现的频次往往能反应该字在文档中的重要程度,也从侧面反应了文档的主题,比如一个新闻,如果出现很多类似“足球”“篮球”词汇的描述,我们可以大概率推断这是一个关于体育的新闻。但是有些高频词会影响我们对文档的分析,比如“我”“你”“。、,!”这种词汇在文档中的数目非常多,但对于我们分析文档,没有什么益处,毕竟所有的文档,基本都包括这些内容。
2.NLP中对于给定一个句子,其中
是一个单词或者汉字/词语,为了处理这一段话,我们首先要将句子数字化处理。即进行初步的字符映射编码!其中用词之间的共现来表示一个句子的向量是一种不错的方式;比如有三句话:我 喜欢 自然 语言 处理 。/我 爱 深度 学习 。/我 喜欢 机器 学习 。(已分词)
这三句话的词表包括:【我 喜欢 自然 语言 处理 爱 深度 学习 机器 。】三个句子的共现矩阵如下表示:其中M_ij表示词典中第i个词和第j个词在文档中(此指三个句子)的共现次数
注:共现矩阵的每一行表示该词的向量表示,即 "我" :[0, 2, 1, 1, 1, 1, 1, 2, 1, 3]