NLP学习笔记「第三章」3.1 Representing Documents in Vector Space(如何将文档映射到向量空间里面)

最新推荐文章于 2024-07-12 01:00:00 发布

狗头吧欣喜若狂

最新推荐文章于 2024-07-12 01:00:00 发布

阅读量219

点赞数

分类专栏： NLP 文章标签：自然语言处理学习人工智能

本文链接：https://blog.csdn.net/weixin_43890373/article/details/125494288

版权

NLP 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

这篇博客探讨了朴素贝叶斯模型在文档分类中的应用，介绍了如何通过计算每个类别的条件概率来确定文档的类别。文章提到了特征向量的概念，其中每个元素表示词在文档中的出现次数，以及词与类别的概率关系。进一步，文章讨论了向量空间模型，特别是TF-IDF向量，它通过降低频繁词的权重来提高文档表示的有效性。TF-IDF考虑了词在所有文档中的分布，从而更准确地反映了词的重要性和区分度。

摘要由CSDN通过智能技术生成

Review Naibe Bayes

$\begin{aligned}P(c|d)&=P(c)*\prod_{x\in c}P(w|c)\\logP(c|d)&=logP(c)+\sum_{w\in c}logP(w|c)\end{aligned}$

文档分类模型，给定文档d，朴素贝叶斯计算各个类别c的条件概率，参数化过程是公式一，那么取对数就是公式二。

$l o g P (c)$ 是指类别本身出现的概率，比如说每一个词对于类别的影响，如果我见到更多的关于财经类的词，那我判断为财经类，如果我见到更多关于运动类的词那我确定是运动类。

Feature vectors

换一个角度理解 $l o g P (w ∣ c)$

$\sum_{w\in c}logP(w|c)$ 可以看成是两个因素决定的：

每一个词出现在文档里的个数
每一个词和类别标签的概率关系

我们把第一个因素用一个向量 $\Phi$ 来表示，这个向量有词汇表V这么长，其中向量中的f_i代表词汇表第i个词出现的次数。

假定第一个元素f_1代表goal在文档d出现的次数

第二个因素我们定义为 $\theta$ ,对于每一个类别都有一个特定的值。比如，拿sports这个类别来讲，我可以给一个 $\vec\theta_{sports}$ 这个向量同样有词汇表V那么长，每一个元素对应 $\Phi$ 里面的一个元素，比如第一个元素我存的是 $l o g P (g o a l ∣ s p o r t s)$
$\vec\Phi= \begin{bmatrix} f_1\\f_2\\...\\f_{|v|} \end{bmatrix} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \vec\theta_{sports}= \begin{bmatrix} logP(goal|sports)\\ logP(fans|sports)\\ ...\\ logP(stock|sports)\\ logP(loan|sports)\\ logP(CEO|sports) \end{bmatrix}$

$f_1=\#goal\in d$
当我们用这个向量来表示，文档和概率之间关系的时候，就会发现，
$logP(c=sports|d)=\vec\theta_{sports}\cdot\vec{\Phi}+logP(c=sports)$

Vector Space Model

mapping documents to vectors

朴素贝叶斯模型和向量空间有一定的内在联系，我们把一个文档映射到一个向量空间里，空间的每一维代表词汇表的某一个词的语义信息，d这个文档向量，在这个空间里每一个维度的大小，就代表d里面含有相关信息的大小。

Vector representation of documents

对于这四个文档我可以计算四个不同的向量，每一个向量就代表这个文档不同的词出现的频率，那么抽象起来就是如下：

Sparse vectors document representation

词汇表用w来表示，Vocabulary: $V = {w_1，w_2,…，w_n}$
将文档映射为向量，Vector representation for document d:
- $\vec v(d)=\big \langle f_1,f_2,…，f_{|v|}\big \rangle$
上面基于词数量的向量表示，每一个f就是一个词w在文档里出现的个数。
- $f_i=\#w_i and \vec v(d)=\big \langle \#w_1,w_2,…,\#w_{|v|}\big \rangle$

这种向量表示非常的直观，但是在整个词汇表里，不是所有的词都能区分不同文档的属性，

比如说：

$∣ ∣ a ∣ ∣ t h e ∣ ∣ o n ∣ ∣ o f ∣ ∣ w i t h ∣ ∣ a b o u t ∣ ∣ a n d ∣ ∣ i n ∣ ∣ a t ∣ ∣ t o ∣ ∣ " ∣ ∣, ∣ ∣ ? ∣ ∣ o h ∣ ∣ . ∣ ∣$

几乎在所有的文档里都会出现多次，并不能区分文档的类别，STOP WORD

可以把停止词从向量的定义中去掉，可以增加文档向量表示的有效性，但是停止词需要人工定义，选择起来缺乏系统性，有一种方法，可以把停止词这样的硬约束（Hard constraints）变成一种软约束（soft constraint），基本的思想就是我去数一数哪些词出现在所有的文档里，哪些词只出现在特定的文档里，我们把出现在所有文档中的词权重稍微降低，这个思想就叫TF-IDF向量

TF-IDF vectors document representation

soft version of stop words in selecting useful words
intuition - the more documents in which of words exists, the less informative the word is .
reduce the importance values of uninformative words

tf就是一个词在文档中数量，df就是每一个词出现在不同文档中的数量，df分之一就是idf，直观上认为，这个词出现的次数越多，那么这个词的重要性就越低。

$\begin{aligned} \vec v_{tf-idf}(d_j)& = \big \langle \frac{TF(w_i, d_i)}{DF(w_1)},\frac{TF(w_2,d_j)}{DF(w_2)},...,\frac{TF(w_n,d_j)}{DF(w_n)}\\ &=\big \langle TF(w_1,d_i)IDF(w_1),TF(w_2,d_i)IDF(w_2),...,TF(w_n,d_i)IDF(w_n) \end{aligned}$
那一个形式定义就是：
- tf 定义为：w出现在文档里的次数，除以所有文档里词的总数
  
  $TF(w_i,d_j)=\frac {\#{w_i|w_i\in d_j}}{\#{w|w\in d_j,w\in V}}$
- df定义为一套数据集里出现w所有的文档的个数:
  $DF(w_i)=\frac{\#{d|d\in D, w_i\in d}}{|D|}$
- 那么idf就是定义为:
  $IDF(w_i)=log \frac{|D|}{\#{d|d\in D,w_i\in D}}$
  或者呢，有些方法里面也不取log。

vector representation of documents

那么，假如我们用tf-idf来表示，同样这四个文档，向量就如下表右边所示，们可以看到，出现在很多文档里面的词，a他的权重其实是降低了

summary：

学到了把一个文档d映射到向量空间的方法
直接按照词的频率来数数，这种叫count based vector
我们区分高频词和低频次叫，TF-IDF vectors
把一个文档映射到一个向量的过程理解为特征抽取的过程，重要性在于他把一个语言学层面的问题，文档理解，映射成了一个数学领域的对象，向量，这样的话我们之后的建模就可以在向量空间里面进行了。