NLP基础—3.文本表示

最新推荐文章于 2023-01-07 09:34:56 发布

哎呦-_-不错

最新推荐文章于 2023-01-07 09:34:56 发布

阅读量474

点赞数 2

分类专栏： # nlp基础知识文章标签：文本表示词袋模型文本相似度词嵌入

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/118030164

版权

本文介绍了NLP中的文本表示方法，包括词袋模型、文本相似度计算（如余弦相似度）和词嵌入。重点讨论了词袋模型的TF-IDF权重计算以及词嵌入模型Word2Vec的CBOW和Skip-gram结构。此外，还提到了句子表示的不同方式，如词向量平均和深度学习模型（如RNN、LSTM、BERT等）。

摘要由CSDN通过智能技术生成

文章目录

引言

文本是一类非常重要的结构化数据，如何表示文本数据是机器学习领域的一个重要研究方向。文本表示的核心在于将文本表示成后续算法可以使用的特征向量。

一、词袋模型—Bag of Words

在介绍词袋模型前，我们先引入词集模型。词集模型是指基于词典的句子的one-hot编码。词集模型只能统计这句话是否出现过这个词，而不能记录词之间的顺序，词出现的个数。因此，在词集模型的基础上出现了词袋模型。
词袋模型是最基础的文本表示模型。词袋模型是将每篇文章看成一袋子词，并忽略每个词出现的顺序。具体来说，就是将整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映这个词在原文章中的重要程度。常用TF-IDF来计算权重，公式为：
$T F - I D F (t, d) = T F (t, d) \times I D F (t)$
其中， $T F (t, d)$ 为单词 $t$ 在文档 $d$ 中出现的频率； $I D F (t)$ 是逆文档频率，用来衡量单词 $t$ 对表达语义所起的重要性，表示为
$IDF(t)=log\frac{N}{N(w)+1}$

最低0.47元/天解锁文章

哎呦-_-不错

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。