识文断字：理解文本

最新推荐文章于 2024-10-21 09:50:52 发布

头有亿点凉

最新推荐文章于 2024-10-21 09:50:52 发布

阅读量422

点赞数

分类专栏：人工智能化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44610959/article/details/111083601

版权

人工智能化专栏收录该内容

1 篇文章

订阅专栏

词袋模型

词袋模型是用于描述文本的一个简单的数学模型，也是常用的一个简单的数学模型。
是由二元组（词语：出现次数）组成的集合

停止词 ：不携带任何主题信息的高频词称为停止词。
低频词：若过度依赖这样的词语对文章进行分类，那么就可能出现过拟合现象
词频率：一个词语在文档中出现的频率。
逆文档频率：文档频率是语料库中出现这个词语的文档总数与语料库中所有文档的总数的商。逆文档频率是文档频率的负对数。（在语料库中大不跟文档中都大量出现的词语不重要）

将一个词语在某篇文章中的词频率与该词的逆文档频率相乘，可以得到这个词在这篇文档中的词频率-逆文档频率（突出文本中的重要信息）

主题模型

主题模型是描述语料库及其中潜在主题的一类数学模型。

对于某一特定主题（教育）收集只包含该主题的若干文档，计算其中每一个词（词典大小为V）的词频，可以得到词频向量t = (x₁, x₂, … , x_v) 这个词频向量就是教育这个主题的数学表示。

文档的词频向量和主题的词频向量

假设一个文档中潜在的主题总共有T个，每个主题对应于一个词频向量 t_j =( x_j1, x_j2, … , x_jV ), 1 <= j <= T。在一篇特定的文档中，各个主题的比重分别为w₁, w₂, … , w_r。
已知该文档的词频向量为 d = ( y₁, y₂, … ,y_v )，则有 d = w₁t₁ + w₂t₂ + … +w_vt_v

文档词频D，主题比重W，主题词频T三者的关系课表示为
D = WT 这个等式建立了语料库与潜在主题之间的关系，是主题模型的核心。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。