常见的语言模型

最新推荐文章于 2024-08-26 14:09:34 发布

haha_liwei

最新推荐文章于 2024-08-26 14:09:34 发布

阅读量2.8k

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/xianqianshi3004/article/details/88140058

版权

本文介绍了几种常见的语言模型，包括词袋模型、TF-IDF、N-gram、共现矩阵和word2vec。词袋模型忽略了词序，而TF-IDF考虑了词的重要性。N-gram解决了词组的连续性问题。共现矩阵虽然能表示词的关联，但存在稀疏性问题。word2vec通过CBOW和skip-gram模型捕捉词的上下文关系，提高了表示效率。

摘要由CSDN通过智能技术生成

词袋模型

此模型下，一段文本（比如一个句子或是一个文档）可以用一个装着这些词的袋子来表示，这种表示方式不考虑文法以及词的顺序，例如下面两个句子：

(1) John likes to watch movies. Mary likes movies too.
(2) John also likes to watch football games.

基于以上两个文件，可以建构出下列清单:

[
    "John",
    "likes",
    "to",
    "watch",
    "movies",
    "also",
    "football",
    "games",
    "Mary",
    "too"
]

此处有10个不同的词，那么两个句子就可以使用清单的索引表示长度为10的向量：

(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

每个向量的索引内容对应到清单中词出现的次数。

举例来说，第一个向量(文件一)前两个内容索引是1和2，第一个索引内容是"John"对应到清单第一个词并且该值设定为1，因为"John"出现一次。

TF-IDF

每篇文章可以表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映了这个词在原文章中的重要程度。常用TF-IDF来计算权重，公式为

最低0.47元/天解锁文章

haha_liwei

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录