自然语言处理之——文本向量化

最新推荐文章于 2024-08-06 13:49:14 发布

xiao | yang

最新推荐文章于 2024-08-06 13:49:14 发布

阅读量6k

点赞数 3

文章标签：自然语言处理人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xi_xiyu/article/details/122684274

版权

本文探讨文本向量化的方法，包括基于统计的词袋模型和神经网络的word2vec，重点介绍了神经网络语言模型NNLM，阐述了如何利用低维向量表示词语并解决数据稀疏性和语义鸿沟问题。

摘要由CSDN通过智能技术生成

一．摘要

本次内容将分享文本向量化的一些方法。文本向量化的方法有很多，主要可分为以下两个大类：基于统计的方法、基于神经网络的方法。在自然语言处理的领域中，文本向量化是文本表示的一种重要方式。文本向量化的主要目的是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文，词语都是表达文本处理的最基本单元。当前阶段，对文本向量化大部分的研究都是通过词向量化实现的。

二． 向量化算法word2vec

词袋(Bag of Word)模型是最早的以语言为基本处理单元的文本向量化方法。下面我们将通过示例展示该方法的原理。

例子：句子1：“我喜欢坐高铁回家”。；句子2：“中国高铁非常快”。

句子1分词：“我、喜欢、坐、高铁、回家”；

句子2分词：“中国、高铁、非常、块”。

根据上述两句出现的词语，构建一个字典：{“我”：1，“喜欢”：2，“坐”：3，“高铁”：4，“回家”：5，“中国”：6，“非常”：7，“快”：8}

该字典中包含8个词，每个词都有唯一索引，并且它们出现的顺序是没有关联的，根据这个字典，我们将上述两句重新表达为两个向量：

[1,1,1,1,1,0,0,0]

[0,0,0,1,0,1,1,1]

这两个向量共包含8个元素，其中第i个元素表示字典中第i个词语在句子中出现的次数，因此BOW模型认为是一种统计直方图。在文本检索和处理中，可以通过该模型很方便的计算词频。该方法虽然简单&#x

最低0.47元/天解锁文章

关注

3
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。