自然语言处理之——文本向量化

本文探讨文本向量化的方法,包括基于统计的词袋模型和神经网络的word2vec,重点介绍了神经网络语言模型NNLM,阐述了如何利用低维向量表示词语并解决数据稀疏性和语义鸿沟问题。
摘要由CSDN通过智能技术生成

一. 摘要

本次内容将分享文本向量化的一些方法。文本向量化的方法有很多,主要可分为以下两个大类:基于统计的方法、基于神经网络的方法。在自然语言处理的领域中,文本向量化是文本表示的一种重要方式。文本向量化的主要目的是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分的研究都是通过词向量化实现的。

二. 向量化算法word2vec

词袋(Bag of Word)模型是最早的以语言为基本处理单元的文本向量化方法。下面我们将通过示例展示该方法的原理。

例子:句子1:“我喜欢坐高铁回家”。;句子2:“中国高铁非常快”。

句子1分词:“我、喜欢、坐、高铁、回家”;

句子2分词:“中国、高铁、非常、块”。

根据上述两句出现的词语,构建一个字典:{“我”:1,“喜欢”:2,“坐”:3,“高铁”:4,“回家”:5,“中国”:6,“非常”:7,“快”:8}

该字典中包含8个词,每个词都有唯一索引,并且它们出现的顺序是没有关联的,根据这个字典,我们将上述两句重新表达为两个向量:

[1,1,1,1,1,0,0,0]

[0,0,0,1,0,1,1,1]

这两个向量共包含8个元素,其中第i个元素表示字典中第i个词语在句子中出现的次数,因此BOW模型认为是一种统计直方图。在文本检索和处理中,可以通过该模型很方便的计算词频。该方法虽然简单&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值