Python与自然语言处理——文本向量化（一）

最新推荐文章于 2024-08-06 13:49:14 发布

你的名字5686

最新推荐文章于 2024-08-06 13:49:14 发布

阅读量9.2k

点赞数 6

分类专栏： Python与自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wk19951125/article/details/89049239

版权

本文介绍了文本向量化的基本概念，重点讲解了word2vec算法，包括词袋模型、神经网络语言模型（NNLM）、C&W模型、CBOW模型和Skip-gram模型。word2vec通过向量化文本，解决了传统方法中的语义鸿沟问题，是自然语言处理中的重要技术。

摘要由CSDN通过智能技术生成

Python与自然语言处理——文本向量化

文本向量化（一）

文本向量化（一）

文本向量化概述

文本向量化是将文本表示成一系列能够表达文本语义的向量。
主要技术
- word2vec
- doc2vec
- str2vec

向量化算法word2vec

词袋模型

最早的以词语为基本处理单元的文本向量化方法
方法：
- 基于出现的词语构建词典（唯一索引）
- 统计每个单词出现的词频构成向量
存在的问题
- 维度灾难
- 无法保留语序信息
- 存在语义鸿沟的问题

神经网络语言模型（NNLM）

特点
与传统方法估算 $P\left( { {w_i}\left| { {w_{i - \left( {n - 1} \right)}}, \cdots ,{w_{i - 1}}} \right.} \right)$ 不同，NNLM直接通过一个神经网络结构对 $n$ 元条件概率进行估计。
基本结构
大致操作
从语料库中搜集一系列长度为 $n$ 的文本序列 ${w_{i - \left( {n - 1} \right)}}, \cdots ,{w_{i - 1}},{w_i}}$ ，假设这些长度为 $n$ 的文本序列组成的集合为 $D$ ，那么NNLM的目标函数为：
$\sum\nolimits_D {P\left( { {w_i}\left| { {w_{i - \left( {n - 1} \right)}}, \cdots ,{w_{i - 1}}} \right.} \right)}$
网络模型
- 输入层：低维度、紧密的词向量，将词序列

最低0.47元/天解锁文章

你的名字5686

关注

6
点赞
踩
26

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。