文本向量学习笔记

文本向量是将文本转化为计算机可理解的形式,包括词向量、文档向量和句向量。词袋模型简单统计词频,但忽略词序。词向量模型如CBOW利用上下文相似性提升表达能力。深度学习语言模型如Gensim和TensorFlow通过神经网络优化文本向量,处理数据预处理和模型训练。句向量能捕捉语序信息,提高相似度计算准确性。实战中,句向量在新闻相似度计算中表现更优。
摘要由CSDN通过智能技术生成

文本向量其实是文本的一个数字化表达,以利于计算机理解文本,文本向量表达文本的好坏就决定了计算能否准确文本的意思。
文本向量分为词向量,文档向量,句向量。
文本向量算法学习笔记 :
词袋模型:简单的统计词频,不能表示句中的词序,也无法表达语议。
词向量模型:
上下文相似的词其语议也相似。

在这里插入图片描述
词向量直观理解学习笔记:
词义相似度高在空间上越近。

在这里插入图片描述
深度神经网络语言模型学习笔记:
神经网络求取文本向量,是在不断优化训练网络带来的结果,他把文本向量先全部拼接在一起保留词序与语议,回避了词袋模型的缺点。
在这里插入图片描述CBOW模型原理讲解学习笔记:
在这里插入图片描述
CBOW模型去除了隐藏层,虽然使参数大量减少,但是各种词的条件组合计算太多&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值