文本向量化——以词为单位

本文介绍了文本向量化的基本概念,包括以词为单位的向量化方法,如BOW(Bag of Words)模型,强调了BOW与SOW的区别,并深入探讨了TF-IDF和词向量模型word2vec,如CBOW和Skip-gram的原理及其代码实现。
摘要由CSDN通过智能技术生成

文本向量化

文本向量化 : 把文本转化为计算机认识的形式的过程.

一, 向量化的粒度granularité分类:

1, 以字或单词为单位,中文就是单个字,英文可以是一个单词。
2, 以词为单位,就需要加入一个分词的过程。分词算法本身是一个NLP中重要的基础课题,本文不详细讲解。
3, 以句子为单位,提炼出把一句话的高层语义,简而言之就是寻找主题模型。当然如果我们已经拿到了一句话的所有词的向量,也可以简单的通过取平均活着其他方式来代表这个句子。

二, 以词为单位的文本向量化方法

SOW词集模型
BOW词袋模型 	
n-gram 	
TF-IDF 	
word2vec

三, 以句子为单位的主题模型方法

LSA
NMF
pLSA
LDA等
							**01 BOW**

BOW

1, introduction

BOW 忽略文本的语法和语序等, 把一句话转化成一个词的集合, 文档中每个词的出现都是独立的. BOW模型不考虑句子中单词的顺序,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值