NLP(5): 停用词,文本的表示,文本的相似度,tf-idf,词向量

第一节 词的过滤,Removing Stop Words

对于NLP应用,通常先把通用词、出现频率很低的词汇过滤掉
这其实类似于特征筛选的过程
在英文中,比如 the, an,their这些都可以作为停用词来处理,但是也需要考虑自己的应用场景。
NLTK提供了停用词库,可以根据具体场景选择加入或删掉一些停用词。

Low Frequency Words

出现频率特别低的词汇对分析作用不大,一般也会去掉。把通用词和低频词过滤之后,即可以得到一个词典库。

词得标准化操作:

  • stemming
  • lenimazation

1、Stemming:one way to normalize

在这里插入图片描述
词的标准化:把相同意思的单词转为一个单词
-went,go,going-----> go

  • fly,flies----------->fli
  • deny,denied,denying--------->deni
    不能保证还原后的单词是一个有效的原型。

应用最广泛的:PorterStemmer

给定很多词形转变的规则,按照给定的规则进行转换
在这里插入图片描述

2、lemmatization

保证生成的原型单词一定符合文法,一定存在在词典中。

第二节:Word Representation——文本的表示

  • 如何用向量表达一个单词
  • 如何用向量表达一个sequence/document

1、one-hot encoding:单词的表示

向量的维度-词典的大小:词典中单词的个数
在这里插入图片描述

2、Sentence Representation(boolean)

boolean representation只用1和0表示字典中的词是否在句子中出现,不考虑每个词出现的次数。出现即为1,没出现为0 。
在这里插入图片描述

3、Count-based representation

统计词典中的词在句子中出现的次数,建立一个n维

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值