NLP基础之词过滤及词转向量的相关方法

本文介绍了NLP中停用词过滤、词的标准化(stemming与lemmazation)、词向量转换方法(onehot、TF-IDF、分布式表示)以及词/句子相似度计算,探讨了不同方法的优缺点和应用场景。
摘要由CSDN通过智能技术生成

1. 停用词过滤

对于 NLP的应用,我们通常先把停用词、出现频率很低的词汇过滤掉。类似于特征筛选的过程。

少于10次或20次的可以作为低频词去掉。

 

2. 词的标准化操作(主要是英文)

stemming:将类似词转换成统一格式,但词不一定是实际词。如 fli, deni。。。PORTSTEMMER

lemmazation:与stemming区别是转换成统一格式的词,该词是真实存在的。

 

 

 

stemm 的规则 :需要语言学家把一些常见的变换转化成代码 。

 

 

3. 词/句子/文章 转换成向量的方法

3.1 onehot编码

词典词的个数是编码的维度

 3.2 句子的boolean表示(跟onehot类似)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值