NLP基础之词过滤及词转向量的相关方法

最新推荐文章于 2024-03-08 00:54:21 发布

weixin_45599022

最新推荐文章于 2024-03-08 00:54:21 发布

阅读量911

点赞数

本文链接：https://blog.csdn.net/weixin_45599022/article/details/108149452

版权

本文介绍了NLP中停用词过滤、词的标准化（stemming与lemmazation）、词向量转换方法（onehot、TF-IDF、分布式表示）以及词/句子相似度计算，探讨了不同方法的优缺点和应用场景。

摘要由CSDN通过智能技术生成

1. 停用词过滤

对于 NLP的应用，我们通常先把停用词、出现频率很低的词汇过滤掉。类似于特征筛选的过程。

少于10次或20次的可以作为低频词去掉。

stemming：将类似词转换成统一格式，但词不一定是实际词。如 fli， deni。。。PORTSTEMMER

lemmazation：与stemming区别是转换成统一格式的词，该词是真实存在的。

stemm 的规则：需要语言学家把一些常见的变换转化成代码。

3.1 onehot编码

词典词的个数是编码的维度

3.2 句子的boolean表示（跟onehot类似）

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注