数据挖掘 文本分类 (五)取名词去停用词

之前写了一篇文本分类(五),不知道怎么滴没发表成功,csdn连个备份都没有,草稿箱里也没有,真是备受打击!        隔了几天,只好重来......        好,上一篇做到了分词这一步,然后就是取名词和去停用词了。        首先说取名词,一篇文本,里边有好多词是没有用的,尤其对于判断这篇文本是某一类文本的时候。比如形容词,副词,助词什么的,这类词对我们判断文本属于哪一类
摘要由CSDN通过智能技术生成


        之前写了一篇文本分类(五),不知道怎么滴没发表成功,csdn连个备份都没有,草稿箱里也没有,真是备受打击!

        隔了几天,只好重来......

        好,上一篇做到了分词这一步,然后就是取名词和去停用词了。

        首先说取名词,一篇文本,里边有好多词是没有用的,尤其对于判断这篇文本是某一类文本的时候。比如形容词,副词,助词什么的,这类词对我们判断文本属于哪一类没有任何作用,只有名词是比较能够代表某一类文本的,所以我们要把名词给取出来,然后用这些个名词去作为某一类文本的特征。停用词也是这个道理,我们看下老师提供的停用词表就知道,停用词也全都是没用的废话。比如:

        这个是老师给的停用词表,里边全是没有用的词,我们要把他们去掉。

        第一步,取名词。这个当然要用正则表达式了,

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值