停用词stopWord

先看维基百科的解释:

In computingstop words are words which are filtered out prior to, or after, processing of natural language data (text).There is not one definite list of stop words which all tools use and such a filter is not always used. Some tools specifically avoid removing them to support phrase search.

Any group of words can be chosen as the stop words for a given purpose. For some search machines, these are some of the most common, short function words, such as theisatwhich, and on. In this case, stop words can cause problems when searching for phrases that include them, particularly in names such as 'The Who', 'The The', or 'Take That'. Other search engines remove some of the most common words—including lexical words, such as "want"—from a query in order to improve performance.

由于一些常用字或者词使用的频率相当的高,英语中比如a,the, he等,中文中比如:我、它、个等,每个页面几乎都包含了这些词汇,如果搜索引擎它们当关键字进行索引,那么所有的网站都会被索引,而且没有区分度,所以一般把这些词直接去掉,不可当做关键词。

G .W. H a r t 在研究中发现, 在典型英文段落中所有词的 50% 可以包含在一个具有 135 个词的普通词表中, Van Rijsbergen 认 为 这 些 词 应 被 视 为 噪 声,并且应当在文本分析的预处理中去除。目前,已经有了一些公开发表的英文停用词表, 其中比较著 名 的 是 Van Rijsbergen 发 表 的 停 用 词 表 以 及Brown Corpus 停用词表。如果对停用词按照其出现的文本频数降序排序,用前 10 个停用词削减特征向量空间, 不会产生负面影响; 用前 100个停用词削减特征向量空间, 所产生的负面影响非常小。 Catarina Silva 验证了应用停用词表削减特征空间, 对提高基于支持向量机的文本分类器准确率所产生的积 极作用。停止词对SEO的意义不是越多越好,而是尽量的减少为宜

停用词表链接:http://www.ranks.nl/stopwords,里面有很多语言的停用词表。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值