先看维基百科的解释:
In computing, stop words are words which are filtered out prior to, or after, processing of natural language data (text).There is not one definite list of stop words which all tools use and such a filter is not always used. Some tools specifically avoid removing them to support phrase search.
Any group of words can be chosen as the stop words for a given purpose. For some search machines, these are some of the most common, short function words, such as the, is, at, which, and on. In this case, stop words can cause problems when searching for phrases that include them, particularly in names such as 'The Who', 'The The', or 'Take That'. Other search engines remove some of the most common words—including lexical words, such as "want"—from a query in order to improve performance.
由于一些常用字或者词使用的频率相当的高,英语中比如a,the, he等,中文中比如:我、它、个等,每个页面几乎都包含了这些词汇,如果搜索引擎它们当关键字进行索引,那么所有的网站都会被索引,而且没有区分度,所以一般把这些词直接去掉,不可当做关键词。
G .W. H a r t 在研究中发现, 在典型英文段落中所有词的 50% 可以包含在一个具有 135 个词的普通词表中, Van Rijsbergen 认 为 这 些 词 应 被 视 为 噪 声,并且应当在文本分析的预处理中去除。目前,已经有了一些公开发表的英文停用词表, 其中比较著 名 的 是 Van Rijsbergen 发 表 的 停 用 词 表 以 及Brown Corpus 停用词表。如果对停用词按照其出现的文本频数降序排序,用前 10 个停用词削减特征向量空间, 不会产生负面影响; 用前 100个停用词削减特征向量空间, 所产生的负面影响非常小。 Catarina Silva 验证了应用停用词表削减特征空间, 对提高基于支持向量机的文本分类器准确率所产生的积 极作用。停止词对SEO的意义不是越多越好,而是尽量的减少为宜
停用词表链接:http://www.ranks.nl/stopwords,里面有很多语言的停用词表。