数据挖掘(一)——齐夫定律,停用词与词干提取

本文介绍了数据挖掘中重要的概念,包括齐夫定律,它描述了词频与排名的反比关系。接着讨论了停用词,这些常见但对理解文章主题帮助不大的词汇在预处理阶段会被剔除。最后,提到了词干提取,通过去除词缀以简化词汇,便于数据处理和检索。了解这些基础知识对于有效进行文本挖掘至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据挖掘(一)——齐夫定律,停用词与词干提取


一、齐夫定律

齐夫定律是由哈佛大学的语言学家乔治·金斯利·齐夫于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。

齐夫定律公式:(r为词频排序顺序,F为词频)
F ( r ) = C r α , 其 中 α ≈ 1 , C ≈

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值