《信息检索导论》第五章总结


一、索引压缩概述


使用压缩的目的:

(1)因为我们想要把尽量多的数据放入内存,因此压缩能够达到这个目的;

(2)从磁盘到内存的传输时间会缩短;

压缩分类:

(1)无损压缩:压缩后的数据能还原全部信息;

(2)有损压缩:压缩后会丢失一些信息;

如果有损压缩后丢失的信息用户并不关心,则有损压缩也是可以接受的;


二、Heaps定律


通过整个文档集词条数来估计词项数目;

主要思想:随着文档集增加,词项数目会增加,并且没有上限;

M=kT^b;


三、Zipf定律


通过词项在文档集中的词频排名来估计词项之间的词频比例;

如果词项A出现次数排名第一,词项B出现次数排名第二,词项C出现次数排名第三,则A出现次数是B出现次数的两倍,则A出现次数是C出现次数的1/3;


四、词典压缩


虽然与倒排记录表相比,词典的空间很小,但是为了能够把词典全部都放在内存中,我们必须要对其进行压缩;


1.词项定长存储


固定词项分配

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值