斯坦福数据挖掘不同版本课件讲局部敏感哈希中MinHash的理解

本文探讨了斯坦福数据挖掘课程中关于局部敏感哈希(LSH)和MinHash的不同解释,特别是在不同版本课件中的差异。通过分析2011年、2014年和2015年版本的课件,作者指出15年版本中MinHash处理Input matrix的方式与早期版本不同,并解释了这种变化的原因。尽管存在差异,但两种方法都被证明是等价的,关键是保持Locality-Sensitive Hashing的特性。
摘要由CSDN通过智能技术生成

        今天学习局部敏感哈希,看斯坦福的课件,他在讲将7维Input matrix (Shingles x Documents)用MinHash处理成3维Signature matrix 时那一步里面结果怎么也对不上,就是这张熟悉的图:

描述是这样的:

        我解读的应该是置换后一列中第一个是1的那行的行号,这样理解没什么问题吧,可是右边那个3*3的结果的表里咋没几个数对的上呢。

        查了网上很多地方介绍这一步的时候都是我这么理解的,而他们用的材料大多是下面这版:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值