前面章节已经大概描述了在SpatialHadoop中R-Tree空间索引实现的步骤,本章节就从源码角度来看下该算法是怎么实现的。
================================================================
第一步:Sampler类
在这个类中主要实现了对输入数据集的一个随机抽样,控制抽样的有两个参数,一个抽样的大小,第二个是抽样的个数。大小由内存计算决定,小于100MB,个数由输入要素集的总个数决定,为0.1%的比率。
前面章节已经大概描述了在SpatialHadoop中R-Tree空间索引实现的步骤,本章节就从源码角度来看下该算法是怎么实现的。
================================================================
在这个类中主要实现了对输入数据集的一个随机抽样,控制抽样的有两个参数,一个抽样的大小,第二个是抽样的个数。大小由内存计算决定,小于100MB,个数由输入要素集的总个数决定,为0.1%的比率。