面临的问题
我们目前的服务是加载全国路网数据。这种加载方式的优势是能确保数据的唯一性和连续性,但是因为数据量过大,服务对内存的使用率很高,启动缓慢。那么,如果能将路网进行分片的话,数据量就能得以极大的降低。一条link包含起点(start_node)和终点(end_node),非极端情况下,这条link所属的分片可以等价于起点所属分片与终点所属分片的并集(最多属于两个分片),这样就将link所属分片的问题转化为点所属分片的问题。
在上图中,link1/2/4均满足之前的假设,只有link3是横跨的3个分片。在实际路网中,这种情况比较少见。
理论上我们可以通过将地图划分成一个一个的规则图形,判断一个点是否在规则图形内是很容易的,但真实情况并非如此简单。一是边界本身就是非规则线段,二是划分路网会造成link的不连续,为了把影响降到最低,希望划分的边界切割link数目最少。因此需要判断点是否在不规则图形中。
判断一个点是否在多边形中有很多方式,本文介绍的网格化方式是其中一个非常易懂的算法。
连续到离散
二维空间中分布的点是连续的,我们首先将它离散化。如图所示,在方格内的所有空间点均可以离散到(x1,y1),我们称之为represent_node。任何一个分片均可以由若干个方格组成。
上图中所有阴影部分的小方格组合成一个分片。
Slice[M] = {represent_node1, represent_node2, represent_node3…represent_nodeN}。
反过来我们可以创建一个映射关系
represent_node[N] --> slice[M]
路网划分
路网是由一组link组成的。遍历每一条link,将start_node和end_node离散化成represent_node1和represent_node2,并利用上述的映射关系,找出对应的分片数,其值就是link对应的分片值。当遍历完成后,路网就划分好了。