昨天已经得到了类似下面格式的数据:
* 37.751340000000006 -122.39445
* 37.751310000000004 -122.39502000000001
1211035434
* 37.751310000000004 -122.39502000000001
* 37.7513 -122.39526000000001
* 37.751000000000005 -122.39536000000001
* 37.75067000000001 -122.39533000000001
1211035796
我将这些数据分为两类:1. 只有起点和终点的一条直线段(如上面的第一组数据);2. 包含若干中间点的折线(如上面的第二组数据)。第一类数据,我将起点设置为检测点;第二类数据,我将除了起点和终点的其他点设置为检测点。一共有8万多条GPS数据(每一个“*”开头的行表示一条数据),通过一个小的python脚本,我得到初始检测点的个数:15511,这个数字还是太大了,怎样能够进一步优化呢?
其实每一条第一类数据都可以和他相近的第二类数据合并,因第一类数据是个直线段,它可以作为第二类数据的一部分,这样,第一类数据产生的检测点就基本可以删掉了,我通过一个脚本得到第一类数据的个数是6千多条,这样剩下的检测点就只剩下9千多个。这个方法的可行性还得通过进一步实验才能知道。还有一些可以删掉的就是那些交通流量为1的,或是比较偏远的。具体结果我会明天在博客中说。