Chapter 14 基于基站定位数据的商圈分析

最新推荐文章于 2022-07-10 23:14:32 发布

静水``流深

最新推荐文章于 2022-07-10 23:14:32 发布

阅读量1.2k

点赞数 1

分类专栏：学习笔记 # Python数据分析与挖掘实战

本文链接：https://blog.csdn.net/weixin_46623003/article/details/106225870

版权

学习笔记同时被 2 个专栏收录

57 篇文章 0 订阅

订阅专栏

Python数据分析与挖掘实战

8 篇文章 3 订阅

订阅专栏

一、数据抽取

从运营商得到位置数据，以2014-1-1到2014-6-30为分析的观测窗口，抽取该期间内某地的定位数据作为建模数据。

二、数据探索分析

三、数据预处理

3.1 数据规约

原始数据属性较多，这里只选择相关的属性：日期、时间、基站编号、EMASI号进行分析。

3.2 数据变换

挖掘目标是寻找出高价值的商圈，一般高价值的商圈具有人流量大、人均停留时间长的特点。但是工作的写字楼、休息的住宅区停留时间也较长，仅仅通过停留时间作为人流特征难以区分高价值商圈和写字楼与住宅区。

（1）根据所选属性，为区分高价值商圈和写字楼与住宅区，构造变换出以下新的属性：

基站编号
工作日上班时间人均停留时间（上班时间指的是 09：00 - 18：00）
凌晨人均停留时间（凌晨时间指的是 00：00 - 07：00）
周末人均停留时间
日均人流量

（2）数据离差标准化

由于各个属性之间的差异较大，为了消除数据量纲的影响，在进行聚类前，先进行离差标准化处理。

#-*- coding: utf-8 -*-

#数据标准化到[0,1]
import pandas as pd

#参数初始化
filename = '.../data/business_circle.xls' #原始数据文件
standardizedfile = '.../tmp/standardized.xls' #标准化后数据保存路径

data = pd.read_excel(filename, index_col = u'基站编号') #读取数据

data = (data - data.min())/(data.max() - data.min()) #离差标准化
data = data.reset_index()

data.to_excel(standardizedfile, index = False) #保存结果

四、模型构建

4.1 构建商圈聚类模型

数据经过预处理后成为建模数据。采用层次聚类法对基站数据进行聚类，画出谱系聚类图。

#-*- coding: utf-8 -*-

#谱系聚类图
import pandas as pd

#参数初始化
standardizedfile = '.../tmp/standardized.xls' #标准化后的数据文件
data = pd.read_excel(standardizedfile, index_col = u'基站编号') #读取数据

import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import linkage,dendrogram
#这里使用scipy的层次聚类函数

Z = linkage(data, method = 'ward', metric = 'euclidean') #谱系聚类图
P = dendrogram(Z, 0) #画谱系聚类图
plt.show()

由图可以看出，可把聚类类别取为3类，层次聚类法代码如下：

#-*- coding: utf-8 -*-

#层次聚类算法
import pandas as pd

#参数初始化
standardizedfile = '.../tmp/standardized.xls' #标准化后的数据文件
k = 3 #聚类数
data = pd.read_excel(standardizedfile, index_col = u'基站编号') #读取数据

from sklearn.cluster import AgglomerativeClustering #导入sklearn的层次聚类函数
model = AgglomerativeClustering(n_clusters = k, linkage = 'ward')
model.fit(data) #训练模型

#详细输出原始数据及其类别
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1)  #详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'聚类类别'] #重命名表头

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号

style = ['ro-', 'go-', 'bo-']
xlabels = [u'工作日人均停留时间', u'凌晨人均停留时间', u'周末人均停留时间', u'日均人流量']
pic_output = '../tmp/type_' #聚类图文件名前缀

for i in range(k): #逐一作图，作出不同样式
  plt.figure()
  tmp = r[r[u'聚类类别'] == i].iloc[:,:4] #提取每一类
  for j in range(len(tmp)):
    plt.plot(range(1, 5), tmp.iloc[j], style[i])
  
  plt.xticks(range(1, 5), xlabels, rotation = 20) #坐标标签
  plt.title(u'商圈类别%s' %(i+1)) #我们计数习惯从1开始
  plt.subplots_adjust(bottom=0.15) #调整底部
  plt.savefig(u'%s%s.png' %(pic_output, i+1)) #保存图片