背景:
移动终端的普及,手机用户时间序列的手机定位数据,映射到现实的地理空间位置,即可完整、客观地还原出手机用户的现实活动轨迹,从而挖掘出人口空间分布与活动联系的特征信息。
注:移动通信网络的信号覆盖逻辑上被设计成由若干六边形的基站小区相互邻接而构成的蜂窝网络面状服务区
目标:
(1)对用户的历史定位数据,采用数据挖掘技术,对基站进行分群。
(2)对不同的商圈分群进行特征分析,比较不同商圈类别的价值,选择合适的区域进行运营商的促销活动。
项目分析建模过程:
(1)从移动通信运营商提供的特定接口上解析、处理、并滤除用户属性后得到用户定位数据。
(2)以单个用户为例,进行数据探索分析,研究在不同基站的停留时间,并进一步地进行预处理,包括数据规约和数据变换。
(3)利用已完成的数据预处理的建模数据,基于基站覆盖范围区域的人流特征进行商圈聚类,对各个商圈分群进行特征分析,选择适合的区域进行运营商的促销活动。
本例设计工作日上班时间人均停留时间、凌晨人均停留时间、周末人均停留时间和日均人流量作为基站覆盖范围区域的人流特征。
(1)对样本数据进行数量级规约,使用离差标准化方法
# -*- coding: utf-8 -*-
"""
Created on Sat Mar 31 10:39:57 2018
@author: JiaQi_Lee
"""
import pandas as pd
filename = "business_circle.xls"
#standardization1 = "standardization1.xls"
standardization2 = "standardization2.xls"
#data数据矩阵为431*5,数据中有基站编号一列
#data = pd.read_excel(filename)
#print("读入数据(没有参数):")<