一元线性回归
模型
对现实世界的一种“有用”的简化
建立模型的三大步骤
Step(1)选择某种模型
◼常数模型 – Constant Model
◼线性回归模型 – Linear Regression Model
◼更复杂的模型
Step(2)选择目标函数(损失函数)
◼均方误差(mean square error, MSE)
◼平均绝对误差(mean absolute error, MAE)
◼其它目标函数
Step(3) 拟合模型(model fitting):优化目标函数
◼最小化/最大化目标函数
估计(Estimation)是使用观测到的数据来拟合参数
预测(Prediction)是使用拟合的参数来求解未知的数据
损失函数
SLR模型
多元线性回归
在简单(一元)线性回归SLR模型基础上添加更多的独立变量
一般形式
基本概念:
◼
输入变量
𝑥
1
, 𝑥
2
, … , 𝑥
𝑑
也称:特征(
Feature
)、解释变量(
Explanatory
Variable
)、回归量(
Regressor
)
◼
参数
𝜃
1
, 𝜃
2
, … , 𝜃
𝑑
度量了输入变量对预测值的
权重
◼
参数
𝜃
0
为
截距项
d维
令
𝑅 𝜽
最小化的条件:
– 向量
𝕐 − 𝕏𝜽
与设计矩阵
𝕏
张成的
d
维子空间正交(
Orthogonal
)
求解最优参数估计
计算解析解
暴力搜索方法,枚举可能的参数值𝜃,计算MSE
梯度下降法
评估
关联规则挖掘的基本概念
关联规则步骤
1. 根据支持度,寻找所有的频繁项集(频繁k项集)
2. 根据频繁项集,生成频繁规则(长度大于2的频繁k项集)
3. 根据置信度,过滤筛选规则
寻找所有的频繁项集
暴力解法
频繁项集生成的经典算法
◼APriori算法
◼DHP算法(课后学习)
◼FP-Growth算法(课后学习)
APriori算法
核心思想
:广度优先搜索,自底而上遍历,逐步生成候选集与频繁项集
反单调性原理
:如果一个项集是频繁的,则它的所有子集一定也是频繁
◼
算法步骤
•
连接步:从频繁
𝐾
−
1项集生成候选
𝐾
项集
•
剪枝步:从候选
𝐾
项集筛选出频繁
𝐾
项集
◼
总结
:APriori算法适合用在数据集稀疏,频繁模式较短,支持度较高的场景中
◼
不足
:难以适用于稠密数据和长频繁模式
• 可能产生大量的候选集
• 可能需要重复扫描数据集多次
从频繁项集中生成规则
异常检测(Anomaly Detection) — 离群点检测
什么是异常/离群点?
• 与剩余的数据显著不同的数据点
异常检测:模型分析
+
后处理确认
◼
无监督方法
◼
异常是那些不能拟合的点
◼
异常是那些扭曲模型的点
◼
代表方法
:
◼
统计方法:数据分布,箱图
◼
聚类
(最具代表)
◼
图分析
◼
生成对抗网络
◼
监督方法
◼
异常数据通常含有罕见的类别
异常检测方法
机器学习
概念
使用
训练数据(Training Data)训练模型, 利用模型进行预测,
提升效果的算法
监督学习Supervised
建模数据中输入特征与目标类别之间的联系
•
分类 Classification
: y is discrete (class labels).
•
回归 Regression
: y is continuous, e.g. linear regression.
非监督学习Unsupervised
只有输入特征,没有目标类别
聚类 Clustering:
y is discrete
矩阵分解 Matrix factorization, 卡尔曼滤波 Kalman filtering, 非监督神经网络 unsupervised neural networks: Y is continuous
数据挖掘
概念
从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识,并据此更好的服务人们的生活。
聚类
目标
发现数据中相似群,称为
簇
(
cluster
)
• 簇内中的数据彼此距离小
-
high
intra-clusters
similarity
• 簇间数据距离大
-
low
inter-clusters
similarity
聚类不需要提供标注每一个簇的样本,因此是一种无监督学习
相关性——度量数据之间的相似性
相关性定义取决于
具体的数据或分析需求
距离定义取决于
具体的数据或分析需求
聚类算法
K-Means算法
基于数据划分,将每个数据点划分到一个簇中,目标是最小化类内距,以及最大化类间距
算法步骤
K-means的特点
K-means的缺点
解决初始中心选择的问题
确定参数K
处理离群点
簇的特点会影响K-means聚类的结果
簇的规模
簇的(数据)密度
簇的(不规则)形状
K-means的局限性
1. 簇的规模:当出现规模不同的簇时,往往结果会受到一定干扰
2. 簇的(数据)密度:当出现密度不同的簇时,往往结果会受到一定干扰
3. 簇的形状:当出现不规则形状的簇时(非球状),往往很难有效聚类
解决方法:初始时增加簇的个数,然后将多个小簇合并为大簇
kmeans总结
聚类问题的评估
非监督评估:—基于邻近度矩阵
理想的聚类结果是:簇内的点邻近度全为1,簇之间的邻近度全为0
通过邻近度矩阵,可以可视化地评估聚类结果的好坏
通过观察相似度矩阵是否体现出对角模式,可以大致判断结果好坏
有监督评估:利用标注好的数据对聚类算法进行评价
聚类效果验证
基于Jaccard系数
熵(entropy)
簇的纯度(purity)
相对评估—基于SSE
sse是误差平方和
总结
数据可视化
概念
数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用
数据分析和开发工具
发现其中未知信息的处理过程
基本思想
将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析
作用
(1)观测、跟踪数据
(
2
)分析数据
可以洞察统计分析无法发现的结构和细节
(3)辅助理解数据
(4)增强数据吸引力
类型
方法体系
统计图表类型
饼图
1.主要表示
整体与部分之间
的关系
2.饼图显示是各数据之间的
相对比例关系,而不是绝对值
等值线
思路
• 多维空间和二维平面
特点
• 无相交
• 无分支
• 无中断
应用
• 地理:等高线等
• 气象:等温线、等压线、等降水量
• 物理:等磁线、等势线
散点图
功能
显示数据点
在笛卡尔坐标系中
的分布情况
每个点所对应的纵/横坐标代表的是该数据在对应维度上的属性值
维恩图
功能
• 集合运算的可视化
• 逻辑运算的可视化
热力图
特点
以地图为基础
采用不同色彩(如颜色、亮度、透明度等)表示数据值的大小
箱线图
功能
用于可视化数据分布
含义
• 箱(长方形盒子):表示数据的大致范围,一般为数据取值范围的25%~75%
• 线(盒子中的横线):表示中位数的位置。
雷达图
1.将圆形(或多个同心圆)等分成若干个扇形区,分别表示同一个数据的不同维度;
2.在每个扇形区中,从圆心开始,分别以放射线形式画出若干条指标线,并标明指标名次
及标度;
3.将实际发生数据标注在相应指标之上。
4.以线段依次连结相邻点,形成折线闭环,构成雷达图
城市计算
城市计算是一个交叉学科,是
计算机科学以城市为背景
,跟
城市规划、交通、 能源、环境、社会学和经济
等学科融合的新兴领域。
城市计算是一个通过不断
获取、整合和分析
城市中多源异构的大数据来解决城市所面临的
挑战
的过程。
时空数据
数据来源
手机信令数据
是由手机用户在
发生通话、发短信或移动位置
等事件时,被运营商的通信
基站捕获
并记录同一用户信令轨迹所产生的数据
。
手机信令数据存在的问题
数据的空间精度依赖于城市中基站的覆盖面积,一般城市中心区域空间分辨率可达200m,但在偏远地区>1km (分辨率精度不统一);
因为基站负载平衡原因,若某一基站负载过多,其负责区域的手机信令将转移给其他基站(位置信号跳跃);
夜晚为了节约成本,服务商会主动关闭部分基站(位置记录存在误差)。
图数据
图提供了一种观察数据
结构
特征的视角
结构平衡理论
图提供了一种理解
个体行为
的分析工具
图提供了一种解释
信息传播
的直观方法
知识图谱
:语义关联、机器可读的知识表示技术
应用
为AI系统提供领域知识
问答系统
图的表示
◼
邻接矩阵(Adjacency Matrix)
◼
边列表(Edge List)
◼
邻接关系列表(Adjacency List)
定义某条路径𝑝的长度为它所包含边的个数
定义图上两点的距离为它们之间最短路径的长度
如果节点Z在节点X和Y所有的最短路径上,则称Z为X和Y的
关键节点(Pivot node)
,其中Z与X
和Y均不重合
图的基本概念
六度分隔现象:小世界现象(又称小世界效应),也称六度分隔理论
三元闭包:如果两个人在网络中有共同的好友,他们成为好友的几率也会提升
聚类系数
clustering coefficient
中心度
中心度(centrality)是用来量化一个顶点在图中的重要性
节点中心度
◼1.基于几何图形的度量方法
基本思想
◼
节点
𝑣
的
Centrality
是该节点到
其它节点的距离
的函数
(In-)Degree Centrality(点入度中心性)
Closeness中心度(紧密中心度)
◼2.基于路径的度量方法
中介中心性:Betweenness Centrality
三种中心度的比较
◼3.PageRank算法:度量有向图节点的重要性
Page rank网页排名
概念
通过输出概率分布来体现某人随机地点击某个网页的概率
基本思想
给不同的入边赋上不同的权重
度量节点重要性需要分值稳定
PageRank计算的过程也称随机游走(Random Walk)