一元线性回归
模型
对现实世界的一种“有用”的简化
建立模型的三大步骤
Step(1)选择某种模型
◼常数模型 – Constant Model
◼线性回归模型 – Linear Regression Model
◼更复杂的模型
Step(2)选择目标函数(损失函数)
◼均方误差(mean square error, MSE)
◼平均绝对误差(mean absolute error, MAE)
◼其它目标函数
Step(3) 拟合模型(model fitting):优化目标函数
◼最小化/最大化目标函数
![](https://img-blog.csdnimg.cn/347bf610d3854d799e457bc37ecc10cd.png)
估计(Estimation)是使用观测到的数据来拟合参数
![](https://img-blog.csdnimg.cn/56141a92b4014072b0bed1c0888e86ef.png)
预测(Prediction)是使用拟合的参数来求解未知的数据
![](https://img-blog.csdnimg.cn/83c427eeee7a48168536ade31dfcccd9.png)
损失函数
![](https://img-blog.csdnimg.cn/554d9947c9de4117a0e93ea8916cf727.png)
![](https://img-blog.csdnimg.cn/ede0c17234b9495f95913c48ab25abbd.png)
![](https://img-blog.csdnimg.cn/294e7e40d11244fa97374858bb7aa16f.png)
SLR模型
![](https://img-blog.csdnimg.cn/7b512bf6dd874c1fb1ce09061bc33737.png)
多元线性回归
在简单(一元)线性回归SLR模型基础上添加更多的独立变量
一般形式
![](https://img-blog.csdnimg.cn/66793dc7afda4e5b8aff135f02bd10a3.png)
基本概念:
◼
输入变量
𝑥
1
, 𝑥
2
, … , 𝑥
𝑑
也称:特征(
Feature
)、解释变量(
Explanatory
Variable
)、回归量(
Regressor
)
◼
参数
𝜃
1
, 𝜃
2
, … , 𝜃
𝑑
度量了输入变量对预测值的
权重
◼
参数
𝜃
0
为
截距项
![](https://img-blog.csdnimg.cn/1dd15a29437340f88a920bba5d266b35.png)
![](https://img-blog.csdnimg.cn/997ad3cff0e847d09ed3e5b51f9722f0.png)
d维
![](https://img-blog.csdnimg.cn/334f067f62fc40e6ba5bd0448f001a0c.png)
令
𝑅 𝜽
最小化的条件:
– 向量
𝕐 − 𝕏𝜽
与设计矩阵
𝕏
张成的
d
维子空间正交(
Orthogonal
)
![](https://img-blog.csdnimg.cn/720639f44e68424d8a150e943791ac8e.png)
![](https://img-blog.csdnimg.cn/8b11f85ab3c2464b8ad7329f249c57b0.png)
求解最优参数估计
计算解析解
![](https://img-blog.csdnimg.cn/b210da812ce542a685b7a5c6306292f3.png)
暴力搜索方法,枚举可能的参数值𝜃,计算MSE
![](https://img-blog.csdnimg.cn/dbf99b3aeed149c686799524c0c9a759.png)
梯度下降法
![](https://img-blog.csdnimg.cn/4e35bae4f21d475ab943583563913d4d.png)
评估
![](https://img-blog.csdnimg.cn/39d0e0ad653e45209b53f1f8b16aacfa.png)
![](https://img-blog.csdnimg.cn/4a64723d8fda477da685b0df947bbb24.png)
关联规则挖掘的基本概念
![](https://img-blog.csdnimg.cn/1fb9efdab9804c87999e542d6742c15e.png)
关联规则步骤
1. 根据支持度,寻找所有的频繁项集(频繁k项集)
2. 根据频繁项集,生成频繁规则(长度大于2的频繁k项集)
3. 根据置信度,过滤筛选规则
寻找所有的频繁项集
暴力解法
频繁项集生成的经典算法
◼APriori算法
◼DHP算法(课后学习)
◼FP-Growth算法(课后学习)
APriori算法
核心思想
:广度优先搜索,自底而上遍历,逐步生成候选集与频繁项集
反单调性原理
:如果一个项集是频繁的,则它的所有子集一定也是频繁
![](https://img-blog.csdnimg.cn/a0114c0bc510441ca9aad807a10d8a5b.png)
◼
算法步骤
•
连接步:从频繁
𝐾
−
1项集生成候选
𝐾
项集
•
剪枝步:从候选
𝐾
项集筛选出频繁
𝐾
项集
◼
总结
:APriori算法适合用在数据集稀疏,频繁模式较短,支持度较高的场景中
◼
不足
:难以适用于稠密数据和长频繁模式
• 可能产生大量的候选集
• 可能需要重复扫描数据集多次
从频繁项集中生成规则
![](https://img-blog.csdnimg.cn/4bfaaf5b29b8434c8659a356c6126fbc.png)
异常检测(Anomaly Detection) — 离群点检测
什么是异常/离群点?
• 与剩余的数据显著不同的数据点
异常检测:模型分析
+
后处理确认
◼
无监督方法
◼
异常是那些不能拟合的点
◼
异常是那些扭曲模型的点
◼
代表方法
:
◼
统计方法:数据分布,箱图
◼
聚类
(最具代表)
◼
图分析
◼
生成对抗网络
◼
监督方法
◼
异常数据通常含有罕见的类别
异常检测方法
![](https://img-blog.csdnimg.cn/7540eb420d5d498eaabc351e0d0f4614.png)
机器学习
概念
使用
训练数据(Training Data)训练模型, 利用模型进行预测,
提升效果的算法
监督学习Supervised
建模数据中输入特征与目标类别之间的联系
•
分类 Classification
: y is discrete (class labels).
•
回归 Regression
: y is continuous, e.g. linear regression.
非监督学习Unsupervised
只有输入特征,没有目标类别
聚类 Clustering:
y is discrete
矩阵分解 Matrix factorization, 卡尔曼滤波 Kalman filtering, 非监督神经网络 unsupervised neural networks: Y is continuous
数据挖掘
概念
从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识,并据此更好的服务人们的生活。
聚类
目标
发现数据中相似群,称为
簇
(
cluster
)
• 簇内中的数据彼此距离小
-
high
intra-clusters
similarity
• 簇间数据距离大
-
low
inter-clusters
similarity
聚类不需要提供标注每一个簇的样本,因此是一种无监督学习
相关性——度量数据之间的相似性
相关性定义取决于
具体的数据或分析需求
距离定义取决于
具体的数据或分析需求
聚类算法
K-Means算法
基于数据划分,将每个数据点划分到一个簇中,目标是最小化类内距,以及最大化类间距
![](https://img-blog.csdnimg.cn/40e10d7a94ab4294b445a1fac3091903.png)
![](https://img-blog.csdnimg.cn/046ad0e000d847df9a0b114ef80c111a.png)
算法步骤
![](https://img-blog.csdnimg.cn/4b186e051c084ed09645e88c32ad50e6.png)
![](https://img-blog.csdnimg.cn/d3ab432c358e48539b8586d684b85f7c.png)
K-means的特点
![](https://img-blog.csdnimg.cn/f6680fff874a466db0e4bd14303c5e31.png)
K-means的缺点
解决初始中心选择的问题
![](https://img-blog.csdnimg.cn/f6616420c3074ac695990982ae979a5d.png)
确定参数K
![](https://img-blog.csdnimg.cn/b0b843bc788c4e20b79fceb6ae65b3b6.png)
处理离群点
![](https://img-blog.csdnimg.cn/3765b5f31242497797ce5054e9f442e9.png)
簇的特点会影响K-means聚类的结果
簇的规模
簇的(数据)密度
簇的(不规则)形状
K-means的局限性
1. 簇的规模:当出现规模不同的簇时,往往结果会受到一定干扰
2. 簇的(数据)密度:当出现密度不同的簇时,往往结果会受到一定干扰
3. 簇的形状:当出现不规则形状的簇时(非球状),往往很难有效聚类
解决方法:初始时增加簇的个数,然后将多个小簇合并为大簇
kmeans总结
![](https://img-blog.csdnimg.cn/f83fdc4b5f5d4d4c80ab229e579edf68.png)
聚类问题的评估
非监督评估:—基于邻近度矩阵
理想的聚类结果是:簇内的点邻近度全为1,簇之间的邻近度全为0
通过邻近度矩阵,可以可视化地评估聚类结果的好坏
通过观察相似度矩阵是否体现出对角模式,可以大致判断结果好坏
有监督评估:利用标注好的数据对聚类算法进行评价
聚类效果验证
基于Jaccard系数
![](https://img-blog.csdnimg.cn/6bdb9bd37df64d409dc67fe071d18b0e.png)
熵(entropy)
簇的纯度(purity)
相对评估—基于SSE
sse是误差平方和
![](https://img-blog.csdnimg.cn/c0a272cc5f764edc852a19550c390e22.png)
总结
![](https://img-blog.csdnimg.cn/f7d0ba46b09f47e886df14fb532d0ecd.png)
数据可视化
概念
数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用
数据分析和开发工具
发现其中未知信息的处理过程
基本思想
将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析
作用
(1)观测、跟踪数据
(
2
)分析数据
可以洞察统计分析无法发现的结构和细节
(3)辅助理解数据
(4)增强数据吸引力
类型
![](https://img-blog.csdnimg.cn/8124eb2c881246ac957f3594a3a4de02.png)
方法体系
![](https://img-blog.csdnimg.cn/48723c85a6d344e3816eeb1c2e7def56.png)
统计图表类型
![](https://img-blog.csdnimg.cn/6ce2c19017b94947a63058b3861bdd0a.png)
饼图
1.主要表示
整体与部分之间
的关系
2.饼图显示是各数据之间的
相对比例关系,而不是绝对值
等值线
思路
• 多维空间和二维平面
特点
• 无相交
• 无分支
• 无中断
应用
• 地理:等高线等
• 气象:等温线、等压线、等降水量
• 物理:等磁线、等势线
散点图
功能
显示数据点
在笛卡尔坐标系中
的分布情况
每个点所对应的纵/横坐标代表的是该数据在对应维度上的属性值
维恩图
功能
• 集合运算的可视化
• 逻辑运算的可视化
热力图
特点
以地图为基础
采用不同色彩(如颜色、亮度、透明度等)表示数据值的大小
箱线图
功能
用于可视化数据分布
含义
• 箱(长方形盒子):表示数据的大致范围,一般为数据取值范围的25%~75%
• 线(盒子中的横线):表示中位数的位置。
雷达图
1.将圆形(或多个同心圆)等分成若干个扇形区,分别表示同一个数据的不同维度;
2.在每个扇形区中,从圆心开始,分别以放射线形式画出若干条指标线,并标明指标名次
及标度;
3.将实际发生数据标注在相应指标之上。
4.以线段依次连结相邻点,形成折线闭环,构成雷达图
城市计算
城市计算是一个交叉学科,是
计算机科学以城市为背景
,跟
城市规划、交通、 能源、环境、社会学和经济
等学科融合的新兴领域。
城市计算是一个通过不断
获取、整合和分析
城市中多源异构的大数据来解决城市所面临的
挑战
的过程。
时空数据
![](https://img-blog.csdnimg.cn/5f7d866d0ccc4af4b730750185f6cd41.png)
数据来源
![](https://img-blog.csdnimg.cn/8be5c6f5970441318b0b5aa424569a06.png)
![](https://img-blog.csdnimg.cn/9196adcbf2c843e5abee7e22b43f5605.png)
![](https://img-blog.csdnimg.cn/781a784d54664866973c34a83e0a3c40.png)
手机信令数据
是由手机用户在
发生通话、发短信或移动位置
等事件时,被运营商的通信
基站捕获
并记录同一用户信令轨迹所产生的数据
。
手机信令数据存在的问题
数据的空间精度依赖于城市中基站的覆盖面积,一般城市中心区域空间分辨率可达200m,但在偏远地区>1km (分辨率精度不统一);
因为基站负载平衡原因,若某一基站负载过多,其负责区域的手机信令将转移给其他基站(位置信号跳跃);
夜晚为了节约成本,服务商会主动关闭部分基站(位置记录存在误差)。
![](https://img-blog.csdnimg.cn/48d8b86ca3404ef9a951ed150ea9c6e0.png)
![](https://img-blog.csdnimg.cn/507988712e4d418d85fbe47fd936ac8b.png)
图数据
图提供了一种观察数据
结构
特征的视角
结构平衡理论
图提供了一种理解
个体行为
的分析工具
图提供了一种解释
信息传播
的直观方法
知识图谱
:语义关联、机器可读的知识表示技术
应用
为AI系统提供领域知识
问答系统
图的表示
◼
邻接矩阵(Adjacency Matrix)
◼
边列表(Edge List)
◼
邻接关系列表(Adjacency List)
![](https://img-blog.csdnimg.cn/cb1476535e4447cc8900fb0d8fce5e76.png)
定义某条路径𝑝的长度为它所包含边的个数
定义图上两点的距离为它们之间最短路径的长度
如果节点Z在节点X和Y所有的最短路径上,则称Z为X和Y的
关键节点(Pivot node)
,其中Z与X
和Y均不重合
图的基本概念
六度分隔现象:小世界现象(又称小世界效应),也称六度分隔理论
三元闭包:如果两个人在网络中有共同的好友,他们成为好友的几率也会提升
聚类系数
clustering coefficient
![](https://img-blog.csdnimg.cn/e7d536bd26ce474487adeef135499941.png)
中心度
中心度(centrality)是用来量化一个顶点在图中的重要性
节点中心度
◼1.基于几何图形的度量方法
基本思想
◼
节点
𝑣
的
Centrality
是该节点到
其它节点的距离
的函数
(In-)Degree Centrality(点入度中心性)
Closeness中心度(紧密中心度)
![](https://img-blog.csdnimg.cn/174b41dd499a45b698e63a95e8bf7f76.png)
![](https://img-blog.csdnimg.cn/0150dd34a6394d4ab5b4b34926c80f98.png)
◼2.基于路径的度量方法
中介中心性:Betweenness Centrality
![](https://img-blog.csdnimg.cn/4df3a9f06f434c108024461df3497194.png)
三种中心度的比较
![](https://img-blog.csdnimg.cn/9e54915a3f10457ca04dbd7d23a973cd.png)
◼3.PageRank算法:度量有向图节点的重要性
Page rank网页排名
概念
通过输出概率分布来体现某人随机地点击某个网页的概率
基本思想
给不同的入边赋上不同的权重
![](https://img-blog.csdnimg.cn/5ee96f055c124dd1ace9639e39d5b3a6.png)
![](https://img-blog.csdnimg.cn/d57d3410bcb84fbb91b8f528d402a66c.png)
![](https://img-blog.csdnimg.cn/01a8810b0eeb47e495b1109e017114df.png)
![](https://img-blog.csdnimg.cn/b7dc7dd5988d4da9aafaef5ed8d8ad8b.png)
度量节点重要性需要分值稳定
![](https://img-blog.csdnimg.cn/04d4b469203f4b26b3f199e3c2939e25.png)
PageRank计算的过程也称随机游走(Random Walk)
![](https://img-blog.csdnimg.cn/c4dc4b0d30b341f1ad8746d3b93c8f04.png)
![](https://img-blog.csdnimg.cn/9ac74af95b9b4e47bee7d1bdd8feddce.png)
![](https://img-blog.csdnimg.cn/eab854c3ff0b411ab2eca2ea2afbb0f5.png)