数据科学导论重点(二)

文章介绍了数据科学中的基础概念,包括一元线性回归的建模步骤,选择目标函数和拟合模型,以及多元线性回归的扩展。接着,讨论了关联规则挖掘的APriori算法,异常检测的无监督和监督方法,聚类分析中的K-Means算法及其优缺点。此外,还提到了数据可视化的重要性和不同类型,以及图数据和知识图谱在理解和解释复杂数据结构中的作用。
摘要由CSDN通过智能技术生成

一元线性回归

模型

对现实世界的一种“有用”的简化

建立模型的三大步骤

Step(1)选择某种模型
        ◼常数模型 – Constant Model
        ◼线性回归模型 – Linear Regression Model
        ◼更复杂的模型
Step(2)选择目标函数(损失函数)
        ◼均方误差(mean square error, MSE)
        ◼平均绝对误差(mean absolute error, MAE)
        ◼其它目标函数
Step(3) 拟合模型(model fitting):优化目标函数
        ◼最小化/最大化目标函数

估计(Estimation)是使用观测到的数据来拟合参数

预测(Prediction)是使用拟合的参数来求解未知的数

损失函数

 

 

SLR模型

 

 

 

多元线性回归

在简单(一元)线性回归SLR模型基础上添加更多的独立变量

一般形式

基本概念:
输入变量 𝑥 1 , 𝑥 2 , … , 𝑥 𝑑 也称:特征( Feature )、解释变量( Explanatory
Variable )、回归量( Regressor
参数 𝜃 1 , 𝜃 2 , … , 𝜃 𝑑 度量了输入变量对预测值的 权重
参数 𝜃 0 截距项

 

d维

 

 

𝑅 𝜽 最小化的条件:
        – 向量 𝕐 − 𝕏𝜽 与设计矩阵 𝕏 张成的 d 维子空间正交( Orthogonal

 求解最优参数估计

 计算解析解

 暴力搜索方法,枚举可能的参数值𝜃,计算MSE

 梯度下降法

评估

 

关联规则挖掘的基本概念

 

关联规则步骤

1. 根据支持度,寻找所有的频繁项集(频繁k项集

2. 根据频繁项集,生成频繁规则(长度大于2的频繁k项集

3. 根据置信度,过滤筛选规则

寻找所有的频繁项集

        暴力解法

        频繁项集生成的经典算法

                ◼APriori算法

                ◼DHP算法(课后学习)

                ◼FP-Growth算法(课后学习)

APriori算法

核心思想 :广度优先搜索,自底而上遍历,逐步生成候选集与频繁项集
反单调性原理 :如果一个项集是频繁的,则它的所有子集一定也是频繁

算法步骤
连接步:从频繁 𝐾 1项集生成候选 𝐾 项集
剪枝步:从候选 𝐾 项集筛选出频繁 𝐾 项集

总结 :APriori算法适合用在数据集稀疏,频繁模式较短,支持度较高的场景中
不足 :难以适用于稠密数据和长频繁模式
        • 可能产生大量的候选集
        • 可能需要重复扫描数据集多次

从频繁项集中生成规则

 

异常检测(Anomaly Detection) — 离群点检测

什么是异常/离群点?
        • 与剩余的数据显著不同的数据点
异常检测:模型分析 + 后处理确认
无监督方法
        ◼ 异常是那些不能拟合的点
        ◼ 异常是那些扭曲模型的点
        ◼ 代表方法 :
                ◼ 统计方法:数据分布,箱图
                ◼ 聚类 (最具代表)
                ◼ 图分析
                ◼ 生成对抗网络
监督方法
        ◼ 异常数据通常含有罕见的类别

异常检测方法

机器学习

概念

使用 训练数据(Training Data)训练模型, 利用模型进行预测, 提升效果的算法

监督学习Supervised

建模数据中输入特征与目标类别之间的联系
分类 Classification : y is discrete (class labels).
回归 Regression : y is continuous, e.g. linear regression.

非监督学习Unsupervised 

只有输入特征,没有目标类别
聚类 Clustering: y is discrete
矩阵分解 Matrix factorization, 卡尔曼滤波 Kalman filtering, 非监督神经网络 unsupervised neural networks: Y is continuous

数据挖掘

概念

从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识,并据此更好的服务人们的生活。

聚类

目标

发现数据中相似群,称为 ( cluster )
        
        • 簇内中的数据彼此距离小 - high intra-clusters similarity
        • 簇间数据距离大 - low inter-clusters similarity
聚类不需要提供标注每一个簇的样本,因此是一种无监督学习

相关性——度量数据之间的相似性

相关性定义取决于 具体的数据或分析需求
距离定义取决于 具体的数据或分析需求

聚类算法

K-Means算法

基于数据划分,将每个数据点划分到一个簇中,目标是最小化类内距,以及最大化类间距

算法步骤

 

 K-means的特点

K-means的缺点

 解决初始中心选择的问题

确定参数K

处理离群点

 

簇的特点会影响K-means聚类的结果
        簇的规模
        簇的(数据)密度
        簇的(不规则)形状
K-means的局限性
        1. 簇的规模:当出现规模不同的簇时,往往结果会受到一定干扰
        2. 簇的(数据)密度:当出现密度不同的簇时,往往结果会受到一定干扰
        3. 簇的形状:当出现不规则形状的簇时(非球状),往往很难有效聚类
解决方法:初始时增加簇的个数,然后将多个小簇合并为大簇

kmeans总结

聚类问题的评估 

 非监督评估:—基于邻近度矩阵

理想的聚类结果是:簇内的点邻近度全为1,簇之间的邻近度全为0
通过邻近度矩阵,可以可视化地评估聚类结果的好坏
通过观察相似度矩阵是否体现出对角模式,可以大致判断结果好坏

有监督评估:利用标注好的数据对聚类算法进行评价

聚类效果验证

基于Jaccard系数

熵(entropy)

 

簇的纯度(purity)

 

相对评估—基于SSE

sse误差平方和

总结

 

数据可视化

概念

数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用 数据分析和开发工具 发现其中未知信息的处理过程

基本思想

将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析

作用

(1)观测、跟踪数据
2 )分析数据
        可以洞察统计分析无法发现的结构和细节
(3)辅助理解数据
(4)增强数据吸引力

类型

方法体系

统计图表类型

饼图

1.主要表示 整体与部分之间 的关系
2.饼图显示是各数据之间的 相对比例关系,而不是绝对值

等值线

思路

        • 多维空间和二维平面
特点
        • 无相交
        • 无分支
        • 无中断
应用
        • 地理:等高线等
        • 气象:等温线、等压线、等降水量
        • 物理:等磁线、等势线

散点图

功能

        显示数据点 在笛卡尔坐标系中 的分布情况
        每个点所对应的纵/横坐标代表的是该数据在对应维度上的属性值

维恩图

功能

        • 集合运算的可视化
        • 逻辑运算的可视化

热力图

特点

        地图为基础

        采用不同色彩(如颜色、亮度、透明度等)表示数据值的大小

箱线图

功能

        用于可视化数据分布

含义

        • 箱(长方形盒子):表示数据的大致范围,一般为数据取值范围的25%~75%
        • 线(盒子中的横线):表示中位数的位置。

雷达图

1.将圆形(或多个同心圆)等分成若干个扇形区,分别表示同一个数据的不同维度;
2.在每个扇形区中,从圆心开始,分别以放射线形式画出若干条指标线,并标明指标名次
及标度;
3.将实际发生数据标注在相应指标之上。
4.以线段依次连结相邻点,形成折线闭环,构成雷达图

 

城市计算

城市计算是一个交叉学科,是 计算机科学以城市为背景 ,跟 城市规划、交通、 能源、环境、社会学和经济 等学科融合的新兴领域。
城市计算是一个通过不断 获取、整合和分析 城市中多源异构的大数据来解决城市所面临的 挑战 的过程。

时空数据

数据来源

 

手机信令数据

是由手机用户在 发生通话、发短信或移动位置 等事件时,被运营商的通信 基站捕获 并记录同一用户信令轨迹所产生的数据

 

手机信令数据存在的问题

数据的空间精度依赖于城市中基站的覆盖面积,一般城市中心区域空间分辨率可达200m,但在偏远地区>1km (分辨率精度不统一);
因为基站负载平衡原因,若某一基站负载过多,其负责区域的手机信令将转移给其他基站(位置信号跳跃);
夜晚为了节约成本,服务商会主动关闭部分基站(位置记录存在误差)。

 

 

图数据

图提供了一种观察数据 结构 特征的视角
        结构平衡理论
图提供了一种理解 个体行为 的分析工具
图提供了一种解释 信息传播 的直观方法

知识图谱 :语义关联、机器可读的知识表示技术

应用

        为AI系统提供领域知识

        问答系统

图的表示

邻接矩阵(Adjacency Matrix)
 
边列表(Edge List)
 
邻接关系列表(Adjacency List)

定义某条路径𝑝的长度为它所包含边的个数 

定义图上两点的距离为它们之间最短路径的长度

如果节点Z在节点X和Y所有的最短路径上,则称Z为X和Y的 关键节点(Pivot node) ,其中Z与X
和Y均不重合

图的基本概念

六度分隔现象:小世界现象(又称小世界效应),也称六度分隔理论

三元闭包:如果两个人在网络中有共同的好友,他们成为好友的几率也会提升

聚类系数

clustering coefficient

 

中心度

中心度(centrality)是用来量化一个顶点在图中的重要性

节点中心度

1.基于几何图形的度量方法

        基本思想
                ◼ 节点 𝑣 Centrality 是该节点到 其它节点的距离 的函数
        (In-)Degree Centrality(点入度中心性)
                

        Closeness中心度(紧密中心度)

                

2.基于路径的度量方法 

         中介中心性:Betweenness Centrality

 三种中心度的比较

◼3.PageRank算法:度量有向图节点的重要性

Page rank网页排名

概念

通过输出概率分布来体现某人随机地点击某个网页的概率

基本思想

给不同的入边赋上不同的权重

 

 

 

 

 

 

 度量节点重要性需要分值稳定

 PageRank计算的过程也称随机游走(Random Walk

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值