数据科学导论重点（二）

rose~Fxl

于 2023-02-18 02:51:24 发布

阅读量367

点赞数

分类专栏：数据科学导论文章标签：机器学习 python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_61083660/article/details/129095417

版权

数据科学导论专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文章介绍了数据科学中的基础概念，包括一元线性回归的建模步骤，选择目标函数和拟合模型，以及多元线性回归的扩展。接着，讨论了关联规则挖掘的APriori算法，异常检测的无监督和监督方法，聚类分析中的K-Means算法及其优缺点。此外，还提到了数据可视化的重要性和不同类型，以及图数据和知识图谱在理解和解释复杂数据结构中的作用。

摘要由CSDN通过智能技术生成

一元线性回归

模型

对现实世界的一种“有用”的简化

建立模型的三大步骤

 Step（1）选择某种模型

◼常数模型 – Constant Model

◼线性回归模型 – Linear Regression Model

◼更复杂的模型

 Step（2）选择目标函数(损失函数）

◼均方误差（mean square error, MSE）

◼平均绝对误差（mean absolute error, MAE）

◼其它目标函数

 Step（3）拟合模型（model fitting）：优化目标函数

◼最小化/最大化目标函数

估计（Estimation）是使用观测到的数据来拟合参数

预测（Prediction）是使用拟合的参数来求解未知的数据

损失函数

SLR模型

多元线性回归

在简单（一元）线性回归SLR模型基础上添加更多的独立变量

一般形式

 基本概念：

◼ 输入变量 𝑥 1 , 𝑥 2 , … , 𝑥 𝑑 也称：特征（ Feature ）、解释变量（ Explanatory

Variable ）、回归量（ Regressor ）

◼ 参数 𝜃 1 , 𝜃 2 , … , 𝜃 𝑑 度量了输入变量对预测值的权重

◼ 参数 𝜃 0 为 截距项

d维

令 𝑅 𝜽 最小化的条件：

– 向量 𝕐 − 𝕏𝜽 与设计矩阵 𝕏 张成的 d 维子空间正交（ Orthogonal ）

求解最优参数估计

计算解析解

暴力搜索方法，枚举可能的参数值𝜃，计算MSE

梯度下降法

评估

关联规则挖掘的基本概念

关联规则步骤

1. 根据支持度，寻找所有的频繁项集（频繁k项集）

2. 根据频繁项集，生成频繁规则（长度大于2的频繁k项集）

3. 根据置信度，过滤筛选规则

寻找所有的频繁项集

暴力解法

频繁项集生成的经典算法

◼APriori算法

◼DHP算法(课后学习)

◼FP-Growth算法(课后学习)

APriori算法

核心思想：广度优先搜索，自底而上遍历，逐步生成候选集与频繁项集

反单调性原理：如果一个项集是频繁的，则它的所有子集一定也是频繁

◼ 算法步骤

• 连接步：从频繁 𝐾 − 1项集生成候选 𝐾 项集

• 剪枝步：从候选 𝐾 项集筛选出频繁 𝐾 项集

◼ 总结：APriori算法适合用在数据集稀疏，频繁模式较短，支持度较高的场景中

◼ 不足：难以适用于稠密数据和长频繁模式

• 可能产生大量的候选集

• 可能需要重复扫描数据集多次

从频繁项集中生成规则

异常检测(Anomaly Detection) — 离群点检测

什么是异常/离群点?

• 与剩余的数据显著不同的数据点

异常检测：模型分析 + 后处理确认

◼ 无监督方法

◼ 异常是那些不能拟合的点

◼ 异常是那些扭曲模型的点

◼ 代表方法 :

◼ 统计方法：数据分布，箱图

◼ 聚类（最具代表）

◼ 图分析

◼ 生成对抗网络

◼ 监督方法

◼ 异常数据通常含有罕见的类别

异常检测方法

机器学习

概念

使用训练数据(Training Data)训练模型，利用模型进行预测，提升效果的算法

监督学习Supervised

建模数据中输入特征与目标类别之间的联系

• 分类 Classification : y is discrete (class labels).

• 回归 Regression : y is continuous, e.g. linear regression.

非监督学习Unsupervised

只有输入特征，没有目标类别

 聚类 Clustering: y is discrete

 矩阵分解 Matrix factorization, 卡尔曼滤波 Kalman filtering, 非监督神经网络 unsupervised neural networks： Y is continuous

数据挖掘

概念

从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识，并据此更好的服务人们的生活。

聚类

目标

发现数据中相似群，称为簇 ( cluster )

• 簇内中的数据彼此距离小 - high intra-clusters similarity

• 簇间数据距离大 - low inter-clusters similarity

聚类不需要提供标注每一个簇的样本，因此是一种无监督学习

相关性——度量数据之间的相似性

相关性定义取决于 具体的数据或分析需求

距离定义取决于 具体的数据或分析需求

聚类算法

K-Means算法

基于数据划分，将每个数据点划分到一个簇中，目标是最小化类内距，以及最大化类间距

算法步骤

K-means的特点

K-means的缺点

解决初始中心选择的问题

确定参数K

处理离群点

 簇的特点会影响K-means聚类的结果

簇的规模

簇的（数据）密度

簇的（不规则）形状

 K-means的局限性

1. 簇的规模：当出现规模不同的簇时，往往结果会受到一定干扰

2. 簇的(数据)密度：当出现密度不同的簇时，往往结果会受到一定干扰

3. 簇的形状：当出现不规则形状的簇时（非球状），往往很难有效聚类

解决方法：初始时增加簇的个数，然后将多个小簇合并为大簇

kmeans总结

聚类问题的评估

非监督评估:—基于邻近度矩阵

 理想的聚类结果是：簇内的点邻近度全为1，簇之间的邻近度全为0

 通过邻近度矩阵，可以可视化地评估聚类结果的好坏

 通过观察相似度矩阵是否体现出对角模式，可以大致判断结果好坏

有监督评估：利用标注好的数据对聚类算法进行评价

聚类效果验证

基于Jaccard系数

熵(entropy)

簇的纯度(purity)

相对评估—基于SSE

sse是误差平方和

总结

数据可视化

概念

数据可视化是指将大型数据集中的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程

基本思想

将数据库中每一个数据项作为单个图元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析

作用

（1）观测、跟踪数据

（ 2 ）分析数据

可以洞察统计分析无法发现的结构和细节

（3）辅助理解数据

（4）增强数据吸引力

类型

方法体系

统计图表类型

饼图

1.主要表示 整体与部分之间 的关系

2.饼图显示是各数据之间的 相对比例关系，而不是绝对值

等值线

思路

• 多维空间和二维平面

特点

• 无相交

• 无分支

• 无中断

应用

• 地理：等高线等

• 气象：等温线、等压线、等降水量

• 物理：等磁线、等势线

散点图

功能

显示数据点在笛卡尔坐标系中的分布情况

每个点所对应的纵/横坐标代表的是该数据在对应维度上的属性值

维恩图

功能

• 集合运算的可视化

• 逻辑运算的可视化

热力图

特点

以地图为基础

采用不同色彩（如颜色、亮度、透明度等）表示数据值的大小

箱线图

功能

用于可视化数据分布

含义

• 箱（长方形盒子）：表示数据的大致范围，一般为数据取值范围的25%~75%

• 线（盒子中的横线）：表示中位数的位置。

雷达图

1.将圆形（或多个同心圆）等分成若干个扇形区，分别表示同一个数据的不同维度；

2.在每个扇形区中，从圆心开始，分别以放射线形式画出若干条指标线，并标明指标名次

及标度；

3.将实际发生数据标注在相应指标之上。

4.以线段依次连结相邻点，形成折线闭环，构成雷达图

城市计算

城市计算是一个交叉学科，是计算机科学以城市为背景，跟城市规划、交通、能源、环境、社会学和经济等学科融合的新兴领域。

城市计算是一个通过不断获取、整合和分析城市中多源异构的大数据来解决城市所面临的挑战的过程。

时空数据

数据来源

手机信令数据

是由手机用户在发生通话、发短信或移动位置等事件时，被运营商的通信基站捕获并记录同一用户信令轨迹所产生的数据。

手机信令数据存在的问题

数据的空间精度依赖于城市中基站的覆盖面积，一般城市中心区域空间分辨率可达200m,但在偏远地区>1km (分辨率精度不统一)；

因为基站负载平衡原因，若某一基站负载过多，其负责区域的手机信令将转移给其他基站(位置信号跳跃)；

夜晚为了节约成本，服务商会主动关闭部分基站(位置记录存在误差)。

图数据

图提供了一种观察数据结构特征的视角

结构平衡理论

图提供了一种理解个体行为的分析工具

图提供了一种解释信息传播的直观方法

知识图谱：语义关联、机器可读的知识表示技术

应用

为AI系统提供领域知识

问答系统

图的表示

◼ 邻接矩阵(Adjacency Matrix)

◼ 边列表(Edge List)

◼ 邻接关系列表(Adjacency List)

定义某条路径𝑝的长度为它所包含边的个数

定义图上两点的距离为它们之间最短路径的长度

如果节点Z在节点X和Y所有的最短路径上，则称Z为X和Y的关键节点（Pivot node），其中Z与X

和Y均不重合

图的基本概念

六度分隔现象：小世界现象（又称小世界效应），也称六度分隔理论

三元闭包：如果两个人在网络中有共同的好友，他们成为好友的几率也会提升

聚类系数

clustering coefficient

中心度

中心度(centrality)是用来量化一个顶点在图中的重要性

节点中心度

◼1.基于几何图形的度量方法

基本思想

◼ 节点 𝑣 的 Centrality 是该节点到其它节点的距离的函数

(In-)Degree Centrality（点入度中心性）

Closeness中心度（紧密中心度）

◼2.基于路径的度量方法

中介中心性：Betweenness Centrality

三种中心度的比较

◼3.PageRank算法：度量有向图节点的重要性

Page rank网页排名

概念

通过输出概率分布来体现某人随机地点击某个网页的概率

基本思想

给不同的入边赋上不同的权重

度量节点重要性需要分值稳定

PageRank计算的过程也称随机游走（Random Walk）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。