4. 可视化:数据分析与探索

本文是对浙江大学的陈为老师所讲授的可视化导论课程的笔记。

1 数据基础

大数据 是庞大而复杂的数据集的集合。

大数据对人类社会的影响:

  1. 工业制造
  2. 商业流通
  3. 金融投资
  4. 人类健康
  5. 人民生活
  6. 公共安全
  7. 国防建设

美国政府:《联邦大数据研发战略计划》
联邦大数据研发战略计划帮助美国开发大数据技术,展示大数据应用,并培训下一代数据科学家用于推进美国核心价值。

欧盟:《欧盟大数据价值战略研究和创新议程》
欧盟大数据价值战略研究和创新议程整合了欧盟地平线Horizon等创新项目并强调:大数据助力服务业转型、提高生产力、结局社会挑战等。

中国政府:中国中央政治局就实施国家大数据战略集体学习
2017年12月8日,中共中央政治局就实施国家大数据战略进行第二次集体学习。习总数据强调:大数据发展日新月异……应当审时度势、精心谋划、超强布局、力争主动……推动实施大数据战略。

数据属性 又称:

  • 数学中: 维度
  • 机器学习中:特征
  • 统计中:变量

属性的类型:

  • 类别属性:也称状态,类似于“东西的名称

  • 序数属性:
    若属性能够提供对象之间的比较信息,这时就称这种属性为序数属性。
    如果一个序数中的数据在算数运算下具有意义,那么这种更加细分的类型称为数值属性

数值属性又可分为:

  • 离散的数值属性:只能用整数单位计算
  • 连续的数值属性:需计量或测量获取

统计方法在数据分析中的意义

  • 了解数据总体情况的有力工具
  • 分析数据的基础

一些基本统计量:

  • 均值
  • 中位数
  • 方差

均值:均值也就是平均数,表示为一组数据中所有数据项之和再除以这组数据的个数。

中位数:以排序后最中间的数据项表示,若出现总数为偶数的情况,则以最中间的两个数的均值表示。

图:均值与中位数的比较
在这里插入图片描述

方差:表示数据离散程度

  • 方差越,数据月集中
  • 方差越,数据越分散

在这里插入图片描述
在这里插入图片描述

数据处理一般流程:

  • 了解数据分布
  • 了解数据对象关系
  • 取出冗余数据

刻画数据对象之间的关系:相似性矩阵

在这里插入图片描述
注:
d(2,1)指的是两个数之间的距离,可以用失配比来计算。
失配比:两个数的失配比就是它们中值不相等的属性个数占总属性个数的比例。
d(i, j) = (p-m) / p

例:两组数据总共有4个属性,其中有两个属性对于两个数据是不相同的,因此如图中那么计算。
在这里插入图片描述

类别属性的近似度量:Jaccard相似系数
如上图,两种数据中都不含伏特加,因而不需要考虑都不存在的属性,这时候可以使用“Jaccard相似系数”的距离计算方法,来进行近似度量。
在这里插入图片描述
在这里插入图片描述

如果数值属性是数据,可以直接使用距离公式
**欧拉距离:**两点之间的直线距离公式
在这里插入图片描述
曼哈顿距离:
在这里插入图片描述
在这里插入图片描述
闵克夫斯基距离:

在这里插入图片描述
p=1时,表现为曼哈顿距离。
p=2时,表现为欧拉距离。

2. 数据科学的历史与面临的问题

数据科学的涌现:四个范式

  • 第一范式:几千年前记录和描述自然现象的经验科学
  • 第二范式:数百年前里哟并模型归纳总结过去记录的现象的理论科学
  • 第三范式:利用科学计算机对复杂现象进行模拟仿真的计算科学
  • 第四范式:计算机将模拟仿真,进行分析总结,得到理论,即数据密集型科学(2007)

2010:什么是数据科学

  1. 获取与预处理数据
  2. 存储与分析数据
  3. 呈现与解释数据

利用数据的能力包括:

  1. 理解数据
  2. 处理数据
  3. 提取价值
  4. 可视化数据
  5. 交流数据

大数据的问题:Garbage in, garbage out.
现实中的数据很可能是“脏的”!
如:机器记录错误,认为失误录入等。
为此我们需要处理数据:审视数据的质量,清洗处理问题数据。

确保数据质量

  • 准确性
  • 完整性
  • 一致性
  • 时效性
  • 可信性
  • 可解释性

3. 可视化+

可视化数据分析:

  • 采集数据
  • 总结规律
  • 形成结论

统计:

  • 预处理的有效工具
  • 提高了识别复杂数据特征的能力

传统统计分析探索式数据分析

  • 传统统计分析:关注模型–>生成预测值
  • 探索式数据分析:基于统计结果–>简介呈现特征

可视化方法(按信息复杂程度)

  • 原始数据可视化
  • 统计结果可视化
  • 多协同视图

例:数据轨迹
数据轨迹是一种单变量数据呈现方法,通过将自变量与因变量在图中用点呈现出来。
数据轨迹可以直观地展现数据分布走势、以及离群异常点

在这里插入图片描述

例:柱状图
柱状图是用长方形的形状颜色编码数据的属性
常见:柱子的高度表示属性值的大小
作用:揭示数据的趋势分布
在这里插入图片描述
例:饼状图
饼状图用环形方式呈现各分量在整体之中的比例。
作用:快速直观地传达数据中的比例信息。

在这里插入图片描述
例:直方图
直方图是对数据集的某个数据属性的频率统计。
每个区间的数据之和为数据集整体
不同的数据分布在直方图下有不同的效果

在这里插入图片描述
例:等高线图
等高线图将相等数值所在的位置用曲线连接起来所形成的图形
反映数据的连续变化与分布情况
在这里插入图片描述
例:走势图
简单的数据变化趋势,通常以折线图为基础。
在这里插入图片描述

例:散点图
当数据大于二维时,可将所有的纬度两两取出,每一纬度一个散点图,所有散点图形成散点图矩阵。
在这里插入图片描述

例:热力图
对于有3个维度的数据,利用颜色属性,将第三个维度的数值映射为颜色值,此时就成了热力图。
作用:展示三维数据点的分布情况。
在这里插入图片描述
例:绘制统计结果——箱型图

在这里插入图片描述
多视图协同
将多个视图结合起来,每个视图展示数据某个方面的属性,并允许用户进行交互分析。

在这里插入图片描述

数据挖掘
数据挖掘是从大型数据库、网络上或其他大型储存库中,自动地发现和提取模式、特征或知识。

在这里插入图片描述
数据挖掘的任务可以分为两类:

  • 描述性任务:将数据转变为特征,如关联规则,聚类模式等。

  • 预测性任务:预测数据中某些属性和变量的未值
    在这里插入图片描述

  • 描述型任务

    • 概念描述:直接描述数据特征
    • 关联分析:数据集中关联性或相关性
    • 聚类:将数据分簇,簇内数据相似,簇间数据不同
    • 异常分析:分析异常数据
  • 预测型任务

    • 分类:寻找一个模型或算法,然后将模型应用到新数据中,最后对数据分类
    • 演化分析:针对数据的时空特征,建立模型,然后预测数时空行为

数据挖掘的方法

  • 统计方法:回归分析,参数估计等
  • 机器学习:决策树,神经网络等
  • 传统算法:K均值算法,K临近算法等

注:人可以通过可视化的人机交互方式参与到数据挖掘中

在这里插入图片描述

发布了22 篇原创文章 · 获赞 0 · 访问量 387
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 深蓝海洋 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览