一、概述
-
数据的概念
数据指的是事实或经过观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。 -
数据的类型
- 按数据结构分类:结构化数据、半结构化数据、非结构化数据
- 结构化数据:直接可以用传统关系数据库存储和管理的数据。
- 半结构化数据:经过一定转换处理后可以用传统关系数据库存储和管理的数据。
- 非结构化数据:无法用传统关系数据库存储和管理的数据。
- 按 “存储” 分类:文本、图像、音频、视频、模板数据等。
-
数据模型
数据模型的三种类型:概念模型、逻辑模型和物理模型。
对应软工中的:概要设计、逻辑设计、物理设计。 -
数据科学
定义:数据科学是关于数据的科学,是探索和发现数据中价值的理论、方法和技术,是对从数据中提取知识的研究。 -
数据预处理的步骤
数据审计、数据清洗、数据集成、数据变换、数据脱敏、数据归约、数据标注。 -
数据科学家
定义:能使用科学的方法,运用数据挖掘工具对复杂的、大量的数字、符号、文字、网址、音频、视频等信息进行数字化重现与认识,并从中寻找新的数据洞察的工程师或专家。
二、大数据
- 大数据面临的挑战
- 数据的开放共享程度低
- 数据的安全问题严峻
- 制度建设落后
- 大数据专业人才缺乏
- 大数据的特征
- 数据量大 (Volume)
- 数据类型多 (Variety)
- 处理速度快 (Velocity)
- 价值密度低 (Value)
- 真实性强 (Veracity)
- 数据工程过程 / 数据生命周期
- 大数据采集
- 大数据预处理
- 大数据存储与管理
- 大数据分析与挖掘
- 大数据可视化
- 大数据安全保障
三、云计算
无
四、采集与预处理
- 大数据采集的来源
- 商业数据 (最主要的数据来源)
- 互联网数据
- 物联网数据
- 政府数据
- 大数据采集的方法
- DPI 采集方法:采集 “裸格式” 的数据,即数据未经过任何处理。
- 数据库采集方法
- 感知设备数据采集方法
- 系统日志采集方法
- 网络数据采集方法
-
数据预处理
任务:使残缺的数据变的完整,并将错误的数据纠正、多余的数据去除,进而将所需的数据挑选出来,为数据挖掘内核算法提供干净、准确、更有针对性的数据,并提高知识发现的准确度。 -
数据清洗的工作
- 异常值的检测
- 缺失值的处理
- 错误值的处理
- 不一致数据的处理
- 重复数据的检测
五、存储与管理
- 大数据的存储方式
- 文件系统
- 数据库
- 关系型数据库
- 非关系型数据库
- 键值数据库:Redis
- 列存储数据库:HBase
- 文档数据库:MongoDB
- 图数据库:neo4j
- 云存储
-
数据仓库
数据仓库系统由数据仓库、ETL工具、元数据、访问工具、数据集市和数据仓库管理系统组成。 -
Hadoop 两大核心部分
- HDFS:Hadoop 中实现大数据存储功能的分布式文件系统。采用主从架构,由一个NameNode和多个DataNode组成。
- MapReduce:是一种并行的计算架构。
Hadoop集群具有良好的横向扩展性,其存储和计算能力随着集群主机数量的增加而不断扩展。
六、分析方法
- 大数据分析方法的类型
- 描述分析:描述事情发生的结果。
- 诊断分析:分析事情发生的原因。
- 预测分析:预测未来事件的演化趋势和发生的概率。
- 规范分析:用来控制事情发生的轨迹,用来决策制定以及提高分析效率。
- 大数据分析方法的步骤
- 数据获取和存储
- 数据信息抽取和无用信息清洗
- 数据整合和表述
- 数据模型的建立和结果的分析、评价
- 结果阐述
- 时序数据
时序数据是指时间序列数据,即将某一个指标在不同时间上的数值,按照时间的先后顺序排列而成的数列。
七、分析工具
Python;无
八、可视化
- 数据可视化的作用
- 观测和跟踪数据
- 分析数据
- 辅助理解数据
- 增加数据吸引力
- 数据可视化的分类
- 科学可视化:面向科学和工程领域的科学可视化,处理科学数据。
- 信息可视化:处理的对象是抽象的、非结构化数据集。
- 可视分析学
- 可视化方法
- 基于文本的可视化方法
- 基于标签云的文本可视化
- 基于树图的文本可视化
- 基于关联的文本可视化
- 基于图形的可视化方法
- 桑基图、散点图、折线图、条形图、柱状图
九、安全
- 大数据安全问题的形成原因
- 传统数据安全防护技术的缺陷
- 大数据分布式存储的风险
- 大数据平台安全机制的不足
- 新型虚拟化网络技术的局限
- 新型高级网络攻击的威胁
- 大数据安全问题的分类
- 大数据平台安全
- 大数据存储安全
- 大数据传输安全
- 大数据平台访问控制安全
- 大数据运行计算安全
- 大数据基础设施安全
- 大数据自身安全
- 数据的真实可信性
- 数据的可靠性和完整性
- 大数据应用安全
- 大数据安全相关技术
数据加密技术、数据真实性分析和认证技术、访问控制技术、安全审计技术、数据溯源技术、APT攻击检测技术。
十、应用
无