数据科学与工程_考前知识点回顾

一、概述
  1. 数据的概念
    数据指的是事实或经过观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。

  2. 数据的类型

  • 按数据结构分类:结构化数据、半结构化数据、非结构化数据
    • 结构化数据:直接可以用传统关系数据库存储和管理的数据。
    • 半结构化数据:经过一定转换处理后可以用传统关系数据库存储和管理的数据。
    • 非结构化数据:无法用传统关系数据库存储和管理的数据。
  • 按 “存储” 分类:文本、图像、音频、视频、模板数据等。
  1. 数据模型
    数据模型的三种类型:概念模型、逻辑模型和物理模型。
    对应软工中的:概要设计、逻辑设计、物理设计。

  2. 数据科学
    定义:数据科学是关于数据的科学,是探索和发现数据中价值的理论、方法和技术,是对从数据中提取知识的研究。

  3. 数据预处理的步骤
    数据审计、数据清洗数据集成数据变换、数据脱敏、数据归约、数据标注。

  4. 数据科学家
    定义:能使用科学的方法,运用数据挖掘工具对复杂的、大量的数字、符号、文字、网址、音频、视频等信息进行数字化重现与认识,并从中寻找新的数据洞察的工程师或专家。

二、大数据
  1. 大数据面临的挑战
  • 数据的开放共享程度低
  • 数据的安全问题严峻
  • 制度建设落后
  • 大数据专业人才缺乏
  1. 大数据的特征
  • 数据量大 (Volume)
  • 数据类型多 (Variety)
  • 处理速度快 (Velocity)
  • 价值密度低 (Value)
  • 真实性强 (Veracity)
  1. 数据工程过程 / 数据生命周期
  • 大数据采集
  • 大数据预处理
  • 大数据存储与管理
  • 大数据分析与挖掘
  • 大数据可视化
  • 大数据安全保障
三、云计算

四、采集与预处理
  1. 大数据采集的来源
  • 商业数据 (最主要的数据来源)
  • 互联网数据
  • 物联网数据
  • 政府数据
  1. 大数据采集的方法
  • DPI 采集方法:采集 “裸格式” 的数据,即数据未经过任何处理。
  • 数据库采集方法
  • 感知设备数据采集方法
  • 系统日志采集方法
  • 网络数据采集方法
  1. 数据预处理
    任务:使残缺的数据变的完整,并将错误的数据纠正、多余的数据去除,进而将所需的数据挑选出来,为数据挖掘内核算法提供干净、准确、更有针对性的数据,并提高知识发现的准确度。

  2. 数据清洗的工作

  • 异常值的检测
  • 缺失值的处理
  • 错误值的处理
  • 不一致数据的处理
  • 重复数据的检测
五、存储与管理
  1. 大数据的存储方式
  • 文件系统
  • 数据库
    • 关系型数据库
    • 非关系型数据库
      • 键值数据库:Redis
      • 列存储数据库:HBase
      • 文档数据库:MongoDB
      • 图数据库:neo4j
    • 云存储
  1. 数据仓库
    数据仓库系统由数据仓库、ETL工具、元数据、访问工具、数据集市和数据仓库管理系统组成。

  2. Hadoop 两大核心部分

  • HDFS:Hadoop 中实现大数据存储功能的分布式文件系统。采用主从架构,由一个NameNode和多个DataNode组成。
  • MapReduce:是一种并行的计算架构。
    Hadoop集群具有良好的横向扩展性,其存储和计算能力随着集群主机数量的增加而不断扩展。
六、分析方法
  1. 大数据分析方法的类型
  • 描述分析:描述事情发生的结果。
  • 诊断分析:分析事情发生的原因。
  • 预测分析:预测未来事件的演化趋势和发生的概率。
  • 规范分析:用来控制事情发生的轨迹,用来决策制定以及提高分析效率。
  1. 大数据分析方法的步骤
  • 数据获取和存储
  • 数据信息抽取和无用信息清洗
  • 数据整合和表述
  • 数据模型的建立和结果的分析、评价
  • 结果阐述
  1. 时序数据
    时序数据是指时间序列数据,即将某一个指标在不同时间上的数值,按照时间的先后顺序排列而成的数列。
七、分析工具

Python;无

八、可视化
  1. 数据可视化的作用
  • 观测和跟踪数据
  • 分析数据
  • 辅助理解数据
  • 增加数据吸引力
  1. 数据可视化的分类
  • 科学可视化:面向科学和工程领域的科学可视化,处理科学数据。
  • 信息可视化:处理的对象是抽象的、非结构化数据集。
  • 可视分析学
  1. 可视化方法
  • 基于文本的可视化方法
    • 基于标签云的文本可视化
    • 基于树图的文本可视化
    • 基于关联的文本可视化
  • 基于图形的可视化方法
    • 桑基图、散点图、折线图、条形图、柱状图
九、安全
  1. 大数据安全问题的形成原因
  • 传统数据安全防护技术的缺陷
  • 大数据分布式存储的风险
  • 大数据平台安全机制的不足
  • 新型虚拟化网络技术的局限
  • 新型高级网络攻击的威胁
  1. 大数据安全问题的分类
  • 大数据平台安全
    • 大数据存储安全
    • 大数据传输安全
    • 大数据平台访问控制安全
    • 大数据运行计算安全
    • 大数据基础设施安全
  • 大数据自身安全
    • 数据的真实可信性
    • 数据的可靠性和完整性
  • 大数据应用安全
  1. 大数据安全相关技术
    数据加密技术、数据真实性分析和认证技术、访问控制技术、安全审计技术、数据溯源技术、APT攻击检测技术。
十、应用

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dataer__

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值